• Title/Summary/Keyword: 데이터문제

Search Result 9,122, Processing Time 0.038 seconds

Doing social big data analytics: A reflection on research question, data format, and statistical test-Convergent aspects (소셜네트워크서비스 빅데이터 분석을 위한 연구문제 설정과 통계적 제 문제-융합적 관점)

  • Park, Han-Woo;Choi, Kyoung-ho
    • Journal of Digital Convergence
    • /
    • v.14 no.12
    • /
    • pp.591-597
    • /
    • 2016
  • Research question and method play important roles in conducting a research in a scientifically valid way. In today's digitalized research environment, social network service (SNS) has rapidly become a new source of big data. While this shift provides new challenges for researchers in Korea, there is little scholarly discussion of how research questions can be framed and what statistical methods can be applied. This article suggests some basic but primary types of example questions for researchers employing social big data analytics. Further, we illustrate the interface of the intended data set specifically for SNS-mediated communication and information exchange behaviors. Lastly, a statistical test known as proper method for social big data is introduced.

The Bi-Cross Pretraining Method to Enhance Language Representation (Bi-Cross 사전 학습을 통한 자연어 이해 성능 향상)

  • Kim, Sung-ju;Kim, Seonhoon;Park, Jinseong;Yoo, Kang Min;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.320-325
    • /
    • 2021
  • BERT는 사전 학습 단계에서 다음 문장 예측 문제와 마스킹된 단어에 대한 예측 문제를 학습하여 여러 자연어 다운스트림 태스크에서 높은 성능을 보였다. 본 연구에서는 BERT의 사전 학습 문제 중 다음 문장 예측 문제에 대해 주목했다. 다음 문장 예측 문제는 자연어 추론 문제와 질의 응답 문제와 같이 임의의 두 문장 사이의 관계를 모델링하는 문제들에 성능 향상을 위해 사용되었다. 하지만 BERT의 다음 문장 예측 문제는 두 문장을 특수 토큰으로 분리하여 단일 문자열 형태로 모델에 입력으로 주어지는 cross-encoding 방식만을 학습하기 때문에 문장을 각각 인코딩하는 bi-encoding 방식의 다운스트림 태스크를 고려하지 않은 점에서 아쉬움이 있다. 본 논문에서는 기존 BERT의 다음 문장 예측 문제를 확장하여 bi-encoding 방식의 다음 문장 예측 문제를 추가적으로 사전 학습하여 단일 문장 분류 문제와 문장 임베딩을 활용하는 문제에서 성능을 향상 시키는 Bi-Cross 사전 학습 기법을 소개한다. Bi-Cross 학습 기법은 영화 리뷰 감성 분류 데이터 셋인 NSMC 데이터 셋에 대해 학습 데이터의 0.1%만 사용하는 학습 환경에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 5점 가량의 성능 향상이 있었다. 또한 KorSTS의 bi-encoding 방식의 문장 임베딩 성능 평가에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 1.5점의 성능 향상을 보였다.

  • PDF

A Design of a Distributed Computing Problem Solving Environment for Dietary Data Analysis (식이 데이터 분석을 위한 분산 컴퓨팅 문제풀이환경 설계)

  • Choi, Jieun;Ahn, Younsun;Kim, Yoonhee
    • Journal of KIISE
    • /
    • v.42 no.7
    • /
    • pp.834-839
    • /
    • 2015
  • Recently, wellness has become an issue related to improvements in personal health and quality of life. Data that are accumulated daily, such as meals and momentum records, in addition to body measurement information such as body weight, BMI and blood pressure have been used to analyze the personal health data of an individual. Therefore, it has become possible to prevent potential disease and to analyze dietary or exercise patterns. In terms of food and nutrition, analyses are performed to evaluate the health status of an individual using dietary data. However, it is very difficult to process the large amount of dietary data. An analysis of dietary data includes four steps, and each step contains a series of iterative tasks that are executed over a long time. This paper proposes a problem solving environment that automates dietary data analysis, and the proposed framework increases the speed with which an experiment can be conducted.

Efficient Data Preprocessing Scheme for Audio Deep Learning in Solar-Powered IoT Edge Computing Environment (태양 에너지 수집형 IoT 엣지 컴퓨팅 환경에서 효율적인 오디오 딥러닝을 위한 데이터 전처리 기법)

  • Yeon-Tae Yoo;Chang-Han Lee;Seok-Mun Heo;Na-Kyung You;Ki-Hoon Kim;Chan-Seo Lee;Dong-Kun Noh
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.81-83
    • /
    • 2023
  • 태양 에너지 수집형 IoT 기기는 주기적으로 재충전되는 태양 에너지의 특성상, 에너지 소모를 최소화하기보다는 수집된 에너지를 최대한 유용하게 사용하는 것이 중요하다. 한편, 데이터 기밀성과 프라이버시, 응답속도, 비용 등의 이유로 클라우드가 아닌 데이터 소스 근처에서 머신러닝을 수행하는 엣지 AI에 대한 연구도 활발한데, 그 중 하나는 여러 IoT 장치들이 수집한 오디오 데이터를 활용하여, 다양한 AI 응용들을 IoT 엣지 컴퓨팅 환경에서 제공하는 것이다. 그러나, 이와 관련된 많은 연구에서, IoT 기기들은 에너지의 제약으로 인하여, 엣지 서버(IoT 서버)로의 센싱 데이터 전송만을 수행하고, 데이터 전처리를 포함한 모든 AI 과정은 엣지 서버에서 수행한다. 이 경우, 엣지 서버의 과부하 문제 뿐 아니라, 학습 및 추론에 불필요한 데이터까지도 서버에 그대로 전송되므로 네트워크 과부하 문제도 야기한다. 또한, 이를 해결하고자, 데이터 전처리 과정을 각 IoT 기기에 모두 맡긴다면, 기기의 에너지 부족으로 정전시간이 증가하는 또 다른 문제가 발생한다. 본 논문에서는 각 IoT 기기의 에너지 상태에 따라 데이터 전처리 여부를 결정함으로써, 기기들의 정전시간 증가 문제를 완화시키면서 서버 집중형 엣지 AI 환경의 문제들(엣지 서버 및 네트워크 과부하)을 완화시키고자 한다. 제안기법에서 IoT 장치는 기기가 기본적으로 동작하는 데 필요한 에너지 외의 여분의 에너지 양을 예측하고, 이 여분의 에너지가 있는 경우에만 이를 사용하여 기기에서 전처리 과정, 즉 수집 대상 소리 판별과 잡음 제거 과정을 거친 후 서버에 전송함으로써, IoT기기의 정전시간에 영향을 주지 않으면서, 에너지 적응적으로 데이터 전처리 위치(IoT기기 또는 엣지 서버)를 결정하여 수행한다.

User-defined types Based Consistent Query Language for Metadata Registry (사용자 정의 타입에 기반한 메타데이터 레지스트리를 위한 일관성 있는 질의 언어)

  • Kim, Jang-Won;Jeong, Dongw-Won;Baik, Doo-Kwon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2009.01a
    • /
    • pp.1-4
    • /
    • 2009
  • 이 논문에서는 메타데이터 레지스트리(ISO/IEC 11179: Metadata Registry)들이 가지고 있는 메타데이터 정보를 검색하고, 공유하기 위해 일관성 있는 질의 언어를 제안한다 메타데이터 레지스트리는 국제 표준으로서 메타데이터들을 정의하고 이들을 관리 및 공유를 하기 위해 만들어졌다. 이와 같은 국제 표준을 기반으로 한 메타데이터 레지스트리들이 서지, 환경, 의료 분야 등의 다양한 영역에서 사용되고 있다. 이와 함께 메타데이터 레지스트리를 기반으로 하여 기존에 저장된 메타데이터들을 검색하고, 공유하고, 관리하고자 하는 이슈에 대한 연구가 진행되고 있다. 하지만 현재까지 다양한 분야에 있는 메타데이터 레지스트리가 가지고 있는 정보를 가져오기 위한 표준 인터페이스가 제공되고 있지 않다. 이러한 문제를 해결하기 위한 연구로 SQL에 메타데이터 레지스트리를 위한 공통 연산자들을 추가하여 메타데이터 레지스트리에 존재하는 데이터들을 활용하는 연구가 있다. 하지만 이런 연산자들을 이용하기 위해서는 상용 DBMS 엔진에 추가되어야 하며, 연산자들이 없는 경우 일관된 질의어를 수행할 수 없다는 문제를 가지고 있다. 따라서 이 논문에서는 이와 같은 문제를 해결하기 위해서 국제 표준인 SQL(ISO/IEC 9075) 에서 정의하고 있는 사용자 정의 타입(User-defined types) 을 기반으로 한 일관성 질의 언어를 제안한다.

  • PDF

Integration of Distributed Biological Data using Modified K-means Algorithm (K-means 알고리즘을 사용한 분산 바이오 데이터 통합화)

  • Ryu, Byung-Gul;Shin, Dong-Kyoo;Shin, Dong-Il;Jeong, Jong-Il
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06b
    • /
    • pp.32-35
    • /
    • 2007
  • Bioinformatics의 목표는 생물학적인 질의를 해결하는 것과 생물학자들이 수집된 데이터를 분석하고 검색을 하여 생물학자들이 정확한 일을 수행하는 것이다. 인터넷은 여러 조사 그룹의 데이터베이스에 동시에 접근가능한 수단을 제공했으나 이러한 분산 환경에서 많은 양의 데이터는 전송 시의 시간 지연 문제와 최종 검색시의 느린 검색 속도 문제를 나타낸다. 데이터 클러스터링은 데이터의 검색시 이러한 문제점을 해결하기 위하여 이용될 수 있는 방법이지만 단순 적용시에는 데이터의 양에 비례하는 실행 시간이 또 다른 문제를 발생시킨다. 본 논문에서는 바이오데이터의 효율적인 클러스터링을 위한 개선된 분산 클러스터링 시나리오와 이를 위해 수정된 K-means 알고리즘을 제시한다. 최종 실험 결과는 20% 이상 향상된 실행 속도를 보여준다.

  • PDF

Adaptive Boundary Correction based Particle Swarm Optimization for Activity Recognition (사용자 행동인식을 위한 적응적 경계 보정기반 Particle Swarm Optimization 알고리즘)

  • Heo, Seonguk;Kwon, Yongjin;Kang, Kyuchang;Bae, Changseok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1166-1169
    • /
    • 2012
  • 본 논문은 사용자 행동인식을 위해 기존 PSO (Particle Swarm Optimization) 알고리즘의 경계선을 통한 데이터 분류에서 데이터의 수집환경에 의해 발생하는 문제를 벡터의 길이비교를 이용한 보정을 통해 보완한 알고리즘을 제안한다. 기존의 PSO 알고리즘은 데이터 분류를 위해서 데이터의 최소, 최대값을 이용하여 경계를 생성하고, 이를 이용하여 데이터를 분류하였다. 그러나 PSO를 이용하여 행동인식을 할 때 행동이 수집되는 환경에 따라서 경계에 포함되지 못해 행동이 분류되지 못하는 문제가 있다. 이러한 분류의 문제를 보완하기 위해 경계를 벗어난 데이터와 각 행동을 대표하는 데이터의 벡터 길이를 계산하고 최소길이를 비교하여 분류한다. 실험결과, 기존 PSO 방법에 비해 개선된 방법이 평균적으로 앉기 1%, 걷기 7%, 서기 7%의 개선된 결과를 얻었다.

Lambda Architecture Design using Apache Kudu and Impala (Apache Kudu와 Impala를 활용한 Lambda Arch tecture 설계)

  • Hwang, Yun-Young;Lee, Pil-Won;Shin, Yong-Tae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.60-62
    • /
    • 2020
  • 데이터의 양은 기술의 발전으로 발생하는 크게 증가하였고 다양한 빅데이터 처리 플랫폼이 등장하고 있다. 이 중 가장 널리 사용되고 있는 품랫폼이 Apache 소프트웨어 재단에서 개발한 Hadoop이며, Hadoop은 IoT 분야에도 사용된다. 그러나 기존에 Hadoop 기반 IoT 센서 데이터 수집 분석 환경은 Hadoop의 코어 프로젝트인 HDFS의 Small File로 인한 네임노드의 과부하 문제와 Import된 데이터의 Update나 Delete가 불가능하다는 문제가 있다. 본 논문에서는 Apache Kudu와 Impala를 활용해 Lambda Architecture를 설계한다. 제안하는 Architecture는 IoT 센서 데이터를 Cold-Data와 Hot-Data로 분류해 각 성격에 맞는 스토리지에 저장하고 Batch를 동해 생성된 Batch-View와 Apache Kudu와 Impala를 통해 생성된 Real-time View를 활용해 기존 Hadoop 기반 IoT 센서 데이터 수집 분석 환경의 문제를 해결하고 사용자가 분석된 데이터에 접근하는 시간을 단축한다.

Highly reliable distributed OT system security mechanism (고신뢰 분산 운영기술 시스템 보안 메커니즘)

  • Jung-Hyun Moon;Il-Gu Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.471-474
    • /
    • 2024
  • 중앙 집중형 OT 시스템은 여러 센서와 장비에서 수집된 데이터가 중앙 서버로 전송되며 처리된다. 이러한 중앙 집중 방식은 모니터링, 의사결정, 제어 등의 데이터 관리를 효율적으로 처리할 수 있지만 구조적으로 데이터 처리가 중앙 시스템에 집중되는 문제가 있다. 그리고 대규모의 산업 데이터가 서버로 전송되기 때문에, 데이터 전송과 활용 과정의 데이터 프라이버시 문제가 존재한다. 그리고 중앙 집중 방식 시스템의 단일 장애 취약점에 의한 데이터 유출이나 시스템 장애로 이어질 수 있다. 이러한 문제를 해결하기 위해 본 연구에서는 고신뢰 분산 OT 보안 메커니즘을 제안한다. 실험 결과에 따르면 제안한 메커니즘은 전체적인 시스템의 구조를 강화하면서 99%의 위험상황 분류 정확도를 보였다.

A Deep Learning Based Over-Sampling Scheme for Imbalanced Data Classification (불균형 데이터 분류를 위한 딥러닝 기반 오버샘플링 기법)

  • Son, Min Jae;Jung, Seung Won;Hwang, Een Jun
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.8 no.7
    • /
    • pp.311-316
    • /
    • 2019
  • Classification problem is to predict the class to which an input data belongs. One of the most popular methods to do this is training a machine learning algorithm using the given dataset. In this case, the dataset should have a well-balanced class distribution for the best performance. However, when the dataset has an imbalanced class distribution, its classification performance could be very poor. To overcome this problem, we propose an over-sampling scheme that balances the number of data by using Conditional Generative Adversarial Networks (CGAN). CGAN is a generative model developed from Generative Adversarial Networks (GAN), which can learn data characteristics and generate data that is similar to real data. Therefore, CGAN can generate data of a class which has a small number of data so that the problem induced by imbalanced class distribution can be mitigated, and classification performance can be improved. Experiments using actual collected data show that the over-sampling technique using CGAN is effective and that it is superior to existing over-sampling techniques.