A Study on Automation of Big Data Quality Diagnosis Using Machine Learning

머신러닝을 이용한 빅데이터 품질진단 자동화에 관한 연구

  • 이진형 (위세아이텍 인공지능팀)
  • Received : 2017.11.27
  • Accepted : 2017.12.26
  • Published : 2017.12.31

Abstract

In this study, I propose a method to automate the method to diagnose the quality of big data. The reason for automating the quality diagnosis of Big Data is that as the Fourth Industrial Revolution becomes a issue, there is a growing demand for more volumes of data to be generated and utilized. Data is growing rapidly. However, if it takes a lot of time to diagnose the quality of the data, it can take a long time to utilize the data or the quality of the data may be lowered. If you make decisions or predictions from these low-quality data, then the results will also give you the wrong direction. To solve this problem, I have developed a model that can automate diagnosis for improving the quality of Big Data using machine learning which can quickly diagnose and improve the data. Machine learning is used to automate domain classification tasks to prevent errors that may occur during domain classification and reduce work time. Based on the results of the research, I can contribute to the improvement of data quality to utilize big data by continuing research on the importance of data conversion, learning methods for unlearned data, and development of classification models for each domain.

본 연구에서는 빅데이터의 품질을 진단하는 방법을 자동화하는 방법을 제안하고 있다. 빅데이터의 품질진단을 자동화해야 하는 이유는 4차 산업혁명이 이슈화 되면서 과거보다 더 많은 볼륨의 데이터를 발생시키고 이 데이터들을 활용 하려는 요구가 증가하기 때문이다. 데이터는 급증하지만 데이터의 품질을 진단하기 위해 많은 시간이 소비된다면 데이터를 활용하기 위해 많은 시간이 걸리거나 데이터의 품질이 낮아질 수 있다. 그러면 이러한 낮은 품질의 데이터로부터 의사결정이나 예측을 한다면 그 결과 또한 잘못된 방향을 제시할 것이다. 이러한 문제를 해결하기 위해 많은 데이터를 신속하게 진단하고 개선할 수 있는 머신러닝 이용한 빅데이터 품질 향상을 위한 진단을 자동화 할 수 있는 모델을 개발하였다. 머신러닝을 이용하여 도메인 분류 작업을 자동화하여 도메인 분류 작업 시 발생할 수 있는 오류를 예방하고 작업 시간을 단축시켰다. 연구 결과를 토대로 데이터 변환의 중요성, 학습되지 않은 데이터에 대한 학습 시킬 수 있는 방안 모색, 도메인별 분류 모델을 개발에 대한 연구를 지속적으로 진행한다면 빅데이터를 활용하기 위한 데이터 품질 향상에 기여할 수 있을 것이다.

Keywords

References

  1. 김선호, 이창수, 이진우, "공공데이터 품질관리 성숙 수준에 대한 연구", 대한산업공학회 추계학술대회논문집, pp.159-165, 2016.
  2. 명재호, 안희진, 이창수, 김성현, 임동진, 오경조, 이종규, 김선영, 최용준, 데이터 품질 가이드라인, 한국데이터진흥원, 2011.
  3. 이상기, 채철주, 홍의경, "데이터프로파일링과 정규 표현식 활용 비정형 과학기술 빅데이터 품질관리 방안", 한국콘텐츠학회논문지, 제14권, 제12호, pp.486-493, 2014.
  4. 이용구, 김병구, "학술지 기사에 대한 메타데이터 품질의 계량화 방법에 관한 연구", 정보관리학회지, 제28권, 제1호, pp.309-326, 2011. https://doi.org/10.3743/KOSIM.2011.28.1.309
  5. 이현호, R과 SQL을 활용한 실전 데이터전처리, 카오스북, 2016.
  6. 차경엽, 심광호, "공공부문 정보시스템 데이터의 신뢰성 점검기법 개발", 한국통계학회논문집, 제17권, 제5호, pp.745-753, 2010.
  7. 호진원, 이미영, "IT활용 감사의 효과성 향상을 위한 데이터 품질관리 방안 연구", 한국사회와 행정연구, 제23권, 제4호, pp.31-53, 2013.
  8. Sungho Kwon, A Study on the Standardization Method of Inventory Item Master Data Using Text Mining and Standardization Approaches, Masters dissertation. University of Seoul, Seoul 2010.
  9. http://news.hankyung.com/article/2017060160031.
  10. http://biz.chosun.com/site/data/html_dir/2017/03/08/2017030801954.html.
  11. http://www.yonhapnews.co.kr/bulletin/2017/05/24/0200000000AKR20170524044700089.HTML.