DOI QR코드

DOI QR Code

A Study on the Data Fusion Method using Decision Rule for Data Enrichment

의사결정 규칙을 이용한 데이터 통합에 관한 연구

  • Kim S.Y. (Department of Statistical Informatics, Chonbuk National University) ;
  • Chung S.S. (Department of Statistical Informatics, Chonbuk National University)
  • 김순영 (전북대학교 통계정보과학과) ;
  • 정성석 (전북대학교 수학통계정보과학부(응용통계연구소))
  • Published : 2006.07.01

Abstract

Data mining is the work to extract information from existing data file. So, the one of best important thing in data mining process is the quality of data to be used. In this thesis, we propose the data fusion technique using decision rule for data enrichment that one phase to improve data quality in KDD process. Simulations were performed to compare the proposed data fusion technique with the existing techniques. As a result, our data fusion technique using decision rule is characterized with low MSE or misclassification rate in fusion variables.

대용량의 데이터로부터 의미있는 지식을 찾는 과정에서 데이터의 질은 무엇보다도 중요하다. 본 연구에서는 데이터의 충실도를 높이기 위한 방법으로 여러 경로로부터 수집된 데이터의 정보를 활용하기 위해 데이터 마이닝 알고리즘인 의사결정 규칙을 이용한 데이터 통합 기법을 제안하고, 실제 데이터를 이용하여 모의실험을 통해 제안된 알고리즘의 효율성을 비교하였다. 실험결과 제안된 알고리즘이 데이터 통합의 성능을 향상시킴을 알 수 있었다.

Keywords

References

  1. 김순영 , 이기훈, 정성석 (2005), A Study on a Statistical Matching Method Using Clustering for Data Enrichment, <한국통계학회 논문집>, 12, 509-520 https://doi.org/10.5351/CKSS.2005.12.2.509
  2. 정성석, 김순영, 김현진 (2004). 데이터 보강을 위한 데이터 통합기법에 관한 연구, <응용통계연구>, 17, 605-617
  3. Ingram, D., O' Hare, J., Scheuren, F. and Turek, J. (2000). Statistical matching: a new validation case study, Proceedings of the Survey Research Methods Section, American Statistical Association
  4. Rassler, S. (2002). Statistical Matching : A frequentist theory, practical applications, and alternative Bayesian approaches, Springer Verlag, New York
  5. Saporta, G. (2002). Data fusion and data grafting, Computational Statistics & Data Analysis, 38, 465-473 https://doi.org/10.1016/S0167-9473(01)00072-X
  6. U.S. Department of Commerce, (1980). Report on exact and statistical matching techniques, Statistical Policy Working Paper 5. Washington, DC: Federal Committee on Statistical Methodology
  7. van der Putten, P., Joost N. K. and Gupta, A. (2002). Why the Information explosion can be bad for data mining, and how data fusion provides a way out, Second SIAM International Conference on Data Mining, Arlington, April, 11-13
  8. Yoshizoe, Y. and Araki, M. (1999). Use of statistical matching for household surveys in Japan, In 52nd Session of the International Statistical Institute, Helsinki, Finland