DOI QR코드

DOI QR Code

결측값 대체를 위한 데이터 재현 기법 비교

Comparison of Data Reconstruction Methods for Missing Value Imputation

  • 김청호 (한국외국어대학교 통계학과) ;
  • 강기훈 (한국외국어대학교 통계학과)
  • 투고 : 2023.10.20
  • 심사 : 2023.12.10
  • 발행 : 2024.01.31

초록

무응답 및 결측값은 표본 탈락, 설문조사에 대한 답변 회피 등으로 발생하며 정보의 손실 및 편향된 추론의 가능성이 있는 문제가 발생하게 되며, 이 경우 결측값을 적절한 값으로 바꾸는 대체가 필요하게 된다. 본 논문에서는 결측값에 대한 대체 방법으로 제안되었던 평균 대체, 다중회귀 대체, 랜덤 포레스트 대체, K-최근접 이웃 대체, 그리고 딥러닝을 기본으로 한 오토인코더 대체와 잡음제거 오토인코더 대체 방법을 비교한다. 결측값을 대체하는 이러한 방법들에 대해 설명하고, 연속형의 모의실험 데이터와 실제 데이터에 접목시켜 각 방법들을 비교하였다. 비교 결과 대부분의 경우에서 다중 대체 방법인 랜덤 포레스트 대체 방법과 잡음제거 오토인코더 대체 방법의 성능이 좋았음을 확인하였다.

Nonresponse and missing values are caused by sample dropouts and avoidance of answers to surveys. In this case, problems with the possibility of information loss and biased reasoning arise, and a replacement of missing values with appropriate values is required. In this paper, as an alternative to missing values imputation, we compare several replacement methods, which use mean, linear regression, random forest, K-nearest neighbor, autoencoder and denoising autoencoder based on deep learning. These methods of imputing missing values are explained, and each method is compared by using continuous simulation data and real data. The comparison results confirm that in most cases, the performance of the random forest imputation method and the denoising autoencoder imputation method are better than the others.

키워드

과제정보

이 연구는 2023년도 한국외국어대학교 교원연구지원사업 지원에 의하여 이루어진 것임

참고문헌

  1. Rubin, DB, Multiple imputation for nonresponse in surveys, John Wiley & Sons, New York, 1987
  2. Raghunathan TE, Lepkowski JM, Hoewyk JV, Solenberger P, "A multivariate technique for multiply imputing missing values using a sequence of regression models", Survey Methodology, Vol. 27, pp. 85-95. 2001
  3. Dixon, JK, "Pattern recognition with partly missing data", IEEE Transactions on Systems, Man, and Cybernetics, Vol. 9, pp. 617-621, 1979, DOI: 10.1109/TSMC.1979.4310090
  4. Stekhoven DJ, Buhlmann, P, "MissForest-nonparametric missing value imputation for mixed-type data", Bioinformatics, Vol. 28, pp. 112-118. 2012, DOI: 10.1093/bioinformatics/btr597
  5. Van Buuren, S, Groothuis-Oudshoorn, K, "MICE: Multivariate imputation by chained equations in R", Journal of Statistical Software, Vol. 45, pp. 1-67, 2011, DOI: 10.18637/jss.v045.i03
  6. Rubin, DB, "Multiple imputations in sample surveys-a phenomenological Bayesian approach to nonresponse", In proceedings of the survey research methods section of the American Statistical Association, Vol. 1, pp. 20-28, 1978
  7. Little RJA, "A Test of Missing Completely at Random for Multivariate Data with Missing Values", Journal of the American Statistical Association, Vol. 83, pp. 1198-1202, 1988, DOI:10.1080/01621459
  8. LeCun Y, Bengio Y, Hinton GE, "Deep learning", Nature, Vol. 521, pp. 436-444. 2015, DOI:10.1038/nature14539
  9. Ko KH, "Study on Difference of Wordvectors Analysis Induced by Text Preprocessing for Deep Learning", The Journal of the Convergence on Culture Technology, Vol. 8, No. 5, pp. 489-495, 2022, DOI: 10.17703/JCCT.2022.8.5.489
  10. Zhai J, Zhang S, Chen J, He Q, "Autoencoder and Its Various Variants", 2018 IEEE International Conference on Systems, Man, and Cybernetics (SMC), Miyazaki, Japan, 2018, pp. 415-419, DOI:10.1109/SMC.2018.00080.
  11. Bank D, Koenigstein N, Giryes, R. "Autoencoders", available from arXiv:2003.05991v2, 2021, DOI:10.48550/arXiv.2003.05991
  12. Pereira RC, Santos MS, Rodrigues PP, Abreu PH. "Reviewing autoencoders for missing data imputation: Technical trends, applications and outcomes", Journal of Artificial Intelligence Research, Vol. 69, pp. 1255-1285, 2020, DOI:10.1613/jair.1.12312
  13. Gondara L, Wang K, "MIDA : Multiple imputation using denoising autoencoders", Pacific-Asia Conference on Knowledge Discovery and Data Mining, pp. 260-272, 2018, DOI: 10.48550/arXiv.1705.02737
  14. Park JG, Choi ES, Kang MS, Jun YG, "Dropout Genetic Algorithm Analysis for Deep Learning Generalization Error Minimization", International Journal of Advanced Culture Technology, Vol. 5, No. 2, pp. 74-81, 2017, DOI: 10.17703/IJACT.2017.5.2.74
  15. 공공데이터포털. https://www.data.go.kr/