DOI QR코드

DOI QR Code

A comparison of imputation methods using nonlinear models

비선형 모델을 이용한 결측 대체 방법 비교

  • Kim, Hyein (Department of Statistics, Korea University) ;
  • Song, Juwon (Department of Statistics, Korea University)
  • Received : 2019.04.16
  • Accepted : 2019.05.30
  • Published : 2019.08.31

Abstract

Data often include missing values due to various reasons. If the missing data mechanism is not MCAR, analysis based on fully observed cases may an estimation cause bias and decrease the precision of the estimate since partially observed cases are excluded. Especially when data include many variables, missing values cause more serious problems. Many imputation techniques are suggested to overcome this difficulty. However, imputation methods using parametric models may not fit well with real data which do not satisfy model assumptions. In this study, we review imputation methods using nonlinear models such as kernel, resampling, and spline methods which are robust on model assumptions. In addition, we suggest utilizing imputation classes to improve imputation accuracy or adding random errors to correctly estimate the variance of the estimates in nonlinear imputation models. Performances of imputation methods using nonlinear models are compared under various simulated data settings. Simulation results indicate that the performances of imputation methods are different as data settings change. However, imputation based on the kernel regression or the penalized spline performs better in most situations. Utilizing imputation classes or adding random errors improves the performance of imputation methods using nonlinear models.

자료에는 다양한 원인에 의해 결측이 발생한다. 만약 결측치를 제외하고 완전히 관찰된 자료만으로 분석을 실시한다면 결측자료 메커니즘이 완전임의결측이 아닌 경우 결과에 편향이 발생하거나 제외된 개체로 인한 정보의 손실로 추정의 정밀도가 약화된다. 결측이 하나의 변수에서만 일어나지 않기 때문에, 자료에 변수가 많을 수록 이 문제는 심화된다. 문제를 개선하기 위해 결측치를 대체하는 여러가지 방법들이 제안되었다. 하지만 모수적인 모형을 이용한 대체 방법들은 가정에 위배되는 현실 데이터에는 적합하지 않다. 따라서 본 연구에서는 자료의 분포 가정에 덜 영향을 받는 커널, 리샘플링, 스플라인 방법을 활용한 비선형 대체 방법들을 리뷰하고 필요한 경우 기존의 비선형 대체 방법에 대체클래스를 사용하여 대체값의 정확도를 높이거나 랜덤성을 가지는 오차를 더해주어 추정치의 분산이 적게 추정되는 문제를 개선하는 확장된 결측 대체 방법을 제안한다. 본 연구에서 고려한 여러 가지 대체 방법들은 다양한 모의자료 설계 하에서 성능을 비교하였다. 모의실험 결과, 비선형 대체 방법들은 각 설계 하에 다른 성능을 보이며 전반적으로 커널 회귀나 스플라인을 활용한 대체 방법들이 좋은 성능을 보였다. 더불어, 확장된 대체 방법은 기존의 대체 방법이 가지는 문제점을 개선함을 확인할 수 있었다.

Keywords

References

  1. Aerts, M., Claeskens, G., Hens, N., and Molenberghs, G. (2002). Local multiple imputation, Biometrika, 89, 375-388. https://doi.org/10.1093/biomet/89.2.375
  2. Cheng, P. E. (1994). Nonparametric estimation of mean functionals with data missing at random, Journal of the American Statistical Association, 89, 81-87. https://doi.org/10.1080/01621459.1994.10476448
  3. Eilers, P. H. C. and Marx, B. D. (1996). Flexible smoothing with B-splines and penalties, Statistical Science, 11, 89-121. https://doi.org/10.1214/ss/1038425655
  4. Kang, D. Y. J. and Schafer, J. L. (2007). Demystifying double robustness: a comparison of alternative strategies for estimating a population mean from incomplete data, Statistical Science, 22, 523-539. https://doi.org/10.1214/07-STS227
  5. Little, R. J. A. and An, H. (2004). Robust likelihood-based analysis of multivariate data with missing values, Statistica Sinica, 14, 949-968.
  6. Little, R. J. A. and Rubin, D. B. (2002). Statistical Analysis with Missing Data (2nd ed.), Wiley, New York.
  7. Nadaraya, E. A. (1964). On estimating regression, Theory of Probability and its Application, 9, 141-142. https://doi.org/10.1137/1109020
  8. Marx, B. D. and Eilers, P. H. C. (1998). Direct generalized additive modeling with penalized likelihood, Computational Statistics & Data Analysis, 28, 193-209. https://doi.org/10.1016/S0167-9473(98)00033-4
  9. Silverman, B. W. (1986). Density Estimation for Statistics and Data Analysis, Chapman and Hall, London.
  10. Titterington, D. M. and Sedransk, J. (1989). Imputation of missing values using density estimation, Statistics & Probability Letters, 8, 411-418. https://doi.org/10.1016/0167-7152(89)90020-5
  11. Wang, Q., Linton, O., and Hardle, W. (2004). Semiparametric regression analysis with missing response at random, Journal of the American Statistical Association, 99, 334-345. https://doi.org/10.1198/016214504000000449
  12. Zhang, G. and Little, R. J. A. (2011). A comparative study of doubly robust estimators of the mean with missing data, Journal of Statistical Computation and Simulation, 81, 2039-2058. https://doi.org/10.1080/00949655.2010.516750