DOI QR코드

DOI QR Code

Procedure for the Selection of Principal Components in Principal Components Regression

주성분회귀분석에서 주성분선정을 위한 새로운 방법

  • Kim, Bu-Yong (Department of Statistics, Sookmyung Women's University) ;
  • Shin, Myung-Hee (Team of Customer Strategy, Woongjin Coway Co. Ltd)
  • 김부용 (숙명여자대학교 통계학과) ;
  • 신명희 (웅진코웨이(주) 고객전략팀)
  • Received : 20100700
  • Accepted : 20100800
  • Published : 2010.10.31

Abstract

Since the least squares estimation is not appropriate when multicollinearity exists among the regressors of the linear regression model, the principal components regression is used to deal with the multicollinearity problem. This article suggests a new procedure for the selection of suitable principal components. The procedure is based on the condition index instead of the eigenvalue. The principal components corresponding to the indices are removed from the model if any condition indices are larger than the upper limit of the cutoff value. On the other hand, the corresponding principal components are included if any condition indices are smaller than the lower limit. The forward inclusion method is employed to select proper principal components if any condition indices are between the upper limit and the lower limit. The limits are obtained from the linear model which is constructed on the basis of the conjoint analysis. The procedure is evaluated by Monte Carlo simulation in terms of the mean square error of estimator. The simulation results indicate that the proposed procedure is superior to the existing methods.

데이터마이닝 분야에서의 회귀모형에는 연관성이 높은 설명변수들이 포함되어 다중공선성을 유발하는 경우가 많은데, 다중공선성이 야기하는 문제를 해결하기 위하여 주성분회귀분석을 적용할 수 있다. 이 분석에서는 적절한 주성분을 선정하는 과정이 핵심인데, 기존의 선정방법들은 다중공선성을 잘 해결하지 못하거나 모형의 적합성을 저하시킨다는 지적을 받고 있다. 따라서 본 논문에서는 다중공선성 문제와 적합성 저하 현상을 동시에 해결할 수 있는 새로운 선정방법을 제안하였다. 다중공선성에 의해 최소제곱추정량의 분산이 팽창되는 문제를 주성분회귀에 의해 해결할 수 있지만, 주성분의 일부를 선정함에 따라 발생하는 편의도 동시에 통제해야 한다. 따라서 주성분회귀추정량의 평균제곱오차를 최소가 되게 하는 상태지수를 측정하고, 이 값에 영향을 미치는 주요 요인들을 컨조인트분석에 의해 파악하여 주성분 선정기준 모형을 구축하였다. 선정기준의 상한과 하한을 설정하고, 상태지수가 상한을 초과하면 해당 주성분을 제외시키고, 하한에 미달하면 해당 주성분을 포함시킨다. 그리고 상한과 하한 사이의 상태지수에 대응하는 주성분들에 대해서는 일반화선형검정을 순차적으로 적용하여 주성분을 선정하는 방법이다.

Keywords

References

  1. Belsley, D. A., Kuh, E. and Welsch, R. E. (1980). Regression Diagnostics, John Wiley.
  2. Hadi, A. S. and Ling, R. F. (1998). Some cautionary notes on the use of principle components regression, The American Statistician, 52, 15-19. https://doi.org/10.2307/2685559
  3. Jolliffe, I. T. (1972). Discarding variables in a principal component analysis. I: artificial data, Applied Statistics, 21, 160-1733. https://doi.org/10.2307/2346488
  4. Jolliffe, I. T. (1982). A note on the use of principal component in regression, Applied Statistics, 31, 300-303. https://doi.org/10.2307/2348005
  5. Mansfield, E. R., Webster, J. T. and Gunst, R. F. (1977). An analytic variable selection technique for principal component regression, Applied Statistics, 26, 34-40. https://doi.org/10.2307/2346865
  6. Marquardt, D. W. (1970). Generalized inverse, ridge regression, biased linear estimation, and nonlinear estimation, Technometrics, 12, 591-612. https://doi.org/10.2307/1267205
  7. Marquardt, D. W. and Snee, R. D. (1975). Ridge regression in practice, The American Statistician, 29, 3-20. https://doi.org/10.2307/2683673
  8. Mason, R. L. and Gunst, R. F. (1985). Selecting principal components in regression, Statistics & Probability Letters, 3, 299-301. https://doi.org/10.1016/0167-7152(85)90059-8
  9. Montgomery, D. C., Peck, E. A. and Vining, G. G. (2006). Introduction to Linear Regression Analysis, John Wiley & Sons, Inc.
  10. Pidot, Jr., G. B. (1969). A principal components of the determinants of local government fiscal patterns, The Review of Economics and Statistics, 51, 176-188. https://doi.org/10.2307/1926727

Cited by

  1. A Criterion for the Selection of Principal Components in the Robust Principal Component Regression vol.18, pp.6, 2011, https://doi.org/10.5351/CKSS.2011.18.6.761