DOI QR코드

DOI QR Code

Simple principal component analysis using Lasso

라소를 이용한 간편한 주성분분석

  • Received : 2013.04.19
  • Accepted : 2013.05.12
  • Published : 2013.05.31

Abstract

In this study, a simple principal component analysis using Lasso is proposed. This method consists of two steps. The first step is to compute principal components by the principal component analysis. The second step is to regress each principal component on the original data matrix by Lasso regression method. Each of new principal components is computed as the linear combination of original data matrix using the scaled estimated Lasso regression coefficient as the coefficients of the combination. This method leads to easily interpretable principal components with more 0 coefficients by the properties of Lasso regression models. This is because the estimator of the regression of each principal component on the original data matrix is the corresponding eigenvector. This method is applied to real and simulated data sets with the help of an R package for Lasso regression and its usefulness is demonstrated.

이 연구에서는 라소를 이용한 간편한 주성분분석을 제안한다. 이 방법은 다음의 두 단계로 구성되어 있다. 먼저 주성분분석에 의해 주성분을 구한다. 다음으로 각 주성분을 반응변수로 하고 원자료를 설명변수로 하는 라소 회귀모형에 의한 회귀계수 추정량을 구한다. 이 회귀계수 추정량에 기반한 새로운 주성분을 사용한다. 이 방법은 라소 회귀분석의 성질에 의해 회귀계수 추정량이 보다 쉽게 0이 될 수 있기 때문에 해석이 쉬운 장점이 있다. 왜냐하면 주성분을 반응변수로 하고 원자료를 설명변수로 하는 회귀모형의 회귀계수가 고유벡터가 되기 때문이다. 라소 회귀모형을 위한 R 패키지를 이용하여 모의생성된 자료와 실제 자료에 이 방법을 적용하여 유용성을 보였다.

Keywords

References

  1. Friedman, J., Hastie, T. and Tibshirani, R. (2008). Regularization paths for generalized linear models via coordinate descent. Journal of Statistical Software, 33, 1-22.
  2. Johnson, R. A. and Wichern, D. W. (1992). Applied multivariate statistical analysis, 3rd Ed., Prentice Hall, New Jersey.
  3. Park, C. and Kye, M. J. (2013). Penalized logistic regression models for determining the discharge of dyspnea patients. Journal of the Korean Data & Information Science Society, 24, 125-133. https://doi.org/10.7465/jkdi.2013.24.1.125
  4. Shen, H. and Huang, J. Z. (2008). Sparse principal component analysis via regularized low rank matrix approximation. Journal of Multivariate Analysis, 99, 1015-1034. https://doi.org/10.1016/j.jmva.2007.06.007
  5. Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society B, 21, 279-289.
  6. Whitten, D. A. and Tibshirani, R. (2011). Penalized classification using Fisher's linear discriminant. Journal of the Royal Statistical Society B, 73, 753-772. https://doi.org/10.1111/j.1467-9868.2011.00783.x
  7. Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society B, 67, 301-320. https://doi.org/10.1111/j.1467-9868.2005.00503.x
  8. Zou, H., Hastie, T. and Tibshirani, R. (2006). Sparse principal component analysis. Journal of Computational and Graphical Statistics, 15, 265-286. https://doi.org/10.1198/106186006X113430

Cited by

  1. Comparison of Linear and Nonlinear Regressions and Elements Analysis for Wind Speed Prediction vol.25, pp.5, 2015, https://doi.org/10.5391/JKIIS.2015.25.5.477
  2. A note on standardization in penalized regressions vol.26, pp.2, 2015, https://doi.org/10.7465/jkdi.2015.26.2.505
  3. A maximum likelihood estimation method for a mixture of shifted binomial distributions vol.25, pp.1, 2014, https://doi.org/10.7465/jkdi.2014.25.1.255
  4. Comparison of journal clustering methods based on citation structure vol.26, pp.4, 2015, https://doi.org/10.7465/jkdi.2015.26.4.827
  5. Comparison of MLR and SVR Based Linear and Nonlinear Regressions - Compensation for Wind Speed Prediction vol.65, pp.5, 2016, https://doi.org/10.5370/KIEE.2016.65.5.851
  6. Analyzing Customer Feedback Differences between VOCs and External Channels vol.41, pp.3, 2018, https://doi.org/10.11627/jkise.2018.41.3.129
  7. Generating Effective Reinsurance Portfolios using the Semi-definite Programming Relaxation vol.14, pp.2, 2015, https://doi.org/10.35527/kfedoi.2015.14.2.002
  8. 페널티 방법을 이용한 주성분분석 연구 vol.28, pp.4, 2013, https://doi.org/10.7465/jkdi.2017.28.4.721
  9. 안정적 유전자 특징 선택을 위한 유전자 발현량 데이터의 부트스트랩 기반 Lasso 회귀 분석 vol.23, pp.9, 2013, https://doi.org/10.5626/ktcp.2017.23.9.557
  10. 표본코호트기반 고지혈증 약제의 저밀도 콜레스테롤 감소량 및 투약순응도 분석 vol.28, pp.5, 2017, https://doi.org/10.7465/jkdi.2017.28.5.1027
  11. 영주향토음식 콘텐츠개발을 위한 주성분분석 및 문화유산 (소수서원, 부석사) 자원의 활용 연구 vol.30, pp.5, 2013, https://doi.org/10.9799/ksfan.2017.30.5.1068
  12. 식생여과대 유사 저감 효율 산정을 위한 정규화 방안 vol.61, pp.6, 2013, https://doi.org/10.5389/ksae.2019.61.6.009
  13. 함정 분야 방산업체 주요 기술 분포 분석 vol.21, pp.7, 2020, https://doi.org/10.5762/kais.2020.21.7.625
  14. 함정 분야 방산업체 주요 기술 분포 분석 vol.21, pp.7, 2020, https://doi.org/10.5762/kais.2020.21.7.625