DOI QR코드

DOI QR Code

Optimal number of dimensions in linear discriminant analysis for sparse data

희박한 데이터에 대한 선형판별분석에서 최적의 차원 수 결정

  • Shin, Ga In (Department of Statistics, Sungkyunkwan University) ;
  • Kim, Jaejik (Department of Statistics, Sungkyunkwan University)
  • 신가인 (성균관대학교 통계학과) ;
  • 김재직 (성균관대학교 통계학과)
  • Received : 2017.08.29
  • Accepted : 2017.11.01
  • Published : 2017.12.31

Abstract

Datasets with small n and large p are often found in various fields and the analysis of the datasets is still a challenge in statistics. Discriminant analysis models for such datasets were recently developed in classification problems. One approach of those models tries to detect dimensions that distinguish between groups well and the number of the detected dimensions is typically smaller than p. In such models, the number of dimensions is important because the prediction and visualization of data and can be usually determined by the K-fold cross-validation (CV). However, in sparse data scenarios, the CV is not reliable for determining the optimal number of dimensions since there can be only a few observations for each fold. Thus, we propose a method to determine the number of dimensions using a measure based on the standardized distance between the mean values of each group in the reduced dimensions. The proposed method is verified through simulations.

오늘날 관찰값의 개수에 비해 변수의 개수가 큰 희박한 데이터셋은 다양한 분야에서 쉽게 찾아볼 수 있고, 통계학에서 그러한 데이터셋에 대한 분석은 하나의 도전이 되어 왔다. 그러한 희박한 데이터에 대한 분류를 위해 판별분석모형들이 최근에 개발되었다. 그러한 판별분석모형들 중 하나의 접근법은 그룹들을 잘 구분해주는 차원들을 찾기를 시도하는데, 그러한 차원들은 데이터의 변수의 개수보다 훨씬 적다. 그러한 모형에서 차원의 수는 예측과 자료의 시각화를 위해 중요한 역할을 하고 일반적으로 K-묶음 교차타당성 방법에 의해 결정된다. 하지만, 희박한 데이터의 경우 K-묶음 교차타당성 방법 적용시 각 묶음에 대한 관찰값의 개수가 매우 적을 수 있기 때문에 교차타당성에 의한 차원 수 결정은 신뢰성이 떨어질 수 있다. 따라서, 본 연구에서는 그러한 희박판별분석모형에 의해 찾아진 차원들에서 각 그룹들의 평균 간의 표준화된 거리에 근거한 측도를 사용하여 최적의 차원 수를 결정하는 방법을 제안하고, 제안된 방법은 모의실험을 통해 검증된다.

Keywords

References

  1. Breiman, L., Friedman, J., Olshen, R. A., and Stone, C. J. (1984). Classification and Regression Trees, Wadsworth International Group.
  2. Chun, H. and Keles, S. (2010). Sparse partial least squares regression for simultaneous dimension reduction and variable selection, Journal of Royal Statistical Society, Series B, 72, 3-25. https://doi.org/10.1111/j.1467-9868.2009.00723.x
  3. Chung, D. and Keles, S. (2010). Sparse partial least squares classification for high dimensional data, Statistical Applications in Genetics and Molecular Biology, 9, 1544-6115.
  4. Clemmensen, L., Hastie, T., Witten, D., and Ersboll, B. (2011). Sparse discriminant analysis, Technometrics, 53, 406-413. https://doi.org/10.1198/TECH.2011.08118
  5. Efron, B. and Tibshirani, R. (1997). Improvements on cross-validation: the 632+ bootstrap method, Journal of the American Statistical Association, 92, 548-560.
  6. Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems, Annals of Eugenics, 7, 179-188. https://doi.org/10.1111/j.1469-1809.1936.tb02137.x
  7. Guo, Y., Hastie, T., and Tibshirani, R. (2007). Regularized linear discriminant analysis and its applications in microarrays, Biostatistics, 8, 86-100. https://doi.org/10.1093/biostatistics/kxj035
  8. Hastie, T., Buja, A., and Tibshirani, R. (1995). Penalized discriminant analysis, The Annals of Statistics, 23, 73-102. https://doi.org/10.1214/aos/1176324456
  9. Hastie, T., Tibshirani, R., and Friedman, J. (2009). The Element of Statistical Learning, Springer, New York.
  10. McLachlan, G. (2004). Discriminant Analysis and Statistical Pattern Recognition, John Wiley & Sons, New Jersey.
  11. Witten, D. and Tibshirani, R. (2011). Penalized classification using Fisher's linear discriminant, Journal of Royal Statistical Society, Series B, 73, 753-772. https://doi.org/10.1111/j.1467-9868.2011.00783.x
  12. Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic-net, Journal of Royal Statistical Society, Series B, 67, 301-320. https://doi.org/10.1111/j.1467-9868.2005.00503.x