DOI QR코드

DOI QR Code

나무구조의 분류분석에서 변수 중요도에 대한 고찰

Comparison of Variable Importance Measures in Tree-based Classification

  • 김나영 (이화여자대학교 통계학과) ;
  • 이은경 (이화여자대학교 통계학과)
  • 투고 : 2014.07.11
  • 심사 : 2014.09.29
  • 발행 : 2014.10.31

초록

본 연구에서는 나무구조의 분류분석에서 자료의 크기가 방대해짐에 따라 중요한 문제로 대두되고 있는 변수의 중요도에 대하여 사영추적분류나무를 중심으로 고찰하였다. 사영추적분류나무(projection pursuit classification tree)는 각 마디에서 사영추적을 이용하여 그룹을 잘 분리하는 변수들의 선형결합을 이용하는 방법으로 이때 사용되는 사영계수들은 각 마디에서의 분류에 대한 정보를 가지고 있다. 이를 종합하여 각 변수의 분류에 대한 중요도를 계산할 수 있다. 먼저 사영추적분류나무의 분류과정에서 계산되는 사영추적계수를 이용하여 분류를 위한 변수선택의 중요도를 계산하고 이들의 특성을 살펴보고 이를 같은 형태의 나무모형방법인 CART와 랜덤 포레스트의 결과와 비교 분석하여 사영추적분류나무의 특성을 살펴보고 비교, 분석하였다. 대부분의 자료에서 사영추적분류나무가 훨씬 좋은 성능을 보이고 있었으며 특히 상관계수가 높은 변수들이 포함되어 있는 경우에는 상대적으로 적은 수의 변수로도 잘 분류를 할 수 있음을 확인하였다. 랜덤 포레스트에서 제공하는 변수 중요도는 변수들 간의 상관관계가 높은 경우에는 사영추적분류나무의 변수중요도와 매우 다르게 나타나며 사영추적분류나무의 변수 중요도가 조금 더 나은 성능을 보이고 있음을 알 수 있다.

Projection pursuit classification tree uses a 1-dimensional projection with the view of the most separating classes in each node. These projection coefficients contain information distinguishing two groups of classes from each other and can be used to calculate the importance measure of classification in each variable. This paper reviews the variable importance measure with increasing interest in line with growing data size. We compared the performances of projection pursuit classification tree with those of classification and regression tree(CART) and random forest. Projection pursuit classification tree are found to produce better performance in most cases, particularly with highly correlated variables. The importance measure of projection pursuit classification tree performs slightly better than the importance measure of random forest.

키워드

과제정보

연구 과제 주관 기관 : 한국연구재단

참고문헌

  1. Breiman, L., Friedman, J., Olshen, R. and Stone, C. (1984). Classification and Regression Trees, Belmont: Wadsworth.
  2. Breiman, L. and Cutler, A. (2012). RandomForest: Breiman and Cutler's random forests for classification and regression, Available from http://cran.r-project.org/web/packages/randomForest/index.html.
  3. Caussinusand, H. and Ruiz-Gazen, A. (2006). Projection-pursuit approach for categorical data, Multiple Correspondence Analysis and Related Methods (eds. Greenacre, M. and Blasius, J.), Chapman and Hall/CRC, 405-418.
  4. Dudoit, S., Fridlyand, J. and Speed, T. P. (2002). Comparison of discrimination methods for the classification of tumors using gene expression data, Journal of the American Statistical Association, 97, 77-87 https://doi.org/10.1198/016214502753479248
  5. Friedman, J. and Tukey, J. (1974). A projection pursuit algorithm for exploratory data analysis, IEEE Transactions on Computers, 23, 881-890.
  6. Kruskal, J. (1969). Toward a practical method which helps uncover the structure of a set of multivariate observations by finding the linear transformation which optimizes a new index of condensation, Statistical Computing, New York; Academic Press, 427-440.
  7. Lee, E., Cook, D., Klinke, E. and Lumley, T. (2005). Projection pursuit for exploratory supervised classification, Journal of Computational and Graphical Statistics, 14, 831-846. https://doi.org/10.1198/106186005X77702
  8. Lee, E. and Cook, D. (2010). A projection pursuit index for large p small n data, Statistics and Computing, 20, 381-392. https://doi.org/10.1007/s11222-009-9131-1
  9. Lee, Y., Cook, D., Park, J. and Lee, E. (2013). PPtree: Projection pursuit classification tree, Electronic Journal of Statistics, 7, 1369-1386. https://doi.org/10.1214/13-EJS810