회귀의사결정나무에서의 관심노드 찾는 분류 기준법

Interesting Node Finding Criteria for Regression Trees

  • 이영섭 (동국대학교 이과대학 통계학과)
  • 발행 : 2003.03.01


의사결정나무 분석 기법 중 하나인 회귀의사결정나무는 연속적인 반응변수를 예측할 때 사용된다. 나무 구조를 형성할 때, 전통적인 분류 기준법은 왼쪽과 오른쪽 자식노드의 불순도를 결합하여 이루어진다. 그러나 본 논문에서 제안하는 새로운 분류 기준법은 관심있는 한쪽만 선택하고 다른 나머지 자식노드는 큰 관심이 없어 무시함으로써 더 이상 결합하여 구하는 것이 아니다. 따라서 나무 구조는 불균형적일 수 있으나 이해하기가 쉽다. 즉, 관심있는 부분집합을 가능한 한 빨리 찾음으로써 단지 몇 개의 조건으로 쉽게 표현할 수 있으며, 정확도는 다소 떨어지지만 설명력은 아주 높다.

One of decision tree method is regression trees which are used to predict a continuous response. The general splitting criteria in tree growing are based on a compromise in the impurity between the left and the right child node. By picking or the more interesting subsets and ignoring the other, the proposed new splitting criteria in this paper do not split based on a compromise of child nodes anymore. The tree structure by the new criteria might be unbalanced but plausible. It can find a interesting subset as early as possible and express it by a simple clause. As a result, it is very interpretable by sacrificing a little bit of accuracy.



  1. Regression Diagnostic Belsley, D.A.;Kuh, E.;Welsch, R. E.
  2. Classification and Regression Trees Breiman, L.;Friedman, J. H.;Olshen, R. A.;Stone, C. J.
  3. Journal of Environmental Economics and Management v.5 Hedonic Prices and the Demand for Clean Air Harrison, R. J.;Rubinfeld, D. L.
  4. Clustering Algorithms Hartigan, J. A.
  5. The Korean Communications in Statistics v.8 New Splitting Criteria for Calssification Trees Lee, Y-S.
  6. UCI repository of machine learning data bases Merz, C. J.;Murphy, P. M.
  7. Journal of the American Statistical Association v.58 Problems in the Analysis of Survey Data, and a Proposal Morgan, J. N.;Sonquist, J. A.
  8. S-PLUS Guide to Statistical and Mathematical Analysis(Version 3.3) StatSci
  9. Modern Applied Statistics with S-Plus Venables, W. N.;Ripley, B. D.