On the Tree Model grown by one-sided purity

단측 순수성에 의한 나무모형의 성장에 대하여

  • 김용대 (한국외국어대학교 정보통계학과) ;
  • 최대우 (한국외국어대학교 정보통계학과)
  • Published : 2001.06.01

Abstract

Tree model is the most popular classification algorithm in data mining due to easy interpretation of the result. In CART(Breiman et al., 1984) and C4.5(Quinlan, 1993) which are representative of tree algorithms, the split fur classification proceeds to attain the homogeneous terminal nodes with respect to the composition of levels in target variable. But, fur instance, in the chum prediction modeling fur CRM(Customer Relationship management), the rate of churn is generally very low although we are interested in mining the churners. Thus it is difficult to get accurate prediction modes using tree model based on the traditional split rule, such as mini or deviance. Buja and Lee(1999) introduced a new split rule, one-sided purity for classifying minor interesting group. In this paper, we compared one-sided purity with traditional split rule, deviance analyzing churning vs. non-churning data of ISP company. Also reviewing the result of tree model based on one-sided purity with some simulated data, we discussed problems and researchable topics.

의사결정 나무라고 불리우기도 하는 나무모형은 결과 해석의 용이성으로 데이터마이닝의 분류예측 모형으로서 큰 각광을 받고 있다. 현재 나무모형으로 가장 많이 사용되는 CART(Breiman et al., 1984)나 C4.5(Quinlan, 1993) 모두 생성된 노드들의 자료 구성이 목표변수(target variable)를 기준으로 각 수준 구성비 측면에서 순수해지도록 진행된다. 그러나 CRM(Customer Relationship Management)에 있어 가장 흔한 주제인 해지예측을 위한 모델링을 실시하는 경우 관심의 대상인 해지자가 전체 자료에 극히 일부를 차지하여, 기존의 분할 방법에서와 같이 분할되어 생성되는 모든 노드의 순수성을 동시에 고려하기란 불가능하다 Buja와 Lee(1999)는 목표변수 중 소수의 관심에 대상이 되는 부류를 찾아내기 위한 나무모형 생성방법을 소개하였다. 즉, 해지자 관리가 중요한 경우 해지자와 비해지자 구분을 진행하는 기존의 방법과는 달리 전체 자료 중 해지자를 집중적으로 찾아가는 탐색적 분할 기준인 단측 순수성(one-sided purity)을 제안하였다. 본 연구에서는 단측 순수성에 의한 나무모형을 모 PC통신 회사의 해지자 자료에 적용하여 기존의 방법과 비교하였고 몇 가지 시뮬레이션 자료를 통해 단측 순수성의 문제점과 앞으로 해결하여야 할 과제에 대하여 살펴보았다.

Keywords

References

  1. Classification and regression trees Breiman, L.;J. H. Friedman;R. A. Olshen;C. J. Stone
  2. Data mining criteria for tree-based regression and classification Buja, A.;Y.-S. Lee
  3. Tech. report, Dept. of Statsitcs, Stanford University Bump hunting in high-dimensional data Friedman, J. H.;N. I. Fisher
  4. C4.5: programs for machine learning Quilan, J. R.