A Study on Variable Selection Bias in Data Mining Software Packages

데이터마이닝 패키지에서 변수선택 편의에 관한 연구

  • Published : 2001.09.01

Abstract

데이터마이닝 패키지에 구현된 분류나무 알고리즘 가운데 CART, CHAID, QUEST, C4.5에서 변수 선택법을 비교하였다. CART의 전체탐색법이 편의를 갖는다는 사실은 잘알려졌으며, 여기서는 상품화된 패키지들에서 이들 알고리즘의 편의와 선택력을 모의실험 연구를 통하여 비교하였다. 상용 패키지로는 CART, Enterprise Miner, AnswerTree, Clementine을 사용하였다. 본 논문의 제한된 모의실험 연구 결과에 의하면 C4.5와 CART는 모두 변수선택에서 심각한 편의를 갖고 있으며, CHAID와 QUEST는 비교적 안정된 결과를 보여주고 있었다.

Keywords

References

  1. Classification and Regression Tress Breiman, L.;Friedman, J.;Olshen, R.;Stone, C.
  2. Applied Statistics v.29 An exploratory technique for investigating large quantiles of categorical data Kass, G. V.
  3. Technical Report 1012 Classification trees with unbiased multiway splits Kim, H.;Loh, W. -Y.
  4. Statistica Sinica v.7 Split selection methods for classification trees Loh, W. -Y.;Shih, Y. -S.
  5. C4.5: Programs for Machine Learning Quinlan, J. R.
  6. CART Salford Systems
  7. Decision tree and Regression Node Version 2.0 Online Documentation SAS Institute Inc.
  8. AnswerTree 2.0 User's Guide SPSS Inc.