A Multivariate Decision Tree using Support Vector Machines

지지 벡터 머신을 이용한 다변수 결정 트리

  • Kang, Sung-Gu (Computer Science, Sogang Univ. DataMining Lab.) ;
  • Lee, B.W. (Computer Science, Sogang Univ. DataMining Lab.) ;
  • Na, Y.C. (Computer Science, Sogang Univ. DataMining Lab.) ;
  • Jo, H.S. (Computer Science, Sogang Univ. DataMining Lab.) ;
  • Yoon, C.M. (Computer Science, Sogang Univ. DataMining Lab.) ;
  • Yang, Ji-Hoon (Computer Science, Sogang Univ. DataMining Lab.)
  • 강선구 (서강대학교 컴퓨터학과 데이터마이닝 연구실) ;
  • 이병우 (서강대학교 컴퓨터학과 데이터마이닝 연구실) ;
  • 나용찬 (서강대학교 컴퓨터학과 데이터마이닝 연구실) ;
  • 조현성 (서강대학교 컴퓨터학과 데이터마이닝 연구실) ;
  • 윤철민 (서강대학교 컴퓨터학과 데이터마이닝 연구실) ;
  • 양지훈 (서강대학교 컴퓨터학과 데이터마이닝 연구실)
  • Published : 2006.10.20

Abstract

결정 트리는 큰 가설 공간을 가지고 있어 유연하고 강인한 성능을 지닐 수 있다. 하지만 결정트리가 학습 데이터에 지나치게 적응되는 경향이 있다. 학습데이터에 과도하게 적응되는 경향을 없애기 위해 몇몇 가지치기 알고리즘이 개발되었다. 하지만, 데이터가 속성 축에 평행하지 않아서 오는 공간 낭비의 문제는 이러한 방법으로 해결할 수 없다. 따라서 본 논문에서는 다변수 노드를 사용한 선형 분류기를 이용하여 이러한 문제점을 해결하는 방법을 제시하였으며, 결정트리의 성능을 높이고자 지지 벡터 머신을 도입하였다(SVMDT). 본 논문에서 제시한 알고리즘은 세 가지 부분으로 이루어졌다. 첫째로, 각 노드에서 사용할 속성을 선택하는 부분과 둘째로, ID3를 이 목적에 맞게 바꾼 알고리즘과 마지막으로 기본적인 형태의 가지치기 알고리즘을 개발하였다. UCI 데이터 셋을 이용하여 OC1, C4.5, SVM과 비교한 결과, SVMDT는 개선된 결과를 보였다.

Keywords