Combining Feature Variables for Improving the Accuracy of $Na\ddot{i}ve$ Bayes Classifiers

나이브베이즈분류기의 정확도 향상을 위한 자질변수통합

  • Heo Min-Oh (School of Computer Science and Engineering, Seoul National University) ;
  • Kim Byoung-Hee (School of Computer Science and Engineering, Seoul National University) ;
  • Hwang Kyu-Baek (School of Computer Science and Engineering, Seoul National University) ;
  • Zhang Byoung-Tak (School of Computer Science and Engineering, Seoul National University)
  • Published : 2005.07.01

Abstract

나이브베이즈분류기($na\ddot{i}ve$ Bayes classifier)는 학습, 적용 및 계산자원 이용의 측면에서 매우 효율적인 모델이다. 또한, 그 분류 성능 역시 다른 기법에 비해 크게 떨어지지 않음이 다양한 실험을 통해 보여져 왔다. 특히, 데이터를 생성한 실제 확률분포를 나이브베이즈분류기가 정확하게 표현할 수 있는 경우에는 최대의 효과를 볼 수 있다. 하지만, 실제 확률분포에 존재하는 조건부독립성(conditional independence)이 나이브베이즈분류기의 구조와 일치하지 않는 경우에는 성능이 하락할 수 있다. 보다 구체적으로, 각 자질변수(feature variable)들 사이에 확률적 의존관계(probabilistic dependency)가 존재하는 경우 성능 하락은 심화된다. 본 논문에서는 이러한 나이브베이즈분류기의 약점을 효율적으로 해결할 수 있는 자질변수의 통합기법을 제시한다. 자질변수의 통합은 각 변수들 사이의 관계를 명시적으로 표현해 주는 방법이며, 특히 상호정보량(mutual information)에 기반한 통합 변수의 선정이 성능 향상에 크게 기여함을 실험을 통해 보인다.

Keywords