Categorization of Korean documents using Support Vector Machines

SVM을 이용한 한글문서 범주화 실험

  • 최성환 (연세대학교 대학원 문헌정보학과) ;
  • 임혜영 (연세대학교 대학원 문헌정보학과) ;
  • 정영미 (연세대학교 대학원 문헌정보학과)
  • Published : 2000.08.01

Abstract

자동문서 범주화에 이용되는 학습분류기 중에서 SVM은 자질 차원을 축소하지 않고도 좋은 성능을 보이고 있다. 본 실험에서는 KTSET 텍스트 컬렉션을 대상으로 두 개의 SVM 분류기를 이용하여 자질축소 및 자질표현에 따른 성능비교 실험을 하였다. 자질축소를 위하여 $\chi$$^2$통계량을 자질선정기준으로 사용하였으며, 자질값으로는 단어빈도 및 문헌빈도의 두 요소로 구성되는 다양한 가중치를 사용하였다. 실험결과 SVM은 자질축소에 큰 영향을 받지 않고 가중치 유형에 따라 성능의 차이를 보였다.

Keywords