Text Categorization Features Automatic Extraction Method Using Chi-squared Statistic

카이제곱 통계량을 이용한 문서분류 자질 자동추출 방법

  • 박종현 (상명대학교 컴퓨터과학과) ;
  • 박소영 (상명대학교 디지털미디어학부) ;
  • 장준호 (상명대학교 디지털미디어학부) ;
  • 길태숙 (상명대학교 디지털미디어학부)
  • Published : 2010.10.27

Abstract

문서에 포함되는 어휘는 문서 분류의 정보를 가지므로 문서를 분석하여 유용한 단어를 추출하는 것은 다양한 서비스와 연계되어 사용될 수 있어 매우 유용한 일이다. 문서 자동 분류에서는 분류자질 선정 방식에 따라 분류정확도가 서로 달라질 수 있으며, 문서에서 추출되는 유용한 단어에 따라 인지되는 분야가 달라질 수 있다. 이에 본 논문에서는 각 문서에 포함되는 단어에 대한 카이제곱 통계량 점수를 사용하여 단어별 문서 분류에 대한 단어의 자질을 평가하고 문서의 분류별 유용한 단어를 자동 추출하는 방법을 제안하고 개발한다.

Keywords