Proceedings of the Korean Institute of Information and Commucation Sciences Conference (한국정보통신학회:학술대회논문집)
- 2010.10a
- /
- Pages.695-697
- /
- 2010
Text Categorization Features Automatic Extraction Method Using Chi-squared Statistic
카이제곱 통계량을 이용한 문서분류 자질 자동추출 방법
- Park, Jong-Hyun (Dept. of Computer Science, Sang-Myung University) ;
- Park, So-Young (Dept. of Digital Media, Sang-Myung University) ;
- Chang, Ju-No (Dept. of Digital Media, Sang-Myung University) ;
- Kihl, Tae-Suk (Dept. of Digital Media, Sang-Myung University)
- Published : 2010.10.27
Abstract
문서에 포함되는 어휘는 문서 분류의 정보를 가지므로 문서를 분석하여 유용한 단어를 추출하는 것은 다양한 서비스와 연계되어 사용될 수 있어 매우 유용한 일이다. 문서 자동 분류에서는 분류자질 선정 방식에 따라 분류정확도가 서로 달라질 수 있으며, 문서에서 추출되는 유용한 단어에 따라 인지되는 분야가 달라질 수 있다. 이에 본 논문에서는 각 문서에 포함되는 단어에 대한 카이제곱 통계량 점수를 사용하여 단어별 문서 분류에 대한 단어의 자질을 평가하고 문서의 분류별 유용한 단어를 자동 추출하는 방법을 제안하고 개발한다.