Feature Selection for Document Classification

문서 분류를 위한 특징 선택

  • Jin, Hoon (Dept. of Computer Science, Kyonggi University) ;
  • Kim, In-Cheol (Dept. of Computer Science, Kyonggi University)
  • 진훈 (경기대학교 대학원 전자계산학과) ;
  • 김인철 (경기대학교 대학원 전자계산학과)
  • Published : 2001.04.01

Abstract

본 논문은 덱스트 형태로 존재하는 문서가 특정 범주가 특정 범주에 속하는 지를 판별하는데 있어서 그 문서를 표현하고 있는 특징을 어떻게 선택할 것인가와 얼마나 선택할 것인가가 미치는 영향을 실험을 통하여 측정하였다. 우리는 실험을 통하여 특징 선택 방법이 분류 성능에 미치는 영향을 알아보고자 하였고, 특징의 개수와 분류 성능과의 상관관계, 그리고 범주의 개수와 특징의 개수와의 관계를 규명하고자 하였다. 결과를 통하여 우리는 뉴스 그룹 문서의 경우 그 분포상황의 특이성에 기인하여 정보획득 방법이 가장 좋은 성능을 냄을 알 수 있었고, 문서의 특징의 개수에 따라 성능에 있어서 커다란 차이가 있음도 알게 되었다. 또한 정보획득 방법과 나이브 베이지안 분류방법을 이용했을 때 가장 좋은 성능을 도출하는 특징의 개수가 범주의 개수에 비례함을 알 수 있었다.

Keywords