Automatic Document Classification by Term-Weighting Method

범주 대표어의 가중치 계산 방식에 의한 자동 문서 분류 시스템

  • 이경찬 (국민대학교 컴퓨터공학부) ;
  • 강승식 (첨단정보기술연구센터)
  • Published : 2002.04.01

Abstract

자동 문서 분류는 범주 특성 벡터와 입력 문서 벡터의 유사도 비교에 의해 가장 유사한 범주를 선택하는 방법이다. 문서 분류 시스템을 구현하기 위하여 각 범주의 특성 벡터를 정보 검색 시스템의 역파일 형태로 구축하였으며, 용어 가중치를 계산하는 방법을 달리하여 문서 분류 시스템의 정확도를 실험하였다. 실험 문서는 일간지의 신문기사들을 무작위로 추출한 문서 집합을 대상으로 하였으며, 정보 검색 모델에서 보편적으로 사용되는 TF-lDF 방식이 변형된 방식에 비해 더 나은 성능을 보였다.

Keywords