주제어와 미분류 문서들을 이용한 문서의 자동 분류 방법

Automatic Text Classification Method Using Keywords and Unlabeled Text

  • 이강일 (동국대학교 정보통신공학과) ;
  • 이창환 (동국대학교 정보통신공학과)
  • Lee Kang-Il (Information and Communication Engineering, Dongguk Univ.) ;
  • Lee Chang-Hwan (Information and Communication Engineering, Dongguk Univ.)
  • 발행 : 2005.07.01

초록

문서를 분류하기 위해서는 분류주제에 맞춰 미리 분류가 된 자료(labeled data)가 필요하다. 하지만 미리 분류가 된 자료를 만들기 위해서는 사람이 직접 그 문서의 의미를 해석하고 일일이 분류를 해야 하기 때문에 시간이 많이 소모가 된다. 본 논문에서는 비록 사랑이 직접 분류한 자료를 이용하는 것에 비해서 분류 정확도는 조금 떨어지지만, 대신 주제어와 미분류 문서(unlabeled data)를 이용해서 문서를 분류하는 방법을 제시하려고 한다. 이와 같은 주제어와 미분류 문서의 경우에는 구하기가 쉽고, 사랑이 일일이 분류하는 작업이 필요로 하지 않기 때문에 비용과 시간이 크게 절약이 된다는 장정이 있다.

키워드