Automatic Document Categorization Using K-Nearest Neighbor Algorithm and Object-Oriented Thesaurus

K-NN과 객체 지향 시소러스를 이용한 웹 문서 자동 분류

  • 방선이 (전북대학교 전산통계학과) ;
  • 양재동 (전북대학교 전산통계학과)
  • Published : 2001.10.01

Abstract

문서 자동 분류에는 통계적인 기법과 machine learning 기법의 맡은 알고리즘들이 이용되고 있다. 통계적인 기법 알고리즘을 이용한 문서 분류는 높은 성능을 보이지만 분류할 카테고리가 둘 이상인 경우가 빈번할 경우에는 정확률이 급격히 저하되는 단점이 있다. 본 논문에서는 K-NN알고리즘을 이용하여 일차적인 문서 분류를 수행한 후 특정 카테고리로 분류하기에 애매모호한 경우가 생길 경우 시소러스의 일반화 관계와 연관화 관계를 이용하여 모호성을 줄임으로써 문서 자동 분류의 성능을 높이기 위한 새 기법을 제안한다.

Keywords