Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)
- 2001.10b
- /
- Pages.145-147
- /
- 2001
- /
- 1598-5164(pISSN)
Automatic Document Categorization Using K-Nearest Neighbor Algorithm and Object-Oriented Thesaurus
K-NN과 객체 지향 시소러스를 이용한 웹 문서 자동 분류
Abstract
문서 자동 분류에는 통계적인 기법과 machine learning 기법의 맡은 알고리즘들이 이용되고 있다. 통계적인 기법 알고리즘을 이용한 문서 분류는 높은 성능을 보이지만 분류할 카테고리가 둘 이상인 경우가 빈번할 경우에는 정확률이 급격히 저하되는 단점이 있다. 본 논문에서는 K-NN알고리즘을 이용하여 일차적인 문서 분류를 수행한 후 특정 카테고리로 분류하기에 애매모호한 경우가 생길 경우 시소러스의 일반화 관계와 연관화 관계를 이용하여 모호성을 줄임으로써 문서 자동 분류의 성능을 높이기 위한 새 기법을 제안한다.
Keywords