Automatic Korean Text Categorization by Subject Thesaurus

분야별 관련어사전에 의한 한글 웹문서 자동분류

  • Kim, Young (Dept of Computer Engineering, Graduate Shchool, HanKuk Aviation University) ;
  • Chae, Soo-Hoan (Dept of Computer Engineering, Graduate Shchool, HanKuk Aviation University)
  • 김영 (한국항공대학원 컴퓨터공학과) ;
  • 채수환 (한국항공대학원 컴퓨터공학과)
  • Published : 2005.05.13

Abstract

인터넷이 폭 넓게 보급되어 온라인 상에서 얻을 수 있는 텍스트 정보의 양이 급증함에 따라 산재해 있는 문서들에 대한 효과적인 정보 관리 및 검색이 요구되고 있다. 자동 문서분류란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 할당하는 작업으로써 효율적인 정보 관리 및 검색을 가능하게 한다. 특히 한국어 정보처리의 중요성에 비해 관련 분야의 자료들을 수집, 분류하는데 있어 많은 어려움이 있다. 따라서 논문에서는 한글 웹문서 자동 문서 범주화에 대한 수행단계중 각 분야에 대해 사전구축을 하고, 중복단어제거를 통한 보다 효과적인 분야별 문서분류를 제안하고자한다.

Keywords