Extraction of Field-Associated Term for the Purpose of Document Classification

문서분류용 목적으로 이용할 효율적인 연상정보의 추출방법

  • Choi, Hyun (Graduate School of Education, Jeonju University) ;
  • Hwang, Nam-Seon (School of Information, Technology and Engineering, Jeonju University) ;
  • Lee, Samuel Sangkon (School of Information, Technology and Engineering, Jeonju University)
  • 최현 (전주대학교 교육대학원 컴퓨터교육전공) ;
  • 황남선 (전주대학교 정보기술컴퓨터공학부) ;
  • 이상곤 (전주대학교 정보기술컴퓨터공학부)
  • Published : 2004.04.01

Abstract

분야연상어는 어휘자체가 분야정보를 가지므로 인간이 분야를 인지할 때와 유사하게 문서의 분야를 판단한다. 인간이 한국어와 일본어의 180분야로 분류한 약 15,000개의 문서뱅크를 수집하고, 수집된 문서에서 복합어로 구성된 분야연상어의 효율적인 추출 알고리즘을 제안한다. 제안된 알고리즘으로 자동구축된 분야연상어를 문서분류의 초기결정에 이용할 수 있다. 분야연상어를 이용하면 어떠한 분야체계에도 손쉽게 적용할 수 있으므로 문서분류용 목적으로 이용할 수 있는 보편성은 충분하다.

Keywords