Text segmentation using concept hierarchy tree

계층적 개념 트리를 이용한 문서 분할 기법

  • 이병희 (아주대학교 정보통신 전문대학원) ;
  • 최익규 (아주대학교 정보통신 전문대학원) ;
  • 박승규 (아주대학교 정보통신 전문대학원) ;
  • 김인구 (아주대학교 정보 및 컴퓨터 공학부)
  • Published : 2003.10.01

Abstract

문서 분할 기법은 문서 내에 존재하는 다양한 주제들을 자동적으로 추출하는 기법이다. 이 분야의 연구는 크게 사전적 관계에 근거한 기법과 통계적 데이터에 근거한 기법으로 나누어져 연구되어 왔다. 사전적 관계에 의한 기법은 단어들의 사전적 의미와 관계에 근거한 기법이고 통계적 데이터에 의한 기법은 주로 단어들의 분포를 이용한 기법이다. 여기에는 몇가지 문제점이 있는데 사전적 관계에 근거한 경우에는 분산된 주제들을 통합하여 추출하기 어렵고. 통계적 데이터에 근거한 기법은 정확한 주제의 개수를 찾기 어렵다는 점이다. 본 논문에서는 계층적 개념 트리를 이용하여 보다 정확한 개수의 주제들을 찾아낼 수 있는 문서 분할 기법에 대해 소개 하고자 한다.

Keywords