연상정보를 이용한 단락분할 방법

A Passage Retrieval Method by Using Field-Associated Information

  • 홍성옥 (전주대학교 교육대학원 컴퓨터교육) ;
  • 이상곤 (전주대학교 교육대학원 컴퓨터교육)
  • Hong, Sung-Og (Dept. of Computer Education, Graduate School of Education Jeonju University) ;
  • Lee, Samuel Sang-Kon (Dept. of Computer Education, Graduate School of Education Jeonju University)
  • 발행 : 2003.05.16

초록

문서에 여러 가지 화제가 혼합되어 있는 문서에서 화제의 실마리 부분을 특정화하여 각 화제별 단락을 추출하는 기술은 정보검색 분야에서 중요한 역할을 담당하는 기술이다. 잘 정의된 분야체계에 따라 구축된 분야연상어를 이용하여 단락분할을 시도한다. 분야연상어는 특정한 분야를 정확하게 연상할 수 있는 단어로서 잘 분류된 문서 컬렉션에서 구축할 수 있다. 이 분야연상어를 이용하여 문서를 관련된 분야변로 추출하여 의미기반 단락추출 방법을 제안한다. 화제의 계속성에 주목하여 분야연상어의 수준(범위)이나 연속출현성에 의해 계산된 계속도에 의해 화제의 실마리를 추적하고, 화제의 전환성을 고려한 방법을 제안한다. 문서 내 각 화제의 단락구분을 명확히 하여, 단락을 화제분야별로 추출하는 방법을 제안한다. 50문서를 실험한 결과 82%의 정확율과 63%의 재현율을 얻어 실용성을 기대할 수 있다.

키워드