백과사전 질의응답을 위한 생략된 표제어 복원에 관한 연구

Restoring an Elided title for Encyclopedia QA System

  • 임수종 (한국전자통신연구원 음성/언어정보연구부 지식마이닝연구팀) ;
  • 이창기 (한국전자통신연구원 음성/언어정보연구부 지식마이닝연구팀) ;
  • 장명길 (한국전자통신연구원 음성/언어정보연구부 지식마이닝연구팀)
  • Lim Soojong (Speech/Language Information Research Department, ETRI) ;
  • Lee Changi (Speech/Language Information Research Department, ETRI) ;
  • Jang Myoung-Gil (Speech/Language Information Research Department, ETRI)
  • 발행 : 2005.11.01

초록

백과사전에서 정답을 찾기 위해 문장의 구조를 분석하는데 한국어 백과사전은 표제어에 대한 정보를 문장에서 생략한다. 그러나 표제어는 문장에서 주어나 목적어 역할을 하기 때문에 생략된 정보를 복원하지 못 하면 질의에 대한 정답을 제시할 수 없다. 생략된 표제어에 대한 정보를 복원하기 위해서 본 연구에서는 표제어의 의미범주 정보, 격틀, Maximum Entropy 모델을 이용하여 표제어 주어, 표제어 목적어 복원, 미복원 3가지로 인식한다. 표제어 의미범주는 의미 범주에 대해 일정 수준의 복원 성향을 보일 경우 Maximum Entropy 정보를 창조하였고 격틀을 이용하여 복원 여부를 결정한다. 만약 표제어의 의미범주 정보, 격틀을 이용하여도 복원 여부를 결정하지 못할 경우에는 Maximum Entropy 모델에 기반한 통계 기법을 적용하여 복원 여부를 결정한다. 그리고 각각 방법의 단점을 보완하기 위해서 규칙에 해당하는 표제어 의미범주 정보와 격틀 정보에는 통계 모델인 ME 모델을 보완하여 사용한다.

키워드