형태정보를 이용한 대역어 군집화 및 적합대역어 선정

Translation Clustering and Adequate Translation Selection by Surface Form

  • 구희관 (과학기술연합대학원대학교 응용정보과학) ;
  • 정한민 (한국과학기술정보연구원 차세대정보시스템연구실) ;
  • 이미경 (한국과학기술정보연구원 차세대정보시스템연구실) ;
  • 성원경 (한국과학기술정보연구원 차세대정보시스템연구실)
  • 발행 : 2005.11.01

초록

본 논문은 자동적인 언어기반자원구축을 위해 신문 말뭉치에서 괄호를 이용하여 추출한 대역어쌍들을 군집화하고 각 군집에서 적합대역어를 선정하는 방법을 제안한다. 기존 연구에서 주로 제시된 음차표기어 대역쌍 추출 방법은 완전한 형태의 영어원어 자소 정보를 이용하기 때문에 약어는 고려대상에서 제외되었다. 그러나 약어형태의 영어원어가 신문에서는 약 $82\%$를 차지하기 때문에 이를 처리할 방법이 필요하다. 따라서 본 논문에서는 바이그램을 기본으로 하는 형태정보를 이용하여 적합대역어를 선정하고 이와 형태정보를 공유하는 한국어대역어쌍들을 군집화한다. 또한, 음차표기어와 두문자어에 대한 처리를 추가하여 적용범위를 넓힌다. 실험을 위하여 신문말뭉치에서 추출한 대역어쌍 1,806개 중 영어원어를 기준으로 한국어대역어의 수가 5개 이상인 대역어쌍 집합 200개를 선정하였다. 본 논문에서 제시한 방법으로 측정한 결과, 대역어 군집화에 대해서는 $74\%$의 정확율과 $65\%$의 재현율을, 적합대역어 선정에 대해서는 $97\%$의 정확율을 보였다.

키워드