통계적 기계번역을 위한 변환 기반 문장 분할 방법

A Transformation based Sentence Splitting method for Statistical Machine Translation

  • 이종훈 (포항공과대학교 컴퓨터공학과) ;
  • 이동현 (포항공과대학교 컴퓨터공학과) ;
  • 이근배 (포항공과대학교 컴퓨터공학과)
  • Lee, Jongoon (Department of Computer Science and Engineering, Pohang University of Science & Technology) ;
  • Lee, Donghyeon (Department of Computer Science and Engineering, Pohang University of Science & Technology) ;
  • Lee, Gary Geunbae (Department of Computer Science and Engineering, Pohang University of Science & Technology)
  • 발행 : 2007.10.12

초록

최근 활발하게 연구 되고 있는 통계 기반의 기계 번역 시스템에서는 입력 문장이 길어지면 번역 성능이 떨어지는 현상이 나타난다. 이를 완화하기 위해 긴 문장을 같은 의미의 짧은 문장들로 분할하여 각각 번역하면 기계 번역 성능을 향상 시킬 수 있다. 본 논문에서는 통계적 기계 번역을 위한 변환 기반의 문장 분할 방법을 제안한다. 변환 기반의 문장 분할 방법은 사람이 직접 분할한 예문으로부터 변환 규칙을 학습하여 기계 번역의 입력 문장에 적용함으로써 구절 기반의 통계적 기계 번역 성능을 최대화 한다.

키워드