Mining the Web for Korean-English Parallel Corpora and Sentence Alignment

웹 문서로부터 한-영 병렬 말뭉치 자동 구축과 문장 단위 정렬

  • Yang, Zoo-Il (Department of Computer Science, Yonsei University) ;
  • Kim, Seon-Ho (Department of Computer Science, Yonsei University) ;
  • Song, Man-Suk (Department of Computer Science, Yonsei University)
  • 양주일 (연세대학교 컴퓨터과학과) ;
  • 김선호 (연세대학교 컴퓨터과학과) ;
  • 송만석 (연세대학교 컴퓨터과학과)
  • Published : 1999.10.08

Abstract

다국어를 이용한 통계적 자연어 처리의 연구가 진행됨에 따라 병렬 말뭉치의 중요성이 대두되고 있다. 그러나 여러 가지 제약점으로 인하여 현재 이용 가능한 한국어 병렬 말뭉치가 드문 상황이다. 월드 와이드 웹 상에는 다양한 언어로 번역된 문서들이 있으며 이를 병렬 말뭉치로 구축, 활용한다면 말뭉치의 희소성으로 인한 문제를 해결할 수 있다. 본 논문에서는 웹 상에서 번역문서 후보를 추출한 다음 HTML 문서 구조를 비교하여 번역문서인지를 판별하고 문장 단위 정렬을 이용하여 병렬 말뭉치로 구축하는 방법을 제시한다.

Keywords