Automatically Constructing English-Korean Parallel Corpus from Web Documents

웹 문서로부터 한영 병렬말뭉치의 자동 구축

  • Seo, Hyung-Won (Dept. of Computer Engineering, Korea Maritime University) ;
  • Kim, Hyung-Chul (Dept. of Computer Engineering, Korea Maritime University) ;
  • Cho, Hee-Young (Dept. of Computer Engineering, Korea Maritime University) ;
  • Kim, Jae-Hoon (Dept. of Computer Engineering, Korea Maritime University) ;
  • Yang, Sung-Il (Electronics and Telecommunications Research Institute)
  • 서형원 (한국해양대학교 컴퓨터공학과) ;
  • 김형철 (한국해양대학교 컴퓨터공학과) ;
  • 조희영 (한국해양대학교 컴퓨터공학과) ;
  • 김재훈 (한국해양대학교 컴퓨터공학과) ;
  • 양성일 (한국전자통신연구소)
  • Published : 2006.11.10

Abstract

인터넷이 발전하면서 웹에는 같은 내용을 다양한 언어로 표현한 문서들이 많이 존재한다. 이와 같은 웹 문서의 성질을 이용하여, 이 논문은 웹으로부터 수집된 병렬문서(parallel document)를 이용하여 한영 병렬말뭉치 구축 시스템을 설계하고 구현한다. 이 논문에서 구축과정을 요약하면 다음과 같다. 첫째, 웹 문서수집기를 이용해서 웹으로부터 한영 웹문서(html 문서)를 각각 수집한다. 둘째, 수집된 각 언어의 웹 문서에서 불필요한 내용(태그와 광고 문구 등)을 제거하여 문장을 추출하고, 추출된 문장을 단락단위로 정렬한다. 셋째, 단락단위로 정렬된 문서를 문장정렬(sentence alignment) 방법을 이용해서 문장을 정렬한다. 끝으로 정렬된 병렬문장을 단어 단위로 분리하여 병렬말뭉치를 구축한다. 이와 같은 방법으로 이 논문에서는 약 42만 5천 문장의 한영 병렬말뭉치를 구축하였다.

Keywords