Internet English Newspaper Article Extraction Tool for English Corpus Construction

영어 말뭉치 구축을 위한 인터넷 영어 신문기사 추출 도구

  • Kim, Sung-Dong (Hansung University, Dept. of Computer Engineering) ;
  • Eum, Jae-Young (Hansung University, Dept. of Computer Engineering) ;
  • Song, Chulmin (Hansung University, Dept. of Computer Engineering)
  • 김성동 (한성대학교, 컴퓨터공학과) ;
  • 엄재영 (한성대학교, 컴퓨터공학과) ;
  • 송철민 (한성대학교, 컴퓨터공학과)
  • Published : 2012.10.06

Abstract

영한 기계번역 시스템의 개발을 위해서는 여러 가지 사전이 필요하고, 다앙한 모호성 해소를 위한 연구를 위한 데이터가 필요하며, 번역 시스템의 테스트를 위해 많은 영어 문장이 필요하다. 따라서 영어 말뭉치를 구축하여 이로부터 사전에 필요한 정보, 모호성 해소 연구에 필요한 데이터, 번역 테스트를 위한 문장 등을 추출할 필요가 있다. 본 논문에서는 영어 말뭉치를 구축하기 위해 인터넷 영어 신문 사이트로부터 영어로 작성된 신문기사를 추출하는 도구를 개발하였다. 이를 통해 자동적으로 영어 신문기사를 추출하여 말뭉치를 구축할 수 있으며, 이를 통해 영한 기계번역 시스템의 성능 향상을 지원할 수 있다.

Keywords