Extracting Korean-English Parallel Sentences from Wikipedia

위키피디아로부터 한국어-영어 병렬 문장 추출

  • 김성현 (동아대학교 컴퓨터공학과) ;
  • 양선 (동아대학교 컴퓨터공학과) ;
  • 고영중 (동아대학교 컴퓨터공학과)
  • Received : 2014.02.18
  • Accepted : 2014.06.16
  • Published : 2014.08.15

Abstract

This paper conducts a variety of experiments for "the extraction of Korean parallel sentences using Wikipedia data". We refer to various methods that were previously proposed for other languages. We use two approaches. The first one is to use translation probabilities that are extracted from the existing resources such as Sejong parallel corpus, and the second one is to use dictionaries such as Wiki dictionary consisting of Wikipedia titles and MRDs (machine readable dictionaries). Experimental results show that we obtained a significant improvement in system using Wikipedia data in comparison to one using only the existing resources. We finally achieve an outstanding performance, an F1-score of 57.6%. We additionally conduct experiments using a topic model. Although this experiment shows a relatively lower performance, an F1-score of 51.6%, it is expected to be worthy of further studies.

본 연구는 '위키피디아 데이터를 이용한 병렬 문장 추출'이라는 주제에 대해서, 기존에 해외에서 사용되었던 다양한 방법을 한국어 위키피디아 데이터에 실제로 적용해보고 그 결과를 정리하여 보고한다. 실험 방식은 두 가지로 나눌 수 있는데, 첫 번째는 번역 확률을 이용하는 방법으로 세종 병렬 말뭉치 등의 기존 자원으로부터 번역 확률을 추출하여 사용한다. 두 번째는 사전을 이용하는 방법으로, 위키피디아 타이틀로 구성된 위키 사전(Wiki dictionary)을 기본으로 하여, MRD(machine readable dictionary) 정보와 숫자 사전을 추가로 사용한다. 실험 결과, 기존 자원만 이용한 경우보다 위키피디아 데이터를 결합하여 사용한 경우에 매우 큰 폭의 성능 향상을 얻어, 최종적으로 F1-score 57.6%의 우수한 성능을 산출하였다. 또한 토픽 모델(topic model)을 이용한 실험도 추가로 수행하였는데, F1-score 51.6%로 최종 성능 면에서는 낮았지만 비지도 학습 방법이라는 장점을 고려할 때 추가 연구에 대한 여지가 있다고 볼 수 있다.

Keywords

Acknowledgement

Supported by : 한국연구재단

References

  1. Teubert Wolfgang, "Comparable or parallel corpora?," International journal of lexicography, vol.9, no.3, p.238, 1996. https://doi.org/10.1093/ijl/9.3.238
  2. Adafre Sisay Fissaha and Maarten De Rijke. "Finding similar sentences across multiple languages in wikipedia," In Proceedings of EACL'06, p.62, 2006.
  3. Hewavitharana Sanjika and Stephan Vogel, "Extracting parallel phrases from comparable data," In Proceedings of BUCC'11, p.61, 2011.
  4. Ture Ferhan and Jimmy Lin, "Why not grab a free lunch?: mining large corpora for parallel sentences to improve translation modeling," In Proceedings of NAACL'12, p.626, 2012.
  5. Dean Jeffrey and Sanjay Ghemawat, "MapReduce: simplified data processing on large clusters," Communications of the ACM, vol.51, no.1, p.107, 2008.
  6. David M. Blei, Andrew Y. Ng and Michael I. Jordan, "Latent dirichlet allocation," The Journal of Machine Learning research, 3, p.993, 2003.
  7. Zede Zhu, Miao Li, Lei Chen and Zhenxin Yang, "Building Comparable Corpora Based on Bilingual LDA Model," In Proceedings of ACL'13, p.278, 2013.
  8. Ivan Vulic, Wim De Smet, and Marie-Francine Moens, "Cross-language information retrieval with latent topic models trained on a comparable corpus," Information Retrieval Technology, Springer Berlin Heidelberg, p.37, 2011.
  9. Ivan Vulic and Marie-Francine Moens, "Crosslingual semantic similarity of words as the similarity of their semantic word response," In Proceedings of NAACL'13, p.106, 2013.