영한 기계번역에서의 영어 품사결정 모델

A Model of English Part-Of-Speech Determination for English-Korean Machine Translation

  • 김성동 (한성대학교 컴퓨터공학과) ;
  • 박성훈 (한성대학교 컴퓨터공학과)
  • Kim, Sung-Dong (Department of Computer Engineering, Hansung University) ;
  • Park, Sung-Hoon (Department of Computer Engineering, Hansung University)
  • 투고 : 2009.07.14
  • 심사 : 2009.09.10
  • 발행 : 2009.09.30

초록

영한 기계번역에서 영어 단어의 품사결정은 번역할 문장에 사용된 어휘의 품사 모호성을 해소하기 위해 필요하다. 어휘의 품사 모호성은 구문 분석을 복잡하게 하고 정확한 번역을 생성하는 것을 어렵게 한다. 본 논문에서는 이러한 문제점을 해결하기 위해 어휘 분석 이후 구문 분석 이전에 품사 모호성을 해소하려 하였으며 품사 모호성을 해소하기 위한 CatAmRes 모델을 제안하고 다른 품사태깅 방법과 성능 비교를 하였다. CatAmRes는 Penn Treebank 말뭉치를 이용하여 Bayesian Network를 학습하여 얻은 확률 분포와 말뭉치에서 나타나는 통계 정보를 이용하여 영어 단어의 품사를 결정을 한다. 본 논문에서 제안한 영어 품사결정 모델 CatAmRes는 결정할 품사의 적정도 값을 계산하는 Calculator와 계산된 적정도 값에 근거하여 품사를 결정하는 POSDeterminer로 구성된다. 실험에서는 CatAmRes의 동작과 성능을 테스트 하기 위해 WSJ, Brown, IBM 영역의 말뭉치에서 추출한 테스트 데이터를 이용하여 품사결정의 정확도를 평가하였다.

The part-of-speech determination is necessary for resolving the part-of-speech ambiguity in English-Korean machine translation. The part-of-speech ambiguity causes high parsing complexity and makes the accurate translation difficult. In order to solve the problem, the resolution of the part-of-speech ambiguity must be performed after the lexical analysis and before the parsing. This paper proposes the CatAmRes model, which resolves the part-of-speech ambiguity, and compares the performance with that of other part-of-speech tagging methods. CatAmRes model determines the part-of-speech using the probability distribution from Bayesian network training and the statistical information, which are based on the Penn Treebank corpus. The proposed CatAmRes model consists of Calculator and POSDeterminer. Calculator calculates the degree of appropriateness of the partof-speech, and POSDeterminer determines the part-of-speech of the word based on the calculated values. In the experiment, we measure the performance using sentences from WSJ, Brown, IBM corpus.

키워드

참고문헌

  1. 김영택 외 25인, "자연 언어 처리", 제1판, 생능출판사, 2001.
  2. 김태완, "기계 번역 기술의 개요 및 동향", 대한전자공학회 전자공학회지, 24권 9호(1997), 1095-1102.
  3. 박상규, "기계 번역을 위한 한국어 품사의 자동분류 방법", 한국과학기술원 석사학위 논문, 1984.
  4. 박성배, 장성탁, "최대 엔트로피 부스팅 모델을 이용한 품사 모호성 해소", 한국정보과학회 2003년도 봄 학술발표논문집, 30권 1호(B)(2003), 522-524.
  5. 심광섭, 김영택, "기계 번역 시스템", 한국정보과학회 정보과학회지, 12권 8호(1994), 17-23.
  6. 이성욱, 이공주, 서정연, "영한 기계번역 품사 집합과 펜트리뱅크 코퍼스 품사 집합간의 품사 대응", 한국정보과학회 1999년도 가을 학술 발표논문집, 26권 2호(1990), 184-186.
  7. 최원종, 이도길, 임해창, "어휘별 분류기를 이용한 한국어 품사 부착의 성능 향상", 제18회 한글 및 한국어 정보처리 학술대회 논문집, (2006), 133-139.
  8. 최형석, "국어의 처리를 위한 기계사전에 관한 연구", 인하대학교 석사학위논문, 1984
  9. 한성국, "한국어의 Machine Translation을 위한 구문 구조분석", 인하대학교 석사학위논문, 1981.
  10. Ben-Gal I., "Bayesian Networks", Encyclopedia of Statistics in Quality and Reliability, Wiley and Sons, 2007.
  11. Brill, E., "Transformation-Based Error-Driven Learning and Natural Language Processing : A Case Study in Part-Of-Speech Tagging", Computational Linguistics, Vol.21, No.4(1995), 543-565.
  12. Gimenez J., and Marquez L., "SVMTool:A General POS Tagger Generator based on Support Vector Machines", Proceedings of the 4th International Conference on Language Resources and Evaluation, 2004.
  13. Kupiec, J., "Robust part-of-speech tagging using a hidden Markov model", Computer Speech and Language, Vol.6(1992), 225-242. https://doi.org/10.1016/0885-2308(92)90019-Z
  14. Mitchell, P. M., B. Santorini, and M. A. Marcinkiewicz, "Building a Large Annotated Corpus of English : The Penn Treebank", Computational Linguistics, Vol.19, No.2(1993), 313-330.
  15. Nakamura, M., Tsuda K., and J.-I. Aoe, "Word category prediction based on neural network", International Journal of Computer Mathematics, Vol.57, No.3(1995), 169-181. https://doi.org/10.1080/00207169508804421
  16. Sergei Nirenburg, Machine Translation-Theoretical and methodological issues, Cambridge University Press, 1987.
  17. Shen L., Satta G., and Joshi A., "Guided Learning for Bidirectional Sequence Classification", Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, (2007), 760-767.
  18. Witten, I.H., E. Franck, L. Trigg, M. Hall, G. Holmes, and S.J. Cunningham, "Weka: Practical machine learning tools and techniques with Java implementations", Proceedings of ANNES'99 International Workshop on emerging Engineering and Connectionist-based Information Systems, (1999), 192-196.