DOI QR코드

DOI QR Code

Automatic Recognition of Translation Phrases Enclosed with Parenthesis in Korean-English Mixed Documents

한영 혼용문에서 괄호 안 대역어구의 자동 인식

  • Lee, Jae-Sung (Dept. of Computer Eduation, Information Industrial, Computer Information Communication, Chungbuk National University) ;
  • Seo, Young-Hoon (Dept. of Computer Engineering, Chungbuk National University)
  • 이재성 (충북대학교 컴퓨터교육과/컴퓨터 정보통신연구소) ;
  • 서영훈 (충북대학교 컴퓨터공학과/컴퓨터 정보통신연구소)
  • Published : 2002.08.01

Abstract

In Korean-English mixed documents, translated technical words are usually used with the attached full words or original words enclosed with parenthesis. In this paper, a collective method is presented to recognize and extract the translation phrases with using a base translation dictionary. In order to process the unregistered title words and translation words in the dictionary, a phonetic similarity matching method, a translation partial matching method, and a compound word matching method are newly proposed. The experiment result of each method was measured in F-measure(the alpha is set to 0.4) ; exact matching of dictionary terms as a baseline method showed 23.8%, the hybrid method of translation partial matching and phonetic similarity matching 75.9%, and the compound word matching method including the hybrid method 77.3%, which is 3.25 times better than the baseline method.

한영 혼용문에서 번역된 전문용어 등을 사용할 때, 이해를 돕기 위해 그 뒤의 괄호 안에 원어 풀이를 함께 쓰는 경우가 많다. 본 논문에서는 괄호가 사용된 구가 대역어구 관계인지를 판단하고, 어느 범위까지 대역어구인지를 기본사전을 이용하여 확률적으로 계산하고 인식하는 방법을 제시한다. 특히, 사전에 표제어로서 혹은 대역어로서 존재하지 않는 단어들을 처리하기 위해 음운유사도 일치, 대역어 부분일치의 방법과 복합어 처리를 위해 부분일치 방법을 새로 제안하였다. 각 방법들을 단계별로 실험하여 0.4F값$(\alpha$를 0.4로 설정한 F값)으로 측정한 결과, 기본 실험 방법인 사전 대역어 완전일치방법의 경우 23.8%인데 비해, 대역어 부분일치와 음운유사도 일치를 흔합한 방법이 75.9%, 복합어 처리를 추가한 방법이 77.3%의 값을 보여 성능이 최고 3.25배 향상되었다.

Keywords

References

  1. D. A. Hull and G. Grefenstette, 'Querying across languages : a dictionary-based approach to multilingual information retrieval,' in Proceedings of ACM SIGIR Conference on Information Retrieval, Zurich, Switzerland, pp.49-57, 1996 https://doi.org/10.1145/243199.243212
  2. P. F. Brown, J. C. Lai, and R. L. Mercer, 'Aligning sentences in parallel corpora,' In Proceedings 29th annual meeting of the ACL, Berkeley, CA, pp.169-176, 1991 https://doi.org/10.3115/981344.981366
  3. P. F. Brown and et al, The mathematics of statistical machine translation : parameter estimation, Computational Linguistics, Vol.19, No.2, pp.263-311, 1993
  4. I. Dagan, K. Church, and W. Gale, 'Robust bilingual word alignment for machine aided translation,' In Proceedings of the Workshop on Very Large Corpora : Academic and Industrial Perspectives, pp. 1-8, 1993
  5. D. Wu and X. Xia, 'Learning an English-Chinese lexicon from a parallel corpus,' Association for Machine Translation in the Americas, Columbia, MD, pp.206-213, 1994
  6. K. Church, 'Char_align : A program for aligning parallel texts at the character level,' in Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics, Ohio, pp.1-8, 1993 https://doi.org/10.3115/981574.981575
  7. D. Wu and P. Fung, 'Improving Chinese tokenization with linguistic filters on statistical lexical acquisition,' Fourth Conference on Applied Natural Language Processing, Stuttgart, pp.180-181, 1994 https://doi.org/10.3115/974358.974399
  8. 신중호, '한국어/영어 병렬 코퍼스에 대한 단어단위 및 구단위 정렬모델', 석사학위논문, 한국과학기술원, 1996
  9. 이재성, 다국어 정보검색을 위한 영-한 음차 표기 및 복원 모델, 박사학위논문, 한국과학기술원, 1999
  10. 이재성, '번역문에서의 외래어 표기용례 자동구축', 컴퓨터정보통신연구, 9권 2호, 충북대학교 컴퓨터정보통신연구소, pp. 25-33, 2001
  11. 박영찬, 최기선, 김재군, 김영환, '한국어 정보 검색 연구를 위한 시험용 데이터 모음 2.0(KTSET 2.0) 개발', 한국정보과학회 인공지능연구회 춘계학술발표대회논문집, 서울, pp.59-65, 1996