Decision Tree based Disambiguation of Semantic Roles for Korean Adverbial Postpositions in Korean-English Machine Translation

한영 기계번역에서 결정 트리 학습에 의한 한국어 부사격 조사의 의미 중의성 해소

  • 박성배 (서울대학교 컴퓨터공학부) ;
  • 장병탁 (서울대학교 컴퓨터공학부) ;
  • 김영택 (서울대학교 컴퓨터공학부)
  • Published : 2000.06.15

Abstract

Korean has the characteristics that case postpositions determine the syntactic roles of phrases and a postposition may have more than one meanings. In particular, the adverbial postpositions make translation from Korean to English difficult, because they can have various meanings. In this paper, we describe a method for resolving such semantic ambiguities of Korean adverbial postpositions using decision trees. The training examples for decision tree induction are extracted from a corpus consisting of 0.5 million words, and the semantic roles for adverbial postpositions are classified into 25 classes. The lack of training examples in decision tree induction is overcome by clustering words into classes using a greedy clustering algorithm. The cross validation results show that the presented method achieved 76.2% of precision on the average, which means 26.0% improvement over the method determining the semantic role of an adverbial postposition as the most frequently appearing role.

한국어는 격조사에 의해 구문 역할이 결정되고 하나의 조사가 여러 개의 의미를 가지는 특징이 있다. 특히, 부사격 조사는 그 의미의 다양성으로 인해서 한영 기계 번역에서의 조사 번역을 어렵게 만든다. 본 논문에서는 부사격 조사가 가질 수 있는 의미격을 24개의 클래스로 분류한 후, 50만 어절 크기의 말뭉치에서 추출한 학습 예제와 결정 트리 추론(decision tree induction)을 통해 부사격 조사의 의미격 결정 규칙을 학습하였다. 결정 트리 추론 시 나타날 수 있는 학습 예제의 부족 문제는 단어 클래스를 사용함으로써 해결하였다. 실험 결과, 6개의 부사격 조사에 대해서 평균적으로 76.2%의 정확도를 보였으며, 이는 가장 많이 나타나는 의미격을 부사격 조사의 의미격으로 결정하는 방법에 비해 26.0%의 정확도 향상을 의미한다.

Keywords

References

  1. 남기심, 고영근, '표준 국어문법론', 탑출판사, 1989
  2. 조정미, 김길창, '국어 의미 해석시 중의성 해소에 대한 연구', 정보과학회지, 제14권, 제7호, pp.71-83, 1996
  3. 황호성, '한영 기계 번역에서 부사격 조사의 번역', 서울대학교 석사학위 논문, 1998
  4. W. S. Kang, J. Y. Seo, K. S. Choi and G. C. Kim, 'A Neural Network Method for the Semantic Analysis of Prepositional Phrases in English-Korean Machine Translation,' Computer Processing of Chinese and Oriental Languages, Vol. 8, No. 2, pp. 163-176, 1994
  5. 양단희, 송만석, '기계학습에 의한 단어의 격 원형성 자동 획득', 정보과학회논문지, 제25권, 제7호, pp.1116-1127, 1998
  6. J. R. Quinlan, C4.5: Programs for Machine Learning, Morgan Kaufmann Publication, 1993
  7. 천성진, '의미 계층을 이용한 전치사구의 수식 위치와 의미 결정에 관한 연구', 서울대학교 석사학위 논문, 1995
  8. 박영자, '사전을 이용한 단어 의미 자동 클러스터링 : 유전자 알고리즘 접근법', 연세대학교 박사학위 논문, 1998
  9. Pereira F., Tishby N. and Lee L., 'Distributional Clustering of English Words,' In Proceedings of Annual Meetings of the Association for Computational Linguistics(ACL), pp.183-190, 1993 https://doi.org/10.3115/981574.981598
  10. Jun Gao and XiXian Chen, 'Probabilistic Word Classification based on a Context-sensitive Binary Tree Method,' Computer Speech and Language, Vol. 11, No. 2, pp.307-320, 1997 https://doi.org/10.1006/csla.1997.0033
  11. '뉴 에이스 국어 사전', 금성사, 1987
  12. Jaehyung Yang, 'Conjunction Identification in Korean Noun Phrase Coordination Using Cooccurence Similarity,' Computer Processing of Oriental Language, Vol. 10, No. 4, pp.391-408, 1997
  13. 강원석, 서정연, 김길창, '영한 기계 번역에서의 전치사구 처리를 위한 격의미 체계와 의미속성 집합', 제6회 한글 및 한국어 정보처리 학술대회 논문집, pp.177-180, 1994
  14. 김나리, 김영택, '한국어 동사 패턴에 기반한 한국어 문장 분석과 한영 변환의 모호성 해결', 정보과학회논문지, 제23권, 제7호, pp.766-466, 1996
  15. 이휘봉, 이종혁, 이근배, '구문의존구조에서 개념그래프 생성을 위한 한국어의 의미분석', 한국정보과학회 봄 학술발표 논문집, 제24권, 제1호, pp.463-466, 1997
  16. 박성배, 김영택, '한국어 부사격 조사의 의미격 결정', 한국정보과학회 봄 학술발표 논문집, pp.399-401, 1998
  17. Kuand-Hua Chen and Hsin-Hsi Chen, 'Attachment and Transfer of Prepositional Phrase with Constraint Propogation,' Computer Processing of Chinese and Oriental Language, Vol. 6, No. 2, pp. 123-142, 1992
  18. E. V. Siegel and K. R. McKeown, 'Emergent Linguistic Rules from Inducing Decision Trees: Disambiguating Discourse Clue Words,' In Proceedings of the 12th National Conference on Artificial Intelligence(AAAI), pp. 820-826, 1994
  19. S. B. Park and Y. T. Kim, 'Semantic Role Determination in Korean Relative Clauses Using Idiomatic Patterns,' In Proceedings of the 17th International Conference on Computer Processing of Oriental Languages(ICCPOL), pp. 1-6, 1997
  20. D. Petitpierre, S. Krauwer, D. Arnold, and G. B. Varile, 'A Model for Preference,' In Proceedings of Annual Meetings of the Association for Computational Linguistics(ACL), pp. 134-139, 1987 https://doi.org/10.3115/976858.976881
  21. E. Charniak, Statistical Language Learning, MIT Press, 1993
  22. Hindle D., 'Noun Classification from Predicate-Argument Structures,' In Proceedings of Annual Meetings of the Association for Computational Linguistics(ACL), pp. 268-275, 1990 https://doi.org/10.3115/981823.981857