Extending Korean PropBank for Korean Semantic Role Labeling and Applying Domain Adaptation Technique

한국어 의미역 결정을 위한 Korean PropBank 확장 및 도메인 적응 기술 적용

  • Received : 2015.10.26
  • Accepted : 2015.11.05
  • Published : 2015.12.31

Abstract

Korean semantic role labeling (SRL) is usually performed by a machine learning and requires a lot of corpus. However, the Korean PropBank used in Korean SRL system is less than PropBank. It leads to a low performance. Therefore, we expand the annotated corpus and verb frames for Korean SRL system to expand the Korean PropBank corpus. Most of the SRL system have a domain-dependent performance so, the performance may decrease if domain was changed. In this paper, we use the domain adaptation technique to reduce decreasing performance with the existing corpus and the small size of new domain corpus. We apply the domain adaptation technique to Structural SVM and Deep Neural Network. The experimental result show the effectiveness of the domain adaptation technique.

한국어 의미역 결정(Semantic Role Labeling)은 주로 기계학습에 의해 이루어지며 많은 말뭉치 자원을 필요로 한다. 그러나 한국어 의미역 결정 시스템에 사용되는 Korean PropBank는 의미역이 부착된 용언과 용언 격틀이 PropBank에 비해 각각 1/5, 1/2 수준에 불과하다. 따라서 본 논문에서는 한국어 의미역 결정 시스템을 위해 의미역이 부착된 용언과 용언 격틀을 확장하여 Korean PropBank를 확장 시키고자 한다. 대부분의 의미역 결정 시스템은 학습 도메인에 의존적이기 때문에 적용 도메인 변경에 따른 성능 하락이 나타날 수 있다. 본 논문에서는 기존의 학습 말뭉치와 적은 양의 새로운 학습 말뭉치를 활용하여 새로운 도메인에 대해 의미역 결정 시스템의 성능 하락을 최소화 할 수 있는 도메인 적응 기술을 Structural SVM(S-SVM)과 Deep Neural Network(DNN) 기반 한국어 의미역 결정 시스템에 적용하여 그 실효성을 알아보고자 한다.

Keywords

References

  1. 정현기, 김유섭 (2011). 확장된 격틀 사전을 이용한 한국어 부사격 논항의 의미역 결정. 한국정보기술학회논문지, 167-176.
  2. 김완수, 옥철영 (2015). 한국어 격틀 사전과 의미역 빈도 정보를 사용한 한국어 의미역 결정. 한국정보과학회 학술발표논문집, 651-653.
  3. 이창기, 임수종, 김현기 (2014). Structural SVM 기반의 한국어 의미역 결정. 한국정보과학회 학술발표논문집, 574-576.
  4. 배장성, 이창기, 임수종 (2015). 딥 러닝을 이용한 한국어 의미역 결정. 한국정보과학회 학술발표논문집, 690-692.
  5. 배장성, 오준호, 박천음, 최경호, 이창기 (2014). 한국어 의미역 말뭉치 구축을 위한 반자동 태깅 도구 개발. 한국정보과학회 학술발표논문집, 592-594
  6. Palmer Martha, Daniel Gildea, Paul Kingsbury (2005). The proposition bank: An annotated corpus of semantic roles. Computational Linguistics 31-1, 71-106. https://doi.org/10.1162/0891201053630264
  7. Palmer Martha, Ryu Shijong, Choi Jinyoung, Yoon Sinwon, Jeon Yeongmi (2006). Korean PropBank. LDC Catalog No: LDC2006T03 ISBN, 1-58563.
  8. X. Carreras, L. Marquez (2005). Introduction to the CoNLL-2005 Shared Task: Semantic Role Labeling, Proceedings of the Ninth Conference on Computational Natural Language Learning. Association for Computational Linguistics, 152-164.
  9. 김병수, 이용훈, 이종혁 (2007). 비지도 학습을 기반으로 한 한국어 부사격의 의미역 결정. 정보과학회논문지: 소프트웨어 및 응용, 34-2, 112-122.
  10. Zhou Jie, Wei Xu.(2015). End-to-end Learning of Semantic Role Labeling Using Recurrent Neural Networks. Association for Computational Linguistics, 1127-1137.
  11. Blitzer John, Daume III Hal (2010). Domain Adaptation. International Conference on Machine Learning tutorial.
  12. Daume III Hal (2007). Frustratingly easy domain adaptation. Association for Computational Linguistics, 256-263.
  13. Soojong Lim, Changki Lee, Pum-Mo Ryu, Hyunki Kim, Sang Kyu Park, Dongyul Ra (2014). Domain-Adaptation Technique for Semantic Role Labeling with Structural Learning. ETRI Journal, 36-3, 429-438. https://doi.org/10.4218/etrij.14.0113.0645
  14. Babko-Malaya, Olga (2005). Propbank annotation guidelines. URL:http://verbs.colorado.edu.