Methods of Transforming the Sejong Treebank to Improve Parser Performance

구문 분석기 성능 향상을 위한 세종 트리뱅크 변환 방법

  • 최동현 (한국과학기술원, 전산학과) ;
  • 박정열 (암제르 박 출판사) ;
  • 임경태 (한국과학기술원, 웹사이언스공학과) ;
  • 함영균 (한국과학기술원, 웹사이언스공학과) ;
  • 최기선 (한국과학기술원, 전산학과)
  • Published : 2012.06.22

Abstract

세종 트리뱅크는 현존하는 한국어 트리뱅크 중 비교적 최근에 구축되었고 그 규모가 가장 큰 자원이다. 세종 트리뱅크는 어절을 기반으로 구축되어 있어, 어절의 개념이 없는 영어를 기반으로 연구 개발된 대다수의 구문분석기를 학습하는 데 이용될 경우 모호성이 발생된다. 본 논문에서는 세종 트리뱅크를 변환하여 학습 시 모호성을 줄이고, 이를 통해 학습된 구문 분석기의 성능을 높이는 방법에 대하여 서술한다. 실험 결과에 따르면 본 논문에서 제시된 변환 결과를 통해 최소 2 %에서 최대 4 % 정도의 성능 향상 효과를 얻을 수 있었다.

Keywords

Acknowledgement

Supported by : 한국연구재단