구문 분석기 성능 향상을 위한 세종 트리뱅크 변환 방법

Methods of Transforming the Sejong Treebank to Improve Parser Performance

  • 최동현 (한국과학기술원, 전산학과) ;
  • 박정열 (암제르 박 출판사) ;
  • 임경태 (한국과학기술원, 웹사이언스공학과) ;
  • 함영균 (한국과학기술원, 웹사이언스공학과) ;
  • 최기선 (한국과학기술원, 전산학과)
  • 발행 : 2012.06.22

초록

세종 트리뱅크는 현존하는 한국어 트리뱅크 중 비교적 최근에 구축되었고 그 규모가 가장 큰 자원이다. 세종 트리뱅크는 어절을 기반으로 구축되어 있어, 어절의 개념이 없는 영어를 기반으로 연구 개발된 대다수의 구문분석기를 학습하는 데 이용될 경우 모호성이 발생된다. 본 논문에서는 세종 트리뱅크를 변환하여 학습 시 모호성을 줄이고, 이를 통해 학습된 구문 분석기의 성능을 높이는 방법에 대하여 서술한다. 실험 결과에 따르면 본 논문에서 제시된 변환 결과를 통해 최소 2 %에서 최대 4 % 정도의 성능 향상 효과를 얻을 수 있었다.

키워드

과제정보

연구 과제 주관 기관 : 한국연구재단