Korean Dependency Parsing Model based on Transition System using Head Final Constraint

지배소 후위 제약을 적용한 트랜지션 시스템 기반 한국어 의존 파싱 모델

  • Lim, Joon-Ho (Electronics and Telecommunications Research Institute) ;
  • Yoon, Yeo-Chan (Electronics and Telecommunications Research Institute) ;
  • Bae, Yongjin (Electronics and Telecommunications Research Institute) ;
  • Im, Su-Jong (Electronics and Telecommunications Research Institute) ;
  • Kim, Hyunki (Electronics and Telecommunications Research Institute) ;
  • Lee, Kyu-Chul (Chung-nam University)
  • 임준호 (한국전자통신연구원 지식마이닝연구실) ;
  • 윤여찬 (한국전자통신연구원 지식마이닝연구실) ;
  • 배용진 (한국전자통신연구원 지식마이닝연구실) ;
  • 임수종 (한국전자통신연구원 지식마이닝연구실) ;
  • 김현기 (한국전자통신연구원 지식마이닝연구실) ;
  • 이규철 (충남대학교 컴퓨터공학과)
  • Published : 2014.10.07

Abstract

한국어 의존 파싱은 문장 내 단어의 지배소를 찾음으로써 문장의 구조적 중의성을 해소하는 작업이다. 지배소 후위 원칙은 단어의 지배소는 자기 자신보다 뒤에 위치한다는 원리로, 한국어 구문분석을 위하여 널리 사용되는 원리이다. 본 연구에서는 한국어 지배소 후위 원리를 의존 파싱을 위한 트랜지션 시스템의 제약 조건으로 적용하여 2가지 트랜지션 시스템을 제안한다. 제안 모델은 기존 트랜지션 시스템 중 널리 사용되는 arc-standard와 arc-eager 알고리즘에 지배소 후위 제약을 적용한 포워드(forward) 기반 트랜지션 시스템과, 트랜지션 시스템의 단점인 에러 전파(error propagation)를 완화시키기 위하여 arc-eager 알고리즘의 lazy-reduce 방식을 적용한 백워드(backward) 기반 트랜지션 시스템이다. 실험은 세종 구구조 말뭉치를 의존구조로 변환하여 실험하였고, 실험 결과 백워드 기반 트랜지션 시스템이 포워드 방식보다 우수한 성능을 보였다. 기존 연구와의 비교를 위하여 기존 연구를 조사하였지만 세부 실험 환경이 서로 달라서 직접적인 비교는 어려웠다. 제안하는 시스템의 최고 성능은 UAS 92.85%, LAS 90.82% 이다.

Keywords