한국어 품사 태깅을 위한 다이내믹 링크 모델

A Dynamic Link Model for Korean POS-Tagging

  • 황명진 (부산대학교 컴퓨터공학과 한국어정보처리 연구실) ;
  • 강미영 (국립국어원 국어정보화팀) ;
  • 권혁철 (부산대학교 컴퓨터공학과 한국어정보처리 연구실)
  • Hwang, Myeong-Jin (Korean Language Processing Lab., Pusan National University) ;
  • Kang, Mi-Young (Dept. Computer Science and Engineering, Pusan National University) ;
  • Kwon, Hyuk-Chul (Korean Language Processing Lab., Pusan National University)
  • 발행 : 2007.10.12

초록

통계를 이용한 품사 태깅에서는 자료부족 문제가 이슈가 된다. 한국어나 터키어와 같은 교착어는 어절(word)이 다수 형태소로 구성되어 있어서 자료부족 문제가 더 심각하다. 이러한 문제를 극복하고자 교착어 문장을 어절 열이 아니라 형태소의 열이라 가정한 연구도 있었으나, 어절 특성이 사라지기 때문에 파생에 의한 어절의 문법 범주 변화 등의 통계정보와 어절 간의 통계정보를 구하기 어렵다. 본 논문은 효율적인 어절 간 전이확률 계산 방법론을 고안함으로써 어절 단위의 정보를 유지하면서도 자료부족문제를 해결할 수 있는 확률 모델을 제안한다. 즉, 한국어의 형태통사적인 특성을 고려하면 앞 어절의 마지막 형태소와 함께 뒤 어절의 처음 혹은 끝 형태소-즉 두 개의 어절 간 전이 링크만으로도 어절 간 전이확률 계산 시 필요한 대부분 정보를 얻을 수 있고, 문맥에 따라 두 링크 중 하나만 필요하다는 관찰을 토대로 규칙을 이용해 두전이링크 중 하나를 선택해 전이확률 계산에 사용하는 '다이내믹 링크 모델'을 제안한다. 형태소 품사 bi-gram만을 사용하는 이 모델은 실험 말뭉치에 대해 96.60%의 정확도를 보인다. 이는 같은 말뭉치에 대해 형태소 품사 tri-gram 등의 더 많은 문맥 정보를 사용하는 다른 모델을 평가했을 때와 대등한 성능이다.

키워드