어절구조를 반영한 은닉 마르코프 모텔을 이용한 한국어 품사태깅

An HMM Part-of-Speech Tagger for Korean Based on Wordphrase

  • 신중호 (한국과학기술원 전산학과) ;
  • 한영석 (한국과학기술원 전산학과) ;
  • 박영찬 (한국과학기술원 전산학과) ;
  • 최기선 (한국과학기술원 전산학과)
  • 발행 : 1994.11.18

초록

말뭉치에 품사를 부여하는 일은 언어연구의 중요한 기초가 된다. 형태소 해석의 모호한 결과로부터 한 가지 품사를 선정하는 작업을 태깅이라고 한다. 한국어에서 은닉 마르코프 모델 (Hidden Markov Model)을 이용한 태깅은 형태소 관계만 흑은 어절관계만을 이용한 방법이 있어 왔다. 본 논문에서는 어절관계와 형태소관계를 동시에 은닉 마르코프 모델에 반영하여 태깅의 정확도를 높인 모델을 제시한다. 제안된 방법은 품사의 변별력은 뛰어나지만 은닉 마르코프 모델의 노드의 수가 커짐으로써 형태소만을 고려한 방법보다 더 많은 학습데이타를 필요로 한다. 실험적으로 본 논문의 방법이 기존의 방법보다 높은 정확성을 가지고 있음이 검증되었다.

키워드