Part-of-Speech Tagging System Using Rules/Statistics Extracted by Unsupervised Learning

규칙과 비감독 학습 기반 통계정보를 이용한 품사 태깅 시스템

  • Lee Donghun (Korean Language Processing Lab, School of Electrical & Computer Engineering, Pusan National University) ;
  • Kang Mi-young (Korean Language Processing Lab, School of Electrical & Computer Engineering, Pusan National University) ;
  • Hwang Myeong-jin (Korean Language Processing Lab, School of Electrical & Computer Engineering, Pusan National University) ;
  • Hwon Hyuk-chul (Korean Language Processing Lab, School of Electrical & Computer Engineering, Pusan National University)
  • 이동훈 (부산대학교 컴퓨터공학과 한국어정보처리 연구실) ;
  • 강미영 (부산대학교 컴퓨터공학과 한국어정보처리 연구실) ;
  • 황명진 (부산대학교 컴퓨터공학과 한국어정보처리 연구실) ;
  • 권혁철 (부산대학교 컴퓨터공학과 한국어정보처리 연구실)
  • Published : 2005.07.01

Abstract

본 논문은 규칙 기반 방법과 통계 기반 방법을 동시에 사용함으로써 두 가지 방법의 장단점을 상호 보완한다. 한 문장에 대한 최적의 품사열은 HMM을 기반으로 Viterbi Algorithm을 사용하여 선택한다. 이때 파라미터 값은 규칙에 의한 가중치 값과 통계 정보를 사용한다. 최소한의 일반규칙을 사용하여 구축한 규칙의 적용에 따라 가중치 값을 구하며 규칙을 적용받지 못하는 경우는 비감독학습으로 추출한 통계정보에 기반을 둔 가중치 값을 이용하여 파라미터 값을 구한다. 이러한 기본 모델을 여러 회 반복하여 학습함으로써 최적의 통계기반 가중치를 구한다. 규칙과 비감독 학습으로 추출한 통계정보를 이용한 본 품사 태깅 시스템의 어절 기반 정확도는 $97.78\%$이다.

Keywords