유한상태변환기만을 이용한 한국어 형태소 분석 및 품사 태깅

Korean Morphological Analyzer and POS Tagger Just Using Finite-State Transducers

  • 박원병 (한국해양대학교 컴퓨터공학과) ;
  • 김재훈 (한국해양대학교 컴퓨터공학과)
  • Park, Won-Byeong (Department of Computer Engineering, Korea Maritime University) ;
  • Kim, Jae-Hoon (Department of Computer Engineering, Korea Maritime University)
  • 발행 : 2006.11.10

초록

이 논문은 유한상태변환기만을 이용하여 한국어 형태소 분석 및 품사 태깅 시스템을 제안한다. 기존의 한국어 형태소 분석 시스템들은 규칙기반 형태소 분석기가 주를 이루고 한국어 품사 태깅 시스템은 은닉마르코프 모델 기반 품사 태깅이 주를 이루었다. 한국어 형태소 분석의 경우 유한상태변환기를 이용한 경우도 있었으나, 이 방법은 변환기를 작성하기 위한 규칙을 수작업으로 구축해야 하며, 그 규칙에 따라서 사전이 작성되어야 한다. 이 논문에서는 품사 태깅 말뭉치를 이용해서 유한상태변환기에서 필요한 모든 변환 규칙을 자동으로 추출한다. 이런 방법으로 네 종류의 변환기, 즉, 자소분리변환기, 단어분리변환기, 단어형성변환기, 품사결정변환기를 자동으로 구축한다. 구축된 변환기들은 결합연산(composition operation)을 이용하여 하나의 유한상태변환기를 구성하여 한국어 형태소 분석과 동시에 한국어 품사 태깅을 수행한다. 이 방법은 하나의 유한상태변환기만을 이용하기 때문에 복잡도는 선형시간(linear complexity)을 가지면, 형태소 분석기와 품사 태깅 시스템을 매우 짧은 시간 내에 개발 할 수 있었다.

키워드