Syllable-based Korean POS Tagging using POS Distribution and Bidirectional LSTM CRFs

품사 분포와 Bidirectional LSTM CRFs를 이용한 음절 단위 형태소 분석기

  • Kim, Hyemin (DongA University, Department of Computer Engineering) ;
  • Yoon, Jungmin (DongA University, Department of Computer Engineering) ;
  • An, Jaehyun (DongA University, Department of Computer Engineering) ;
  • Bae, Kyoungman (DongA University, Department of Computer Engineering) ;
  • Ko, Youngjoong (DongA University, Department of Computer Engineering)
  • 김혜민 (동아대학교 컴퓨터공학과) ;
  • 윤정민 (동아대학교 컴퓨터공학과) ;
  • 안재현 (동아대학교 컴퓨터공학과) ;
  • 배경만 (동아대학교 컴퓨터공학과) ;
  • 고영중 (동아대학교 컴퓨터공학과)
  • Published : 2016.10.07

Abstract

형태소 분석기는 많은 자연어 처리 영역에서 필수적인 언어 도구로 활용되기 때문에 형태소에 대한 품사를 결정하는 것은 매우 중요하다. 최근 음절 기반으로 형태소의 품사를 태깅하는 방법에 대한 연구들이 많이 진행되고 있다. 음절 단위 형태소 분석은 음절 단위로 분리된 형태소에 대해서 기계학습을 이용하여 분리된 음절 단위로 품사를 태깅하는 단계를 가진다. 본 논문에서는 기존의 CRF를 이용한 음절 단위 품사 태깅 방법을 개선하기 위해 bi-LSTM-CRFs를 이용한 방법을 제안한다. 또한, bi-LSTM-CRFs의 입력을 음절의 품사 분포 벡터를 이용해 확장함으로써 음절 단위 품사 태깅의 성능을 향상 시켰다.

Keywords