Improving Korean Part-of-speech tagging by Part-of-Speech specific features

품사별 자질을 이용한 한국어 품사부착의 성능 향상

  • Choi Won-Jong (Natural Language Processing Lab. Korea University) ;
  • Lee Do-Gil (Natural Language Processing Lab. Korea University) ;
  • Rim Hae-Chang (Natural Language Processing Lab. Korea University)
  • 최원종 (고려대학교 자연어처리연구실) ;
  • 이도길 (고려대학교 자연어처리연구실) ;
  • 임해창 (고려대학교 자연어처리연구실)
  • Published : 2006.06.01

Abstract

한국어 형태소분석 및 품사부착에서 일부 품사는 높은 중의성으로 인하여 오류가 많으며, 일부 품사가 전체 오류의 대부분을 차지한다. 본 연구에서는 높은 중의성으로 인하여 오류가 많은 품사를 대상으로, 각 품사에 적합한 자질을 이용하여 학습한, 정확률이 높은 분류기를 통계적 방식의 태거와 순차 결합하여 형태소분석/품사부착 성능을 향상하였다. 2003년 세종계획 품사 부착 말뭉치 200만 어절에서 학습하여 평가를 한 결과 기존 통계적 품사 부착기에 비해 정확도는 0.62% 향상되었으며, 오류는 13.12% 감소하였다.

Keywords