Improvement of TAKTAG using unknown-word handling

미등록어 추정을 이용한 TAKTAG의 개선

  • Cha, Jeong-Won (Dept. of Computer Science and Engineering Pohang University of Science and Technology) ;
  • Lee, Won-Il (Dept. of Computer Science and Engineering Pohang University of Science and Technology) ;
  • Lee, Geun-Bae (Dept. of Computer Science and Engineering Pohang University of Science and Technology) ;
  • Lee, Jong-Hyeok (Dept. of Computer Science and Engineering Pohang University of Science and Technology)
  • 차정원 (포항공과대학교 전자계산학과) ;
  • 이원일 (포항공과대학교 전자계산학과) ;
  • 이근배 (포항공과대학교 전자계산학과) ;
  • 이종혁 (포항공과대학교 전자계산학과)
  • Published : 1996.10.11

Abstract

본 논문에서는 음소단위의 bigram과 trigram 정보를 이용하여 어절내에서의 위치와 개수에 관계없이 미등록어를 추정하고, 미등록어용 형태소 패턴 사전을 도입하여 마치 등록어처럼 미등록어를 처리할 수 있는 방법을 제안한다. 제안된 미등록어 추정 모텔은 조사나 어미와 같은 기능어에 의한 간접적인 추정방법이 아닌 미등록어 자체의 추정과 접속정보를 이용한 검사를 동시에 하여 정확도를 높였다. 본 미등록어 추정방법은 기존의 한국어 품사태깅모델인 TAKTAG에 적용하여 미등록어가 포함된 어절에 대해서 83.72%의 성능을 보였다.

Keywords