Statistical Word Sense Disambiguation based on using Variant Window Size

가변길이 윈도우를 이용한 통계 기반 동형이의어의 중의성 해소

  • Park, Gi-Tae (Kumoh National Institute of Technology, Computer Software Engineering Dept.) ;
  • Lee, Tae-Hoon (Kumoh National Institute of Technology, Computer Software Engineering Dept.) ;
  • Hwang, So-Hyun (Kumoh National Institute of Technology, Computer Software Engineering Dept.) ;
  • Lee, Hyun Ah (Kumoh National Institute of Technology, Computer Software Engineering Dept.)
  • 박기태 (금오공과대학교, 컴퓨터소프트웨어공학과) ;
  • 이태훈 (금오공과대학교, 컴퓨터소프트웨어공학과) ;
  • 황소현 (금오공과대학교, 컴퓨터소프트웨어공학과) ;
  • 이현아 (금오공과대학교, 컴퓨터소프트웨어공학과)
  • Published : 2012.10.06

Abstract

어휘가 갖는 의미적 중의성은 자연어의 특성 중 하나로 자연어 처리의 정확도를 떨어트리는 요인으로, 이러한 중의성을 해소하기 위해 언어적 규칙과 다양한 기계 학습 모델을 이용한 연구가 지속되고 있다. 의미적 중의성을 가지고 있는 동형이의어의 의미분별을 위해서는 주변 문맥이 가장 중요한 자질이 되며, 자질 정보를 추출하기 위해 사용하는 문맥 창의 크기는 중의성 해소의 성능과 밀접한 연관이 있어 신중히 결정되어야 한다. 본 논문에서는 의미분별과정에 필요한 문맥을 가변적인 크기로 사용하는 가변길이 윈도우 방식을 제안한다. 세종코퍼스의 형태의미분석 말뭉치로 학습하여 12단어 32,735문장에 대해 실험한 결과 용언의 경우 평균 정확도 92.2%로 윈도우를 고정적으로 사용한 경우에 비해 향상된 결과를 보였다.

Keywords