Word Sense Disambiguation Using of Cooccurrence Information Vectors

공기정보 벡터를 이용한 한국어 명사의 의미구분

  • 신사임 (전문용어언어공학연구센터, 첨단정보기술연구센터, 한국과학기술원) ;
  • 이주호 (전문용어언어공학연구센터, 첨단정보기술연구센터, 한국과학기술원) ;
  • 최용석 (전문용어언어공학연구센터, 첨단정보기술연구센터, 한국과학기술원) ;
  • 최기선 (전문용어언어공학연구센터, 첨단정보기술연구센터, 한국과학기술원)
  • Published : 2001.10.12

Abstract

본 논문은 문맥의 공기정보를 사용한 한국어 명사의 의미구분에 관한 연구이다. 대상 명사에 대한 문맥의 지엽적인 단어분포는 명사의 의미구분을 위한 의미적 특성을 표현하는데 충분하지 못하다. 본 논문은 의미별로 수집한 문맥 정보를 기저 벡터화 하는 방법을 제안한다. 정보의 중요도 측정을 통하여 의미구분에 불필요한 문맥정보는 제거하고, 남아있는 문맥의 단어들은 변별력 강화를 위하여 상의어 정보로 바꾸어 기저벡터에 사용한다. 상의어 정보는 단어의 형태와 사전 정의문의 패턴을 통해 추출한다. 의미 벡터를 통한 의미구분에 실패하였을 경우엔 훈련데이터에서 가장 많이 나타난 의미로 정답을 제시한다. 실험을 위해 본 논문에서는 SENSEVAL 실험집합을 사용하였으며, 제시한 방법으로 공기정보의 가공 없이 그대로 실험한 방법과 비교하여 최고 42% 정도의 정확률 향상을 나타내었다.

Keywords