DOI QR코드

DOI QR Code

Word Sense Disambiguation using Korean Word Space Model

한국어 단어 공간 모델을 이용한 단어 의미 중의성 해소

  • 박용민 (충북대학교 디지털정보융합학과/컴퓨터정보통신연구소) ;
  • 이재성 (충북대학교 디지털정보융합학과/컴퓨터정보통신연구소)
  • Received : 2012.06.04
  • Accepted : 2012.06.25
  • Published : 2012.06.28

Abstract

Various Korean word sense disambiguation methods have been proposed using small scale of sense-tagged corpra and dictionary definitions to calculate entropy information, conditional probability, mutual information and etc. for each method. This paper proposes a method using Korean Word Space model which builds word vectors from a large scale of sense-tagged corpus and disambiguates word senses with the similarity calculation between the word vectors. Experiment with Sejong morph sense-tagged corpus showed 94% precision for 200 sentences(583 word types), which is much superior to the other known methods.

한국어 단어의 의미 중의성 해소 방법들은 주로 소규모의 의미 태그 부착 말뭉치나 사전 정보 등을 이용하여 엔트로피 정보, 조건부 확률, 상호정보 등을 각각 계산하고 이를 중의성 해소에 이용하는 방법 등으로 다양하게 제안되었다. 본 논문에서는 대규모로 구축된 의미 태그 부착 말뭉치를 이용하여 한국어 단어 벡터를 추출하고 이 벡터들 사이의 유사도를 계산하여 단어 의미 중의성을 해소하는 단어 공간 모델 방법을 제안한다. 세종 형태의미분석 말뭉치를 사용하여 학습하고 임의의 200문장(583 단어 종류)에 대해 평가한 결과, 정확도가 94%로 기존의 방법에 비해 매우 우수했다.

Keywords

References

  1. 안광모, 한규열, 서영훈, "어휘별 중의성 제거 규칙과 통계 정보를 이용한 한국어 품사 태깅", 한국콘텐츠학회논문지, 제9권, 제2호, pp.18-26, 2009. https://doi.org/10.5392/JKCA.2009.9.2.018
  2. 이호, 백대호, 임해창, "분류 정보를 이용한 단어 의미 중의성 해결", 정보과학회논문지(B), 제24권, 제7호, pp.779-789, 1997.
  3. 허정, 옥철영, "사전의 뜻풀이말에서 추출한 의미 정보에 기반한 동형이의어 중의성 해결 시스템", 정보과학회논문지 소프트웨어 및 응용, 제28권, 제9호, pp.688-698, 2001.
  4. 김준수, 최호섭, 옥철영, "가중치를 이용한 통계 기반 한국어 동형이의어 분별 모델", 정보과학회논문지 소프트웨어 및 응용, 제30권, 제11.12호, pp.1112-1123, 2003.
  5. 허정, 서희철, 장명길, "상호정보량과 복합명사 의미사전에 기반한 동음이의어 중의성 해소", 정보과학회논문지 소프트웨어 및 응용, 제33권, 제12호, pp.1073-1089, 2006.
  6. H. Schutze, "Automatic Word Sense Discrimination," Computational Linguistics, Vol.24, No.1, 1998.
  7. Manning, D. Christopher and Schutze, Hinrich, Foundations of Statistical Natural Language Processing, MIT Press, pp.229-261, 1999.
  8. W. A. Gale, W. C. Kenneth, and D. Yarowsky, "A method for disambiguating word senses in a large corpus," Computers and the Humanities, Vol.26, pp.415-439, 1992. https://doi.org/10.1007/BF00136984
  9. P. F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and R. L. Mercer, "Word-sense disambiguation using statistical methods," In Proceedings, 29th Annual Meeting of the Association for Computational Linguistics, pp.264-270, 1991.
  10. M. Lesk, "Automatic sense disambiguation: How to tell a pine cone from an ice cream cone," In Proceedings of the 1986 SIGDOC Conference, pp.24-26, 1986.
  11. D. E. Walker, "Knowledge resource tools for accessing large text files," In Sergei Nirenburg(ed.) Machine Translation: Theoretical and methodological issues, Cambridge: Cambridge University Press, pp.247-261, 1987.
  12. Dagan Ido, and Alon Itai., "Word sense disambiguation using a second language monolingual corpus," Computational Linguistics, Vol.20, pp.563-596, 1994.
  13. Dagan Ido, Alon Itai, and Ulrike Schwall, "Two languages are more informative than one," In Proceedings, 29th Annual Meeting of the Association for Computational Linguistics, pp.130-137, 1991.
  14. 국립국어원, 21세기 세종계획 최종 성과물(2011년 12월 수정판), 2011.