DOI QR코드

DOI QR Code

Efficient Part-of-Speech Set for Knowledge-based Word Sense Disambiguation of Korean Nouns

한국어 명사의 지식기반 의미중의성 해소를 위한 효과적인 품사집합

  • Received : 2015.10.23
  • Accepted : 2016.03.15
  • Published : 2016.04.28

Abstract

This paper presents the part-of-speech set which is highly efficient at knowledge-based word sense disambiguation for Korean nouns. 174,000 sentences extracted for test set from Sejong semantic tagged corpus whose sense is based on Standard korean dictionary. We disambiguate selected nouns in test set using glosses and examples in Standard Korean dictionary. 15 part-of-speeches which give the best performance for all test set and 17 part-of-speeches which give the best performance for accuracy average of selected nouns are selected. We obtain 12% more performance by those part-of-speech sets than by full 45 part-of-speech set.

본 논문에서는 지식기반 기법에서 한국어 명사의 의미중의성 해소에 유용한 품사집합을 제시한다. 세종 형태의미분석 말뭉치에서 174,000 문장을 추출하여 테스트 셋으로 이용하고, 표준국어대사전의 뜻풀이와 용례를 이용하여 각 문장의 의미중의성을 해소하였다. 그 결과 전체 테스트 셋의 성능을 가장 좋게하는 15개의 품사집합과 단어별 평균을 가장 높게 하는 17 개의 품사집합이 제시되었다. 실험결과 45 개의 전체 품사집합을 이용하는 것보다 정확도가 최대 12%까지 향상되었다.

Keywords

References

  1. 정한조, 박병화, "사전과 말뭉치를 이용한 한국어 단어 중의성 해소," 한국지능정보시스템학회, 제21권, 제1호, pp. 1-13, 2015.
  2. M. Lesk, "Automatic Sense Disambiguation Using Mahine Readable Dictionaries: How to Tell a Pine Cone from an Ice Cream cone," Proceedings of the 5th Annual International Conference on Systems Documentation, pp. 24-26, 1986.
  3. 이현아, "가변 크기 문맥과 거리가중치를 이용한 동형이의어 중의성 해소," 한국마린엔지니어링학회, 제38권, 제4호, pp. 444-450, 2014. https://doi.org/10.5916/jkosme.2014.38.4.444
  4. S. Banerjee and T. Pedersen, "Extended Gloss Overlaps as a Measure of Semantic Relatedness," International Joint Conferences on Artificial Intelligence, pp. 805-810, 2003.
  5. http://wordnet.princeton.edu
  6. 강상욱, 김민호, 권혁철, 전성규, 오주현, "세종 전자사전과 한국어 어휘의미망을 이용한 용언의 어의 중의성 해소," 동계학술발표회 논문집, pp. 414-416, 2014.
  7. 박상근, 최지연, 최기선, "가변길이 윈도우와 빈도 가중치를 이용한 단어 의미 중의성 해소," 동계학술발표회 논문집, pp. 441-443, 2014.
  8. 신준철, 옥철영, "한국어 품사 및 동형이의어 태깅을 위한 단계별 전이모델," 정보과학회논문지 : 소프트웨어 및 응용, 제39권, 제11호, pp. 889-901, 2012.
  9. 박용민, 이재성, "한국어 단어 공간 모델을 이용한 단어 의미 중의성 해소," 한국콘텐츠학회논문지, 제12권, 제6호, pp. 41-47, 2012. https://doi.org/10.5392/JKCA.2012.12.06.041
  10. 이용구, "단어 중의성 해소를 위한 지도학습 방법의 통계적 자질선정에 관한 연구," 한국비블리아학회지, 제22권, 제2호, pp. 5-25, 2011. https://doi.org/10.14699/KBIBLIA.2011.22.2.005