Ontology Construction and Its Application to Disambiguate Word Senses

온톨로지 구축 및 단어 의미 중의성 해소에의 활용

  • 강신재 (대구대학교 컴퓨터ㆍIT공학부)
  • Published : 2004.08.01


This paper presents an ontology construction method using various computational language resources, and an ontology-based word sense disambiguation method. In order to acquire a reasonably practical ontology the Kadokawa thesaurus is extended by inserting additional semantic relations into its hierarchy, which are classified as case relations and other semantic relations. To apply the ontology to disambiguate word senses, we apply the previously-secured dictionary information to select the correct senses of some ambiguous words with high precision, and then use the ontology to disambiguate the remaining ambiguous words. The mutual information between concepts in the ontology was calculated before using the ontology as knowledge for disambiguating word senses. If mutual information is regarded as a weight between ontology concepts, the ontology can be treated as a graph with weighted edges, and then we locate the weighted path from one concept to the other concept. In our practical machine translation system, our word sense disambiguation method achieved a 9% improvement over methods which do not use ontology for Korean translation.

본 논문은 기존의 다양한 언어자원들을 이용하여 온톨로지를 구축하고, 이를 단어의미 중의성 해소에 활용하는 방법을 제시하고 있다. 온톨로지를 실용적으로 구축하기 위해서는 가도카와 시소러스의 개념 체계에 격 관계와 기타 의미관계와 같은 다른 의미관계를 추가하여 확장하는 방법을 선택하였다. 구축된 온톨로지를 단어 의미 중의성 해소에 활용하기 위해서는, 결합가 정보를 포함하고 있는 전자사전을 먼저 이용하여 단어의 의미를 결정하고, 결정하지 못한 단어의 의미는 온톨로지를 이용하여 결정하는 절차를 거친다. 이를 위해 온톨로지 내 개념들간의 상호정보가 말뭉치의 통계 정보에 근거하여 계산되는데, 이를 가중치로 간주하면 온톨로지는 가중치 그래프로 생각할 수 있으므로 개념간 경로를 통하여 개념간 연관도를 알아 볼 수 있다. 실제 기계번역 시스템에서 본 방법은 온톨로지를 사용하지 않은 방법보다 9%의 성능 향상을 가져오는 결과를 얻을 수 있었다.



  1. 21세기 세종계획 전자사전 개발분과, '2000년도 연구보고서', 문화관광부, 2000
  2. 강신재, 박정혜, '대규모 말뭉치와 전산 언어 사전을 이용한 의미역 결정 규칙의 구축', 정보처리학회논문지B, 제10-B권 제2호, pp.219-228, 2003
  3. 김영택 외 공저, '자연언어처리', 생능출판사, 2001
  4. 서희철, 이 호, 백대호, 임해창, '유사어를 이용한 단어 의미 중의성 해결', 제11회 한글 및 한국어 정보처리 학술대회, pp.304-309, 1999
  5. 이승우, 이근배, '국소 문맥과 공기 정보를 이용한 비교사 학습 방식의 명사 의미 중의성 해소', 정보과학회논문지, 제27권 제7호, pp.769-783, 2000
  6. 조정미, 코퍼스와 사전을 이용한 동사 의미 분별, 한국과학기술원 전산학과 박사학위논문, 1998
  7. 정보과학회논문지 v.28 no.9 사전의 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템 허정;옥철영
  8. 허정, 옥철영, '사전의 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템', 정보과학회논문지, 제28권 제9호, pp.688-698, 2001
  9. C. Leacock and M. Chodorow, 'Using Corpus Statistics and WordNet Relations for Sense Identification,' Computational Linguistics, Vol.24, No.1, pp.147-165, 1998
  10. D. B. Lenat, R. V. Guha, K. Pittman, D. Pratt and M. Shepherd, 'Cyc : toward programs with common sense,' Communications of the ACM, Vol.33, No.8, pp.30-49, 1999
  11. D. Yarowsky, 'Unsupervised Word Sense Disambiguation Rivaling Supervised Methods,' In Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics(ACL'95), Cambridge, MA, pp.189-196, 1995
  12. D. Yarowsky, 'Word sense disambiguation using statistical models of Roget's categories trained on large corpora,' The 14th International Conference on Computational Linguistics, Nantes, France, pp.454-460, 1992
  13. E. Agirre and G. Rigau, 'Word-Sense Disambiguation Using Conceptual Density,' In Proceedings of the 16th International Conference on Computational Linguistics, Somerset, NJ, Association for Computational Linguistics, 1996
  14. G. A. Miller, M. Chodorow, S. Landes, C. Leacock and R. G. Thomas, 'WordNet : An On-line Lexical Database,' International Journal of Lexicography, Vol.3, No.4, pp.235-244, 1990
  15. H. F. Li, N. W. Heo, K. H. Moon, J. H. Lee and G. B. Lee, 'Lexical Transfer Ambiguity Resolution Using Automatically-Extracted Concept Co-occurrence Information,' International Journal of Computer Processing of Oriental Languages, World Scientific Pub., Vol.13, No.1, pp.53-68, 2000
  16. Japan Electronic Dictionary Research Institute, LTD., 'EDR Electronic Dictionary Version 1.5 Technical Guide,' 1995
  17. K. Church and P. Hanks, 'Word association norms, mutual information, and lexicography,' In Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics, Vancouver, Canada, pp.76-83, 1989
  18. K. H. Moon and J. H. Lee, 'Representation and Recognition Method for Multi-Word Translation Units in Korean-to-Japanese MT System,' In the 18th International Conference on Computational Linguistics, Germany, pp.544-550, 2000
  19. K. Knight and S. K. Luk, 'Building a Large Knowledge Base for Machine Translation,' Proceedings of the American Association of Artificial Intelligence Conference AAAI -94, Seattle, WA, 1994
  20. K. Mahesh and S. Nirenburg, 'Knowledge-based systems for Natural Language Processing,' Memoranda in Computer and Cognitive Science. NMSU CRL Technical Report MCCS-96-296, 1996
  21. N. Ide and J. Veronis, 'Introduction to the special issue on word sense disambiguation : the state of the art,' Computational Linguistics, Vol.24, No.1, pp.1-40, 1998
  22. P. Resnik, 'Using Information Content to Evaluate Semantic Similarity in a Taxonomy,' In Proceedings of IJCAI-95, Montreal, Canada, pp.448-453, 1995
  23. S. Ikehara, M. Miyazaki, S. Shirai, A. Yokoo, H. Nakaiwa, K. Ogura, Y. Ooyama and Y. Hayashi, 'Goi-Taikei : A Japanese Lexicon,' Iwanami Shoten, Tokyo, 5 volumes/CDROM, 1997
  24. S. Nirenburg, J. Carbonell, M. Tomita, and K. Goodman, 'Machine Translation : A Knowledge-Based Approach,' Morgan Kaufmann Pub., San Mateo, California, 1992
  25. S. Ohno and M. Hamanishi, 'New Synonyms Dictionary,' Kadokawa Shoten, Tokyo, 1981
  26. T. Berners-Lee, J. Hendler and O. Lasilla, 'The Semantic Web,' Scientific American, May, 2001
  27. T. H. Cormen, C. E. Leiserson and R. L. Rivest, 'Introduction to Algorithm,' McGraw-Hill Book Co., 1990
  28. X. Li, S. Szpakowicz and S. Matwin, S., 'A WordNet-based algorithm for word sense disambiguation,' in IJCAI'95, pp.1368-1374, 1995
  29. Z. Dong and Q. Dong, HowNet., 1999

Cited by

  1. Word sense disambiguation using dynamic sized context and distance weighting vol.38, pp.4, 2014,