Construction of Korean Wordnet "KorLex 1.5"

한국어 어휘의미망 "KorLex 1.5"의 구축

  • 윤애선 (부산대학교 불어불문학과/인지과학협동과정) ;
  • 황순희 (부산대학교 인문학연구소) ;
  • 이은령 (부산대학교 인문학연구소 HK연구) ;
  • 권혁철 (부산대학교 정보컴퓨터공학부)
  • Published : 2009.01.15

Abstract

The Princeton WordNet (PWN), which was developed during last 20 years since the mid 80, aimed at representing a mental lexicon inside the human mind. Its potentiality, applicability and portability were more appreciated in the fields of NLP and KE than in cognitive psychology. The semantic and knowledge processing is indispensable in order to obtain useful information using human languages, in the CMC and HCI environment. The PWN is able to provide such NLP-based systems with 'concrete' semantic units and their network. Referenced to the PWN, about 50 wordnets of different languages were developed during last 10 years and they enable a variety of multilingual processing applications. This paper aims at describing PWN-referenced Korean Wordnet, KorLex 1.5, which was developed from 2004 to 2007, and which contains currently about 130,000 synsets and 150,000 word senses for nouns, verbs, adjectives, adverbs, and classifiers.

1980년대 중반부터 지난 20여 년간 구축해 온 영어 워드넷(PWN)은 인간의 심상어휘집을 재현하려는 목적으로 개발되기 시작하였으나, 그 활용 가능성에 주목한 것은 자연언어처리와 지식공학 분야다. 컴퓨터 매개 의사소통(CMC), 인간-컴퓨터 상호작용(HCI)에서 인간 언어를 자연스럽게 사용하여 필요한 정보를 획득하기 위해서는 의미와 지식의 처리가 필수적인데, 그 해결의 실마리를 어휘라는 실체를 가진 언어단위에서 찾을 수 있기 때문이다. 이후 전 세계적으로 약 50개 언어의 어휘의미망이 PWN을 참조모델로 구축되어 다국어처리의 기반을 제공할 뿐 아니라, 시맨틱 웹 이후 더욱 주목받고 다양한 방식으로 활용되고 있다. 이 논문은 PWN을 참조 모텔로 2004년부터 2007년까지 구축한 한국어 어휘의미망 KorLex 1.5를 소개하는 데 있다. 현재 KorLex는 명사, 동사, 형용사, 부사 및 분류사로 구성되며, 약 13만 개의 신셋과 약 15만 개의 어의를 포함하고 있다.

Keywords

References

  1. Ch. Fellbaum (ed.), WordNet: An Electronic Lexical Database, The MIT Press, Cambridge, 1998
  2. PWN: http://wordnet.princeton.edu
  3. 세계워드넷 연합: http://www.globalwordnet.org/gwa/ wordnet_table.htm
  4. 문유진, 의미론적 어휘 개념에 기반한 한국어 명사 워드넷의 설계와 초록, 서울대학교 컴퓨터공학과 박사학위 청구논문, 1996
  5. 이창기.이근배, '의미애매성 해소를 이용한 WordNet 자동 매핑', 제12회 한글 및 한국어정보처리 학술대회발표논문집, 2000, pp. 262-268
  6. 임성신, 이은령, 권혁철, '한국어 워드넷 구축', 제16회 한글, 언어, 인지 학술대회 발표자료집, 2004, pp. 106-111
  7. 이성헌, '사전편찬에 있어서의 어휘의미망의 역할과 기능', 한국어 어휘의미망 구축과 사전편찬 학술회의 자료집, 국립국어원, 2007, pp. 77-90
  8. 홍재성, 21세기 세종계획 전자사전 개발 연구보고서 (11-1370252-000063-10), 문화관광부, 국립국어원, 2007
  9. 최호섭 외, '대규모 우리말 어휘지능망 구축 방법', 한글, 273, 2006, pp. 125-141
  10. 옥철영, '어휘의미망과 국어사전의 체계적 구성', 한국어 어휘의미망 구축과 사전편찬 학술회의 자료집, 국립국어원, 2007, pp. 35-53
  11. 윤애선, '한국어 어휘의미망 구축의 현황과 과제', 한국어 어휘의미망 구축과 사전편찬 학술회의 자료집, 국립국어원, 2007, pp. 3-31
  12. 윤애선, '국내.외 어휘의미망의 구축과 활용', 새국어 생활, 17-3, 2007, pp. 5-25
  13. 최경봉, 도원영, '한국어 동사 의미망 구축을 위한 상위 온톨로지 구성에 관한 연구', 한국어학, 28, 2005, pp. 217-244
  14. 최기선 외, 다국어 어휘의미망(CoreNet), 3 vols, 한국 과학기술원 전문용어언어공학연구센터, KAIST Press, 2005
  15. GermaNet: http://www.sfs.uni-tuebingen.de/lsd/
  16. J. Sowa, Knowledge Representation: Logical, Philisophical, and Computational Foundations, Brooks and Cole, 1999
  17. 김양진, '국어 중사전의 전문어 표제어 선정에 대하여', 한국사전학, 7, 2006, pp. 191-215
  18. M.W. Evens (ed.), Relational Models of the Lexicon, Cambridge University Press, Cambridge, 1988
  19. S. Ikehara et al. The Semantic System, vol. 1 of Goi-Taikei, A Japanese Lexcion, Iwanami Shoten, 1997
  20. Z. Dong, Q. Dong, HowNet and the Computation of Meaning, World Scientific, 2006
  21. Google AdSense: http://www.google.com/adsense
  22. E.R. Lee, A.S. Yoon, H.C. Kwon., 'Exploiting Morpho-syntactic Features for Verb Sense Distinction in KorLex,' ICCS 2007, Lecture Notes in Computer Science, 4488, 2007, pp. 1170-1177
  23. 황순희, 윤애선, '의미자질을 고려한 명사어휘의미망의 구축(1),' 한국어학, 29, 2005, pp. 309-338
  24. S.H. Hwang, A.S. Yoon, H.C. Kwon., 'Semantic representation of Korean numeral classifier and its ontology building for HLT applications,' Language Resources and Evaluation, 42-2, 2008, pp, 151-172 https://doi.org/10.1007/s10579-007-9047-3
  25. P. Vossen, EuroWordNet: A Multilinugal Database with Lexical Semantic Network, The Kluwer Academic Publishers, 1998
  26. EuroWordNet: http://www.illc.uva.nl/EuroWordNet/
  27. K. Pala, R. Sedláček, 'Enriching WordNet with Derivational Subnets,' Proceedings of the 6th International Conference on Computational Linguistics and Intelligent Text Processing, 2005, pp. 305-311
  28. BalkaNet: http://www.ceid.uptras.gr/Balkanet/
  29. 국립국어원, 표준국어대사전 1.0, 두산동아, 2001
  30. 이은령, 윤애선, '표준국어대사전의 동사정보 개선을 위한 연구', 한민족어문학, 51, 2007, pp. 157-194
  31. S. Yablonsky, A. Sukhonogov, 'Semi-Automated English-Russian WordNet Construction,' Proc. of the 3rd Int'l WordNet Conference, 2006, pp. 345-347
  32. 국립국어연구원 현대 국어 사용 빈도 조사: 한국어 학 습용 어휘 선정을 위한 기초 조사, 2002
  33. 국립국어연구원 현대 국어 사용 빈도 조사2, 2005
  34. KorLex: http://corpus.fr.pusan.ac.kr/korlex/start.htm
  35. F. Dau, M.L. Mugnier, G. Steumme (eds.), Conceptual Structures: Common Semantics for Sharing Knowledge, Springer, 2005
  36. A. Schalley, D. Zaefferer (eds.), Ontolinguistics: How Ontological Status Shapes the Linguistic Coding of Concepts, Mouton de Gruyter, 2007
  37. E. Hovy, 'Methodologies for the Reliable Construction of Ontological Knowledge,' LNAI, Vol.3596, 2005, pp. 91-106 https://doi.org/10.1007/11524564_6
  38. S. Nirenburg, V. Raskin, Ontological Semantics, The MIT Press, 2004
  39. Memodata: http://www.memodata.com
  40. KorLex: http://korlex.cs.pusan.ac.kr