A Parser of Definitions in Korean Dictionary based on Probabilistic Grammar Rules

확률적 문법규칙에 기반한 국어사전의 뜻풀이말 구문분석기

  • 이수광 (울산대학교 컴퓨터정보통신공학부) ;
  • 옥철영 (울산대학교 컴퓨터정보통신공학부)
  • Published : 2001.05.01

Abstract

국어사전의 뜻풀이말은 표제어의 의미를 기술할 뿐만 아니라, 상위/하위개념, 부분-전체개념, 다의어, 동형이의어, 동의어, 반의어, 의미속성 등의 많은 의미정보를 내재하고 있다. 본 연구는 뜻풀이말에서 다양한 의미정보를 획득을 위한 기본적인 도구로서 국어사전의 뜻풀이말 구문분석기를 구현하는 것을 목적으로 한다. 이를 위해서 우선 국어사전의 뜻풀이말을 대상으로 일정한 수준의 품사 및 구문 부착 말 뭉치를 구축하고, 이 말뭉치들로부터 품사 태그 중의성 어절의 빈도 정보와 통계적 방법에 기반한 문법규칙과 확률정보를 자동으로 추출한다. 본 연구의 뜻풀이말 구문분석기는 이를 이용한 확률적 차트파서이다. 품사 태그 중의성 어절의 빈도 정보와 문법규칙 및 확률정보는 파싱 과정의 명사구 중의성을 해소한다. 또한, 파싱 과정에서 생성되는 노드의 수를 줄이고 수행 속도를 높이기 위한 방법으로 문법 Factoring, Best-First 탐색 그리고 Viterbi 탐색의 방법을 이용한다. 문법규칙의 확률과 왼쪽 우선 파싱 그리고 왼쪽 우선 탐색 방법을 사용하여 실험한 결과, 왼쪽 우선 탐색 방식과 문법확률을 혼용하는 방식이 가장 정확한 결과를 보였으며 비학습 문장에 대해 51.74%의 재현률과 87.47%의 정확률을 보였다.

Keywords

References

  1. 김철호, '병렬 명사구의 구문해석' , 한국과학기술원 전산학과, 박사학위논문
  2. 김재한, '한국어 어휘 중의성 해소를 위한 태깅 시스템' , 울산대학교 석사학위논문, 1994
  3. 이상국,김윤호,김재문,이상조, '용언의 하위범주화 정보를 이용한 특수문형의 처리방안' , 정보과학회 추계학술발표논문집, 1993
  4. 서영훈, 의미정보를 이용하는 중심어 주도의 한국어 파싱' , 서울대 컴퓨터공학과 박사학위논문, 1991
  5. Makoto Nago 저 , '자연언어처리' , 흥릉과학출판사 1996
  6. 이상주, '자동 품사 부착을 위한 새로운 통계적 모형' , 고려대 컴퓨터학과 박사학위논문, 1999
  7. 장석진, '한국어 문법-NLP를 위한 HPSG/K' , 한국과학기술원, 인공지능연구센터 기술보고서, CAIR-RT-92-33, 1992
  8. 윤덕호, '한국어의 문법적 특석과 LFG 분석기법' , 정보과학회 인공지능연구회 소식지 11호, 1988
  9. 임희석,김진동,임해창, '어절 태그 변형 규칙을 이용한 한국어 품사 태거' , 정보과학회논문지(B), 제26권 제4호, p.584-594, 1999
  10. 조평옥,옥철영, '의미속석에 기반한 한국어 명사 의미체계' , 정보과학회논문지(B), 제26권 제4호, p.584-594, 1999
  11. 조평옥,안미정,옥철영,이수동 '사전 뜻풀이말에서 구축한 한국어 명사 의미계층구조' , 한국인지과학회 논문지 제10권 제4호, p.1-10, 1999
  12. Gerald Gazdar, Chris Mellish, 'Natural Language Processing in LISP : An Introduction to Computational Linguistics,' Addison Wesley, 1989
  13. Masaru Tomita, Efficient Parsing for Natural Language : A Fast Algorithm for Practical Systems , Kluwer Academic Publicshers, 1986
  14. G. Zipf, The psycho-biology of language: An introduction to dynamic philogy , MIT Press, 1965
  15. Halliday, M. A. K.(1991), Corpus studies and probablistic grammar, in Aijmer , K. & Altengerg, B. (ed.)(1991)
  16. D.Magerman and M.Marcus, Pearl; A Probabilistic Chart Parser , In the Proceedings of European ACL, Berlin, 1991
  17. D.Magerman and C.Weir, Efficiency, robustness and Accuracy in Picky Chart Parsing , In the Proceedings of European ACL, Newark, Delaware, 1992 https://doi.org/10.3115/981967.981973
  18. E.Brill, M.Marcus, Automatically acquiring phrase structure using distributional analsisy, In Darpa Workshop on speech and Natural Languats, Harriman, N.Y., 1992
  19. R.Bob, Using an annotated corpus as a stochastic grmmar , In the Proceedings of European ACL, Utrecht, 1993
  20. Satoshi Sekine, Corpus-based Parsing and Sublanguage Studies , New York University, 1998
  21. P.F.Brown, 'Word Sense Didambiguation using Statistical Methods,' Proc, of 29th Meething of the ACL, 1991
  22. Gale, William, K.Church and D.Yarowsky, 'A Method for Disambiguating Word Senses in a Large Copus,' Computers and Humanities, 1992
  23. D.Yarowsky, 'Work-Sense Disambiguation Using Statistical Models of Roget's categories Traines on Large Corpors, ' Proc. of the 15th Int'l Conf. on computational Liguistics, 1992
  24. M.Sanderson, 'Word Sense Disambiguation and Information Retrieval,' Proc. of SIGIR, 1994
  25. E.M.Voorhees, 'Using WordNet to disam biguate word sense for text retrival,' Proc. of ACMSIGIR Conference, 1993
  26. 윤평현, 국어 명사의 의미관계에 대한 연구, 한국과학재단 연구결과보고서, 94-0100-11-01-1, 1995
  27. W. Stolz, A probabilistic Procedure for group ing words into phrases , Language and Speech, 8, 1965
  28. R.Haigh, G..Sampson, E.Atwell, Project APRIL a progress report , In the Proceedings of the Annual Meethig of the Association for Computational linguistics, Buffalo, N.Y., 1988
  29. R.Bob, Using an annotated corpus as a stochastic grmmar , In the Proceedings of European ACL, Utrecht, 1993