Base Noun Phrase Recognition in Korean using Rule-based Learning

규칙 기반 학습에 의한 한국어의 기반 명사구 인식

  • Yang, Jae-Hyeong (Dept.of Knowledge nformation Engineering, Kangnam University)
  • 양재형 (강남대학교 지식정보공학부)
  • Published : 2000.10.01

Abstract

한국어의 기반 명사구, 즉 비재귀적인 단순 명사구를 인식하는 비통계적인 규칙 기반 학습 기법을 제안한다. 학습 말뭉치에 기반 명사구에 대한 초기 예측이 표시되어 있고 목표 말뭉치에는 올바른 기반 명사구가 태그(tag)의 형식으로 표시되어 있다면, 규칙 기반 학습은 먼저 인접한 주위 형태소들의 다양한 문법적 정보를 나타내는 규칙 템플릿을 이용하여 기반 명사구 태그를 수정하는 규칙 후보들을 생성해 내고, 이 후보들 가운데 학습 말뭉치를 목표 말뭉치에 가장 가깝게 변환하는 일련의 규칙들을 차례로 얻어낸다. 국어정보베이스의 15만 단어 규모의 트리 태그 부착 말뭉치를 이용한 실험 결과 386개의 변환 규칙을 얻었으며, 이를 이용하여 90% 이상의 높은 기반 명사구 인식 정확도를 얻을 수 있다.

Keywords

References

  1. S. Abney, 'Parsing by Chunks,' in R. Berwick, S. Abney, C. Tenny, eds., Principle-Based Parsing, Kluwer, pp.257-78, 1991
  2. C. Cardie, S. Mardis, D. Pierce, 'Combining Error-Driven Pruning and Classification for Partial Parsing,' Proc ICML-99 (International Conference n Machine Learning), 1999
  3. J. Hobbs, D. Appelt, J. Bear, D. Israel, M. Kameyama, M. Stickel, M. Tyson, 'FASTUS: A Cascaded Finite State Transducer for Extracting Information from Natural-Language Text,' in Roche, Schabes, eds., Finite-State Language Processing, MIT, pp.383-406, 1997
  4. Briscoe, E.J., J. Carroll, 'Automatic Extraction of Subcategorization from Corpora,' Proc ANLP (ACL Conference on Applied Natural Language Processing), 1997 https://doi.org/10.3115/974557.974609
  5. Carroll, J., G. Minnen, T. Briscoe, 'Corpus Annotation for Parser Evaluation,' Proc. EACL'99 Workshop on Linguistically Interpreted Corpora, 1999
  6. 한국과학기술원, 국어정보베이스, v 1.0 (CD 배포판), 1997
  7. S. Abney, 'Partial Parsing via Finite-State Cascades,' Proc Robust Parsing Workshop ESSLLI'96, pp.8-15, 1996
  8. K. Church, 'A Stochastic Parts Program and Noun Phrase Parser for Unrestricted Text,' Proc 2nd Conference on Applied Natural Language Processing, pp.136-43, 1998 https://doi.org/10.3115/974235.974260
  9. A. Voutilainen, 'NPtool, a Detector of English Noun Phrases,' Proc Workshop on Very Large Corpora, pp.48-57, 1993
  10. L. Ramshaw, M. Marcus, 'Text Chunking using Transformation Based Learning,' Proc 3rd Workshop on Very Large Corpora, pp.82-94, 1995
  11. S. Argamon-Engelson, I. Dagan, Y. Krymolowski, 'A Memory Based Approach to Learning Shallow Natural Language Patterns,' Proc ACL/Coling, pp.67-73, 1998 https://doi.org/10.3115/980451.980857
  12. C. Cardie, D. Pierce, 'Error-driven Pruning of Treebank Grammars for Base Noun Phrase identification,' Proc ACL/Coling, pp.218-24, 1998 https://doi.org/10.3115/980451.980881
  13. C. Cardie, D. Pierce, 'The Role of Lexicalization and Pruning for Vase Noun Phrase Grammars,' Proc. AAAI 99, 1999
  14. W. Skut, T. Brants, 'A Maximum-Entropy Partial Parser for Unrestricted Text,' Proc 6th Workshop on Very Large Corpora, 1998
  15. E. Brill, 'Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Parts-of-Speech Tagging,' Computational Linguistics, Vol.21, No.4, pp.543-65, 1995
  16. K. Seo, K. Nam, K. Choi, 'A Probabilistic Model for the Korean Dependency Parsing Using Ascending Dependencies,' Proc NLPRS'97, pp.145-54, 1997
  17. 윤준태, 김선호, 송만석, '전역적 연관 표를 이용한 한국어 구문분석', 정보과학회논문지(B), 제24권 11호, pp1297-1306, 1997
  18. D. Magerman, 'Statistical Decision-Tree Models for Parsing,' Proc ACL, pp.276-283, 1995 https://doi.org/10.3115/981658.981695
  19. Michael Collins, 'There Generative, Lexicalised Models for Statistical Parsing, Proc ACL, pp.16-23, 1997
  20. 서영훈 외, 한국어 구문 Tagged Corpus 구축 및 구문 분석 데이타 사전 개발, 연구보고서, 한국전자통신연구원, 1998