DOI QR코드

DOI QR Code

Korean Part-of-Speech Tagging using Disambiguation Rules for Ambiguous Word and Statistical Information

어휘별 중의성 제거 규칙과 통계 정보를 이용한 한국어 품사 태깅

  • Published : 2009.02.28

Abstract

A hybrid part-of-speech tagging approaches may be robust, easily extendable, and accurate because they can have the advantages of both statistical approach and rule-based approach. But conventional hybrid part-of-speech tagging systems hardly resolve some morphological ambiguities which can't be resolved by statistical information. It is because the coverage of rules is narrow. So, we define disambiguation rules for individual ambiguous word based on syntax and semantics of surround words. We select words from which the top 50% of ambiguities are occurred in Sejong corpus and build 1,814 rules for them. The accuracy of our hybrid part-of-speech tagging system using those rules is 98.28%.

Keywords

Part of Speech;Disambiguation

References

  1. B. Eric, "Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging," Computational Linguistics, Vol.21, No.4, pp.543-564, 1995.
  2. 안영민, 서영훈, "조사와 어미의 문법 기능을 활용한 품사 태깅 시스템", 제13회 한글 및 한국어 정보처리 학술대회 논문지, pp.97-100, 2001.
  3. 김영길, 양성일, 홍문표, 박상규, "형태소 어휘 문맥에 기반한 태깅 오류 정정", 제15회 한글 및 한국어 정보처리 학술대회 논문지, pp.63-68, 2003.
  4. 이충희, 윤준태, 송만석, "국소 문맥을 이용한 형태적 중의성 해소", 제12회 한글 및 한국어 정보처리 학술대회 논문지, pp.48-55, 2000.
  5. 도미숙, 최호섭, 옥철영, "문법 규칙과 어절 상관도를 이용한 품사 태깅 시스템", 제20회 한국정보처리학회 추계학술발표대회 논문집, 제10권, 제2호, pp.481-484, 2003.
  6. 신상현, 이근배, 이종혁, "통계와 규칙에 기반한 2단계 한국어 품사 태깅 시스템", 한국 정보과학회논문지(B), 제24권, 제2호, pp.160-169, 1997.
  7. 임희석, 김진동, 임해창, "어절 태그 변형 규칙을이용한 한국어 품사 태거", 한국 정보과학회 논문지(B), 제24권, 제6호, pp.673-684, 1997.
  8. 심준혁, 김준석, 차정원, 이근배, "통계와 규칙을 이용한 강인한 품사 태거", 제11회 한글 및 한국어 정보처리 학술대회 논문집, pp.60-75, 1999.
  9. 임희석, 김진동, 임해창, "통계 정보와 언어 지식의 보완적 특성을 고려한 혼합형 품사 태깅", 한국 정보과학회 논문지(B), 제25권, 제11호, pp.1705-1714, 1998.