DOI QR코드

DOI QR Code

Korean Part-of-Speech Tagging using Disambiguation Rules for Ambiguous Word and Statistical Information

어휘별 중의성 제거 규칙과 통계 정보를 이용한 한국어 품사 태깅

  • 안광모 (충북대학교 컴퓨터 공학과) ;
  • 한규열 (충북대학교 컴퓨터 공학과) ;
  • 서영훈 (충북대학교 컴퓨터 공학과)
  • Published : 2009.02.28

Abstract

A hybrid part-of-speech tagging approaches may be robust, easily extendable, and accurate because they can have the advantages of both statistical approach and rule-based approach. But conventional hybrid part-of-speech tagging systems hardly resolve some morphological ambiguities which can't be resolved by statistical information. It is because the coverage of rules is narrow. So, we define disambiguation rules for individual ambiguous word based on syntax and semantics of surround words. We select words from which the top 50% of ambiguities are occurred in Sejong corpus and build 1,814 rules for them. The accuracy of our hybrid part-of-speech tagging system using those rules is 98.28%.

규칙 정보와 통계 정보를 이용하는 복합적 품사 태깅은 통계를 기반으로 하는 방법의 견고함과 확장성을 가지고, 통계 정보에 벗어나는 언어현상들을 규칙 정보를 이용하여 해결함으로서 높은 정확도를 가질 수 있다. 하지만 기존의 연구는 규칙 정보의 제한적인 적용범위 때문에 통계 정보에 벗어나는 언어 현상을 처리할 수 없는 경우가 발생하게 된다. 본 논문에서는 이를 해결하기 위하여 어휘의 사전적 의미와 문맥적 관계를 반영할 수 있는 "어휘별 중의성 제거 규칙"을 제안한다. 어휘별 중의성 제거 규칙은 세종 말뭉치로 부터 말뭉치 데이터를 형태소 분석하여 상위 50%의 중의성 어휘에 대한 사전적 의미와 문맥적 관계를 고려한 품사 태깅 정보를 추출하고 이것을 규칙으로 만든 것이며, 현재까지 총 1,815개로 구성되어 있다. 어휘별 중의성 제거 규칙을 기존의 복합적 품사 태깅 시스템에 적용하여 품사 태깅의 정확도를 높일 수 있었다.

Keywords

References

  1. B. Eric, "Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging," Computational Linguistics, Vol.21, No.4, pp.543-564, 1995.
  2. 안영민, 서영훈, "조사와 어미의 문법 기능을 활용한 품사 태깅 시스템", 제13회 한글 및 한국어 정보처리 학술대회 논문지, pp.97-100, 2001.
  3. 김영길, 양성일, 홍문표, 박상규, "형태소 어휘 문맥에 기반한 태깅 오류 정정", 제15회 한글 및 한국어 정보처리 학술대회 논문지, pp.63-68, 2003.
  4. 이충희, 윤준태, 송만석, "국소 문맥을 이용한 형태적 중의성 해소", 제12회 한글 및 한국어 정보처리 학술대회 논문지, pp.48-55, 2000.
  5. 도미숙, 최호섭, 옥철영, "문법 규칙과 어절 상관도를 이용한 품사 태깅 시스템", 제20회 한국정보처리학회 추계학술발표대회 논문집, 제10권, 제2호, pp.481-484, 2003.
  6. 신상현, 이근배, 이종혁, "통계와 규칙에 기반한 2단계 한국어 품사 태깅 시스템", 한국 정보과학회논문지(B), 제24권, 제2호, pp.160-169, 1997.
  7. 임희석, 김진동, 임해창, "어절 태그 변형 규칙을이용한 한국어 품사 태거", 한국 정보과학회 논문지(B), 제24권, 제6호, pp.673-684, 1997.
  8. 심준혁, 김준석, 차정원, 이근배, "통계와 규칙을 이용한 강인한 품사 태거", 제11회 한글 및 한국어 정보처리 학술대회 논문집, pp.60-75, 1999.
  9. 임희석, 김진동, 임해창, "통계 정보와 언어 지식의 보완적 특성을 고려한 혼합형 품사 태깅", 한국 정보과학회 논문지(B), 제25권, 제11호, pp.1705-1714, 1998.