The Korean Part-of-speech Tagging Workbench for Tagged Corpus Construction

품사태그부착 코퍼스 구축을 위한 한국어 품사태깅 워크벤치

  • Park, Young-C. (Dept. of Natural Language Information Processing, Information Retrieval Lab, SERI) ;
  • Kim, Nam-Il (Korea Advanced Institute of Science and Technology) ;
  • Huh, Wook (Korea Advanced Institute of Science and Technology) ;
  • Nam, Ki-Chun (Korea Advanced Institute of Science and Technology) ;
  • Choi, Key-Sun (Korea Advanced Institute of Science and Technology)
  • 박영찬 (시스템공학연구소 자연어정보처리연구부 정보검색연구실) ;
  • 김남일 (한국과학기술원 전산학과) ;
  • 허욱 (한국과학기술원 전산학과) ;
  • 남기춘 (한국과학기술원 전산학과) ;
  • 최기선 (한국과학기술원 전산학과)
  • Published : 1997.10.10

Abstract

한국어의 언어분석을 위한 가공코퍼스의 하나인 품사부착 코퍼스는 형태소 언어분석의 기초가 되는 자료로서 각종 언어분석 모델의 학습자료와 관측자료 또는 검증자료로서 중요한 역할을 한다. 품사부착 코퍼스의 구축은 많은 노력과 시간이 요구되는 어려운 작업이다. 기존의 구축방법은 자동 태거의 결과를 일일이 사람이 확인해 가면 오류를 발견하고 수정하는 단순 작업이었다. 이러한 단순 작업은 한번 수정된 자동태거의 반복적 오류, 미등록어에 의한 오류 들을 계속적으로 수정해야하는 비효율성을 내포하고 있었다. 본 논문에서는 HMM기반의 자동 태거를 사용하여 1차적으로 한국어 문서를 자동 태깅한다. 자동 태깅 결과로부터 규칙기반의 오류 수정을 추가적으로 행한다. 이렇게 구축된 결과를 사용자에게 제시하여 최종 오류를 수정하고 이를 앞으로의 태깅작업에 반영하는 품사부착 워크벤치에 대해 기술한다.

Keywords