PPeditor: A Corpus Annotation Tool for Korean Dependency Structures

PPeditor: 한국어 의존구조 말뭉치 구축 도구

  • Park, Eun-Jin (Department. of Computer Engineering, Korea Maritime University) ;
  • Kim, Jae-Hoon (Department. of Computer Engineering, Korea Maritime University) ;
  • Kim, Kang-Min (Department. of Computer Engineering, Korea Maritime University) ;
  • Kim, Chang-Hyun (Electronics and Telecommunications Research Institute)
  • 박은진 (한국해양대학교 컴퓨터공학과) ;
  • 김재훈 (한국해양대학교 컴퓨터공학과) ;
  • 김강민 (한국해양대학교 컴퓨터공학과) ;
  • 김창현 (한국전자통신연구원)
  • Published : 2005.05.13

Abstract

효과적인 언어처리 시스템을 개발하기 위해서는 언어정보가 부착된 대량의 말뭉치가 필요하다. 그러나, 대량의 말뭉치를 구축하기 위해서는 많은 시간과 노력이 필요하다. 이와 같은 시간과 노력을 절약하기 위해서 일반적으로 말뭉치 구축 도구를 사용한다. 본 논문에서는 한국어 의존구조 말뭉치를 구축하기 위한 도구를 설계하고 구현하였다. 본 논문에서 개발된 구축 도구는 여러 가지 특징을 가지고 있다. 1) 특정 응용분야에 관계없이 두루 사용할 수 있다. 2) 분석 단계와 분석 오류를 연계하여 작업의 집중도를 높였다. 3) 가능한 한 오류는 축적되지 않도록 하여 구축된 말뭉치의 질을 크게 개선할 수 있었다. 4) 구축된 정보는 서로 공유할 수 있도록 하여 작업의 일관성을 극대화하였다. 5) 초보자로 사용자가 쉽게 도구를 사용할 수 있도록 인터페이스를 설계하였다. 본 논문에서 개발된 구축 도구를 이용하여 8 명의 연구원이 약 2 개월 (하루에 평균 4 시간)에 걸쳐서 10,000 문장의 의존구조 말뭉치를 구축할 수 있었다. 구축된 말뭉치에는 형태소 정보, 구묶음 정보, 의존구조 정보가 부착되어 있다.

Keywords