영한 기계 번역 품사 집합과 펜트리뱅크 코퍼스 품사 집합간의 품사 대응

Part of Speech Mapping between Tagset of English-Korean Machine Translation and Tagset of Penn Treebank Corpus

  • 이성욱 (서강대학교 컴퓨터학과 자연어처리 연구실) ;
  • 이공주 ((주)마이크로소프트) ;
  • 서정연 (서강대학교 컴퓨터학과 자연어처리 연구실)
  • 발행 : 1999.10.01

초록

펜트리뱅크 코퍼스를 기계 번역에서 품사 태깅의 통계 정보 추출에 이용하기 위해서는 펜트리뱅크 코퍼스의 품사 집합과 기계 번역의 품사 집합의 품사 대응이 필요하다. 본 연구는 기계 번역의 품사 태그 집합과 펜트리뱅크의 48개의 품사 태그를 서로 적절히 대응하여 펜트리뱅크 코퍼스의 통계 정보를 이용하는 품사 태깅 시스템을 구축하는데 발생하는 문제점과 그 해결방안을 제안한다.

키워드