A Study of the Automatic Extraction of Hypernyms and Hyponyms from the Corpus

코퍼스를 이용한 상하위어 추출 연구

  • 방찬성 (한국외국어대학교 언어인지과학과)
  • Published : 2007.10.12

Abstract

본 연구는 코퍼스 내 어휘들의 상하위 관계를 중심으로 패턴들을 추출하는 방법을 제안한다. 한국어 어순의 자유로움으로 인한 제약으로 주로 사전 뜻풀이말을 중심으로 하였던 패턴 추출 방식에서 벗어나 본 연구는 코퍼스를 이용하여 다양한 패턴들을 제시하고자 하였다. 연구 방법으로는 세종전자 사전을 이용하여 상하위어 쌍들의 목록을 선정한 후 코어넷으로 상하위어 목록을 추가한다. 그리고 이 두 상하위어 목록의 어휘 쌍들을 포함하는 문장들을 코퍼스에서 추출한 후 체계적으로 패턴화 할 수 있는 문장들을 추출하여 21가지 패턴으로 일반화하였다. 21가지 패턴들을 정규식으로 표현한 뒤 각각 동일한 패턴들을 가진 문장들을 코퍼스에서 다시 추출한 결과 57%의 정확률이 측정되었다.

Keywords