Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2001.10d
- /
- Pages.273-279
- /
- 2001
- /
- 2005-3053(pISSN)
Construct ion of Korean Thesaurus Us ing Machine Readable Dictionary
기계가독사전을 이용한 한국어 시소러스 구축
- Lee, Ju-Ho (KOTERM, Dept of EE CS, Korea Advanced Institute of Science and Technology) ;
- Un, Koaung-Hi (KOTERM, Dept of EE CS, Korea Advanced Institute of Science and Technology) ;
- Choi, Key-Sun (KOTERM, Dept of EE CS, Korea Advanced Institute of Science and Technology)
- 이주호 (한국과학기술원 전자전산학과, 전문용어언어공학연구센터) ;
- 은광희 (한국과학기술원 전자전산학과, 전문용어언어공학연구센터) ;
- 최기선 (한국과학기술원 전자전산학과, 전문용어언어공학연구센터)
- Published : 2001.10.12
Abstract
시소러스는 자연언어처리의 여러 분야에서 이용 가능한 아주 유용한 정보이다. 본 논문에서는 기존의 구축된 시소러스를 기반으로 우리말 큰사전을 이용하여 한국어 명사 시소러스를 반자동으로 구축하는 과정을 소개한다. 우선 코퍼스의 고빈도어를 중심으로 사전에서 추출한 기본명사들의 각 의미에 1차로 의미번호 부착 후 그 결과를 이용하여 사전 정의문으로 각 의미별 클러스터를 구성했다. 그리고, 전단계에서 의미번호를 붙이지 못한 명사의 의미에 대하여 그 정의문과 클러스트들 간의 유사도를 계산하여 가장 유사한 의미번호를 후보로 제시하였다. 마지막으로 사전의 하이퍼링크를 사용하여 아직 의미 번호가 붙지 않는 명사의 의미에 의미번호를 부여했다. 각 단계에서는 사람의 후처리를 통해서 시소러스의 정확도를 높였다.
Keywords