A Method for Unknown-Word Extraction from Korean Text

한국어 구문 분석기를 이용한 지명 추정 시스템 설계 및 구현

  • Lee, Hyun-Suk (Dept. of Computer Science, Chungnam National University) ;
  • Ha, You-Sun (Dept. of Computer Science, Chungnam National University) ;
  • Kim, Tae-Hyun (Dept. of Computer Science, Chungnam National University) ;
  • Lee, Mann-Ho (Dept. of Computer Science, Chungnam National University) ;
  • Myaeng, Sung-Hyon (Dept. of Computer Science, Chungnam National University)
  • 이현숙 (충남대학교 컴퓨터과학과) ;
  • 하유선 (충남대학교 컴퓨터과학과) ;
  • 김태현 (충남대학교 컴퓨터과학과) ;
  • 이만호 (충남대학교 컴퓨터과학과) ;
  • 맹성현 (충남대학교 컴퓨터과학과)
  • Published : 2000.10.13

Abstract

본 논문에서는 학습데이터를 이용하여 텍스트로부터 미등록 고유명사를 추정하는 방법을 제안한다. 고유명사 추정을 위해 먼저 형태소 분석기를 이용하여 품사가 명사인 단어들을 후보단어로 선택한다. 이렇게 선택된 후보단어가 고유명사인지 추정해 보기 위해 학습데이터를 이용하여 구성한 정보집합을 사용한다. 이러한 정보집합으로는 이름집합, 접미사집합, 단서집합, 배제어 집합이 있다. 본 논문에서는 이런 정보를 이용하여 한국어 지명을 추정하는 시스템을 구현하여 실험한 결과 77.2%의 정확도와 84.9%의 재현율을 보였다.

Keywords