An Extended Bigram Segmentation Method for Chinese Information Retrieval

중국어 정보검색을 위한 확장된 바이그램 분할기법

  • Jin, Yun (Dept. of Computer Science, Chungnam National University) ;
  • Kang, Ji-Hoon (Dept. of Computer Science, Chungnam National University) ;
  • Myaeng, Sung-Hyon (School of Engineering, Information and Communications University)
  • 김운 (충남대학교 컴퓨터과학과) ;
  • 강지훈 (충남대학교 컴퓨터과학과) ;
  • 맹성현 (한국정보통신대학교)
  • Published : 2003.10.01

Abstract

중국어 문장은 영어와 한국어와 달리 단어에 대한 명확한 한계가 없기 때문에 중국어 정보검색 시스템에서는 중국어 문장에 대한 색인 작업을 각각의 글자를 기본단위로 자르는 방법을 사용하거나 또는 단어의 한계에 관한 정보가 이미 제공된 단어 사전을 이용하여 색인하는 방법을 사용하고 있다. 하지만 이 두 가지 방법은 모두 장단점이 있다. 본 논문에서는 이 두 가지 방법의 장점을 취하고 단점을 보안하는 방법으로 확장한 바이그램 분할기법을 제안하려 한다. 이 방법은 실용성이 있으며, 검색성능 향상을 도모하였다.

Keywords