한국어 정보검색 시스템을 위한 구 단위 색인

Phrase-based Indexing for Korean Information Retrieval System

  • 윤성희 (상명대학교 컴퓨터소프트웨어)
  • 발행 : 2004.03.01

초록

본 논문에서는 자연언어 처리 기술인 구문 분석 모듈을 도입해 단어 이상의 단위인 구 단위를 색인과 검색의 단위로 삼는 구 단위 색인 및 검색 기법의 사용을 제안한다. 초기의 정보검색의 방법으로 단일 주제어를 키워드로 색인하여 검색하는 방식이 널리 사용되어 왔으나 문서의 내용을 정확히 표현하기 어렵고 검색 결과의 문서 집합 또한 너무 커서 사용자의 만족도가 낮다 고도의 문서 처리 측면에서는 웹 문서들 자체가 갖는 다양한 오류들로 인해 현실적으로 충분히 만족할 만할 우수한 성능의 구문 분석 모듈이 구현되기는 어려우므로 상향식 구문 분석 모듈을 구현하여 완전한 구문 분석 결과를 얻지 못하는 많은 문장에 대해서도 가능한 구 단위 색인을 이용하여 검색 정확률과 재현률이 향상되고 검색 과정의 처리 부하도 줄이는 장점을 얻는다.

This paper proposes a phrase-based indexing system based on the phrase. the larger syntax unit than a single keyword. Early information retrieval systems with indexing system matching single keyword is simple and popular. But with single keyword matching it is very hard to represent the exact meaning of documents and the set of documents from retrieval is very large, therefore it can't satisfy the user of the information retrieval systems. Web documents include lots of syntactic errors, the natural language parser with high quality cannot be expected in Web. Partial trees, even not a full tree, from fully bottom-up parsing is still useful for extracting phrases, and they are much more discriminative than single keyword for index. It helps the information retrieval system enhance the efficiency and reduce the processing overhead, too.

키워드