Term Clustering and Interleaving for Parallel Information Retrieval

색인어 군집화를 이용한 효율적인 병렬정보검색시스템

  • 강재호 (동아대학교 지능형통합항만관리연구센터) ;
  • 양재완 (온빛시스템 정보기술연구소) ;
  • 정성원 (부산대학교 전기전자정보컴퓨터공학부) ;
  • 류광렬 (부산대학교 전기전자정보컴퓨터공학부) ;
  • 권혁철 (부산대학교 전기전자정보컴퓨터공학부) ;
  • 정상화 (부산대학교 전기전자정보컴퓨터공학부)
  • Published : 2002.05.01

Abstract

인터넷과 같은 대량의 정보에 대응할 수 있는 고성능 정보검색시스템을 구축하기 위해서는 지금까지 고가의 중대형 컴퓨터를 주로 활용하여 왔으나, 최근 가격대 성능비가 높은 PC 클러스터 시스템을 활용하는 방안이 경제적인 대안으로 떠오르고 있다. PC 클러스터 상에서의 병렬정보검색시스템을 효율적으로 운영하기 위해서는 사용자가 입력한 질의를 처리하는데 요구되는 개별 PC의 디스크 I/O 및 검색관련 연산을 모든 PC에 가능한 균등하게 분배할 필요가 있다. 본 논문에서는 같은 질의에 동시에 등장할 가능성이 높은 색인어들끼리 군집 화하고 생성된 군집을 활용하여 색인어들을 각 PC에 분산저장함으로써 보다 높은 수준의 병렬화를 달성할 수 있는 방안을 제시한다. 대용량 말뭉치를 활용한 실험결과 본 논문에서 제시하는 분산저장기법이 충분한 효율성을 가지고 있음을 확인하였다.

Keywords