An Effcient Two-Level Hybrid Signature File Method for Large Text Databases

대용량 텍스트 데이터베이스를 위한 효율적인 2단계 합성 요약 화일 방법

  • 유재수 (충북대학교 전기전자공학부) ;
  • 강형일 (목포대학교 전산통계학과)
  • Published : 1997.04.01

Abstract

In this paper, we propose a two-level hybrid signature file method(THM) to dffciently deal with large txt databases that use a term discrimination concept.In addition, we apply Yoo's clustering scheme to the two-level hybeid signature file method. The clustering schme groups similar signatures together according to the similarity of the highly discriminatiory tems so that we may achive better performance on retrival. The space-time ana-lyhtical model of the proposed two-level hybrid method is provided. Based on the analytical model and experiments, we compare it with the exsting methods, i.e. the bit-sliced method(BM), the-level method(TM), and the hybrid method(HM). As a result, we show that THM achives the best retrival performance in a large database with 100,000 records when the mumber fo matching records is less than 160.

본 논문은 대용량의 텍스트 문서를 효율적으로 처리하기 위해 단어 분별도(trrm discrimination)개념을 이용한 2단계 합성 요약화일 방법(THM)을 제안한다. 또한 보다 더 나은 검색성능을 위해 2단계 합성 요약 화일 방법에 고분별력 단어들의 유사성에 의해 유사한 요약들은 함께 결집하는 Yoo가 제안한 요약결집 방법을 적용한다. 검색 시간, 부가 저장 공간 측면에서 제안된 2단계 합성 요약화일(THM)의 성능 분석 모델을 제공하고 기존의 방법들 즉, 비트 슬라이스 방법(BM), 2단계 요약화일 방법(TM) 합성 방법(HM)들과 성능 평가를 수행한다. 성능 비교결과 일치하는 레코드 수가 160이하일때 100,000개의 대용량 데이터베이스에서 제안된 THM이 검색 성능면에 있어서 가장 좋은 성능을 보인다.

Keywords