DOI QR코드

DOI QR Code

Performance Improvement on Similar Texts Searching System for Massive Document Repository

대용량 문서 집합에서 유사문서 탐색 시스템의 성능 개선

  • Park, Sun-Young (Dept of Computer Science and Engineering, Pusan National University) ;
  • Cho, Hwan-Gue (Dept of Computer Science and Engineering, Pusan National University)
  • 박선영 (부산대학교 정보컴퓨터공학부) ;
  • 조환규 (부산대학교 정보컴퓨터공학부)
  • Published : 2010.04.23

Abstract

최근 발생한 수많은 표절 논란으로 인해 많은 유사 문서 탐색 시스템이 개발되어 사용되고 있다. 많은 시스템 중 내용기반 유사문서 탐색 시스템인 DeVAC은 대용량 문서 1:1간의 비교에서 빠른 성능을 보여주지만 수천~수만 개의 문서 집합에 대해서는 적절한 성능을 보여주지 못한다. 이를 해결하기 위해 전역 사전(Global Dictionary)을 이용한 전처리 방법이 고안되어 적용되었다. 이 전처리 방법을 통해 비교해야 할 문서쌍이 줄어들고 전체 시스템의 성능을 향상시킬 수 있다는 것은 밝혀졌으나, 전처리를 위해 발생하는 추가 비용에 대한 계측이 이루어지지 않았을 뿐 아니라 문서 쌍이 얼마나 감소하는지 측정한 실험에서도 언어 처리용 실험적 데이터(말뭉치)에 대한 실험이 대부분을 차지하였기 때문에 실제 데이터에 대해 어떤 성능을 보일지 정확히 예측할 수 없었다. 본 논문에서는 전체 시스템에서 전처리를 위해 필요한 모든 추가 비용을 측정하고, 데이터를 1.5Gb, 6263개의 문서로 이루어진 실존하는 문서 집합으로 구성하여 성능 향상 정도를 측정함으로써 실제 데이터에 대한 전처리 신뢰도를 예측하였다. 실험 결과 전처리 후 찾아낸 유사한 문서 쌍을 전처리를 하지 않을 경우의 80~89.3% 정도로 유지하면서 검사 시간을 기존의 10.8%~15.4% 수준으로 대폭 감소시킬 수 있었다.

Keywords