DOI QR코드

DOI QR Code

Efficient Histogram Calculation for String Matching Occurrences Using Wavelet Trees

웨이블릿 트리를 이용한 문자열 매칭 위치의 효율적인 히스토그램 계산

  • Kim, Sung-Hwan (Dept. of Electric and Computer Engineering, Pusan National University) ;
  • Tak, Hae-Sung (Dept. of Electric and Computer Engineering, Pusan National University) ;
  • Cho, Hwan-Gue (Dept. of Electric and Computer Engineering, Pusan National University)
  • 김성환 (부산대학교 전자전기컴퓨터공학과) ;
  • 탁해성 (부산대학교 전자전기컴퓨터공학과) ;
  • 조환규 (부산대학교 전자전기컴퓨터공학과)
  • Published : 2014.04.22

Abstract

문자열 매칭은 긴 텍스트 문자열 상에 짧은 질의 문자열이 나타나는 모든 위치를 찾는 문제이다. 텍스트 문자열이 고정되어 있는 경우에는 접미사 트리나 접미사 배열과 같은 자료구조를 이용하여 보다 효율적인 문자열 매칭을 수행할 수 있다. 이 때 사용자 인터페이스에 관련되어, 또는 다른 통계적 처리를 수행하기 위하여 주어진 질의 문자열의 출현 위치에 대한 히스토그램을 계산할 필요성이 있다. 그러나 질의 문자열의 출현 횟수가 많은 경우 각 출현 위치를 모두 순회하며 집계해야 하므로 시간적으로 매우 비효율적이다. 본 논문에서는 웨이블릿 트리를 이용하여 접미사 배열을 색인함으로써 히스토그램 계산에 있어서 질의 문자열의 출현 횟수와는 시간적으로 독립적인 집계 기법을 제안한다. 또한 실험을 통하여 질의 문자열의 출현 횟수가 많을수록 제안 기법의 성능이 우수함을 보인다.

Keywords