Abstract
Until now, substring selectivities have been estimated by two steps. First step is to build up a count-suffix tree, which has statistical information about substrings, and second step is to estimate substring selectivity using it. However, it's actually impossible to build up a count-suffix tree from biological sequences because their lengths are too long. So, this paper proposes a novel data structure, count q-gram tree, consisting of fixed length substrings. The Count q-gram tree retains the exact counts of all substrings whose lengths are equal to or less than q and this tree is generated in 0(N) time and in site not subject to total length of all sequences, N. This paper also presents an estimation technique, k-MO. k-MO can choose overlapping length of splitted substrings from a query string, and this choice will affect accuracy of selectivity and query processing time. Experiments show k-MO can estimate very accurately.
지금까지 문자열 데이타에 대한 선택도 추정은 문자열들의 등장 회수에 대한 정보를 저장하고 있는 '카운트 서픽스 트리'를 생성한 뒤, 이 트리를 이용하여 부분 문자열들의 선택도를 추정하는 방법으로 이루어졌다. 그런데, 문자열 데이타가 생물학 서열처럼 매우 길어질 경우 카운트 서픽스 트리를 생성하는 일은 거의 불가능해진다는 문제점이 발생한다. 이 논문에서는 길이가 q인 부분 문자열들만을 삽입한 '카운트 큐그램 트리'를 제안한다. 카운트 큐그램 트리는 서열 내의 길이가 q 이하인 모든 부분 문자열(큐그램) 들의 정확한 등장 회수를 저장하고 있으며, 문자열의 전체 길이 N에 상관없는 크기로, O(N) 시간에 생성 가능하다. 또한, 이 논문에서는 카운트 큐그램 트리를 이용한 'k번째 최대겹침' 추정 방법을 제시한다. 이 추정 방법은 질의 문자열을 길이 q인 부분 문자열로 나눌 때 부분 문자열들의 겹치는 정도 k를 선택할 수 있도록 한 방법으로 이전 연구에서 제시한 '최대겹침' 방법을 확장하였다. q와 k를 변화시키며 진행한 실험 올 통해 대부분의 경우에 매우 정확하게 선택도를 추정할 수 있음을 확인하였다.