Abstract
Existing bulk loading algorithms for multi-dimensional index structures suffer from satisfying both index construction time and retrieval perfonnancc. In this paper, we propose an efficient bulk loading algorithm to construct high dimensional index structures for large data set that overcomes the problem. Although several bulk loading algorithms have been proposed for this purpose, none of them improve both constnlCtion time and search performance. To improve the construction time, we don't sort whole data set and use bisectiou algorithm that divides the whole data set or a subset into two partitions according to the specific pivot value. Also, we improve the search performance by selecting split positions according to the distribution properties of the data set. We show that the proposed algorithm is superior to existing algorithms in terms of construction time and search perfomlance through various experiments.
다차원 색인 구조를 위한 기존의 벌크 로딩 알고리즘은 색인 구성 시간과 검색 성능 모두를 향상시키지 못하는 문제점을 갖는다. 이 논문은 이와 같은 문제점을 해결한 대량의 고차원 데이터에 대한 색인 구조를 위한 새로운 벌크 로딩 알고리즘을 제안한다. 제안한는 알고리즘은 색인을 구성하는 시간을 단축시키기 위해 전체 데이터 집합을 정렬하는 것이 아니라 데이터의 특성을 파악하여 피벗 값에 따라 분할하는 기법을 이용한다. 또한 검색 성능을 향상시키기 위해 데이터들의 분포 특성에 따라 분할 위치를 선택한다. 실험을 통해 제안하는 알고리즘의 기존의 알고리즘보다 색인 구성 시간과 검색 성능 측면에서 우수함을 보인다.