Bit-Vector-Based Space Partitioning Indexing Scheme for Improving Node Utilization and Information Retrieval

노드 이용률과 검색 속도 개선을 위한 비트 벡터 기반 공간 분할 색인 기법

  • 여명호 (충북대학교 정보통신공학과) ;
  • 성동욱 (충북대학교 정보통신공학과) ;
  • 유재수 (충북대학교 정보통신공학과)
  • Received : 2009.12.28
  • Accepted : 2010.03.29
  • Published : 2010.07.15

Abstract

The KDB-tree is a traditional indexing scheme for retrieving multidimensional data. Much research for KDB-tree family frequently addresses the low storage utilization and insufficient retrieval performance as their two bottlenecks. The bottlenecks occur due to a number of unnecessary splits caused by data insertion orders and data skewness. In this paper, we propose a novel index structure, called as $KDB_{CS}^+$-tree, to process skewed data efficiently and improve the retrieval performance. The $KDB_{CS}^+$-tree increases the number of fan-outs by exploiting bit-vectors for representing splitting information and pointer elimination. It also improves the storage utilization by representing entries as a hierarchical structure in each internal node.

KDB-트리는 다차원 데이터를 검색하기 위한 전통적인 색인 기법이다. 많은 연구에서 낮은 저장 공간 사용과 검색 성능이 KDB-트리군의 두 병목현상이라고 언급되고 있다. 데이터 삽입 순서와 데이터의 편향으로 인한 불필요한 공간 분할이 그 원인이다. 본 논문에서는 편향 데이터를 효율적으로 처리하고, 검색 성능을 향상시키기 위한 새로운 색인 구조인 $KDB_{CS}^+$-트리를 제안한다. $KDB_{CS}^+$-트리는 분할 정보를 비트벡터로 표현하는 압축 기법과 노드의 그룹화를 통한 포인터 제거 기법을 활용하여 중간 노드의 팬-아웃을 증가시키고, 중간 노드의 엔트리를 계층적으로 표현함으로써 중간 노드의 사용율을 높인다.

Keywords

References

  1. K. Chakrabarti and S. Mehrotra "The Hybrid Tree: An Index Structure for High Dimensional Feature Spaces," Proceedings of the International Conference on Data Engineering, pp.440-447, 1999.
  2. R. Orlandic and B. Yu, "Estimating the Probability of Overlap between Multi-Dimensional Rectangles in the Analysis of Spatial Structures," Information Sciences, 2001.
  3. J. T. Robinson, "The K-D-B-Tree: A Search Structure for Large Multidimensional Dynamic Indexes," Proceedings of the ACM SIGMOD Conference, pp.10-18, 1981.
  4. A. Guttman, "R-trees: A Dynamic Index Structure for Spatial Searching," Proceedings of ACM SIGMOD Conference, pp.47-57, 1984.
  5. H. Lin and S. Chen "High Indexing Compression for Spatial Databases," Proceedings of the IEEE 8th International Conference on Computer and Information Technology Workshops, pp.20-25, 2008.
  6. M. Yeo, Y. Min, K. Bok and J. Yoo, "The Optimization of In-Memory Space Partitioning Trees for Cache Utilization," IEICE Transaction on Information and Systems, vol.E91-D, no.2, pp.243-250, 2008. https://doi.org/10.1093/ietisy/e91-d.2.243
  7. R. Orlandic and B. Yu, "Implementing KDB-Trees to Support High-Dimensional Data," Proceedings of the International Database Engineering & Applications Symposium, pp.58-67, 2001.
  8. B. Yu, T. Bailey, R. Orlandic and J. Somavaram, "KDBKD-Tree: A Compact KDB-Tree Structure for Indexing Multidimensional Data," Proceedings of the International Conference on Information Technology: Coding and Computing, pp.676-680, 2003.
  9. J. Rao and K. A. Ross, "Making B+-Trees Cache Conscious in Main Memory," Proceedings of the ACM SIGMOD Conference, pp.475-486, 2000.