Spatial Partitioning for Query Result Size Estimation in Spatial Databases

공간 데이터베이스에서 질의 결과 크기 추정을 위한 공간 분할

  • 황환규 (강원대학교 전기전자통신공학부)
  • Published : 2004.03.01

Abstract

The query optimizer's important task while a query is invoked is to estimate the fraction of records in the databases that satisfy the given query condition. The query result size estimation in spatial databases, like relational databases, proceeds to partition the whole input into a small number of subsets called “buckets” and then estimate the fraction of the input in the buckets. The accuracy of estimation is determined by the difference between the real data counts and approximations in the buckets, and is dependent on how to partition the buckets. Existing techniques for spatial databases are equi-area and equi-count techniques, which are respectively analogous in relation databases to equi-height histogram that divides the input value range into buckets of equal size and equi-depth histogram that is equal to the number of records within each bucket. In this paper we propose a new partitioning technique that determines buckets according to the maximal difference of area which is defined as the product of data ranges End frequencies of input. In this new technique we consider both data values and frequencies of input data simultaneously, and thus achieve substantial improvements in accuracy over existing approaches. We present a detailed experimental study of the accuracy of query result size estimation comparing the proposed technique and the existing techniques using synthetic as well as real-life datasets. Experiments confirm that our proposed techniques offer better accuracy in query result size estimation than the existing techniques for space query size, bucket number, data number and data size.

질의 최적화기의 중요 기능 중에 하나는 질의가 주어졌을 때 질의 조건을 만족하는 입력 레코드의 개수를 추정하는 일이다. 관계 데이터베이스와 마찬가지로 공간 데이터베이스에서 질의 결과 크기 추정은 입력 데이터 공간을 버켓으로 불리는 작은 영역으로 분할한 후 분할된 영역에 대해서 질의 결과 ■기를 추정한다. 추정의 정확도는 작은 영역으로 분할할 때 근사 계산한 데이터와 실제 데이터의 차이에 의해서 결정되며 이것은 공간 분할을 어떻게 분할하는가에 달려 있다. 기존의 방법은 일차원에 많이 사용되는 데이터의 범위를 균일하게 하는 너비 균등 방법과 빈도수의 합을 일정하게 하는 높이 균등 방법을 공간상의 이차원에 적용한 면적 균등 분할과 개수 균등 분할 방법에 기초를 두고 있다. 본 논문에서 제안한 방법은 공간을 분할할 때 데이터의 범위와 빈도수의 곱을 면적으로 나타낸 후 면적 값의 차이가 가장 큰 순서로 버켓을 정하는 방법으로 데이터 범위와 빈도수를 동시에 고려하여 최적의 버켓을 결정한다. 본 논문에서는 제안한 방법과 기존의 방법을 실제 데이터와 인위데이터를 사용하여 질의 크기, 버켓수, 데이터 개수, 데이터 크기의 변화에 대해서 질의 결과 추정에 대한 정확도를 비교, 분석하여 제안한 방법의 성능 우수성을 확인한다.

Keywords

References

  1. Guting, R. H., 'An Introduction to Spatial Database Systems,' The VLDB Journal, Vol. 3, No.4, PP. 357-400, October 1994
  2. ARC/INFO, 'Understaning GIS - the ARC/INFO Method,' ARC/INFO, 1993
  3. Ubell, M., 'The Mantage Extensible Datablade Architecture,' Proc. SIGMOD Intl. Conf. on Management of Data, 1994 https://doi.org/10.1145/191839.191939
  4. Selinger, P., M.M. Astrahan, D.D. Chamberin, R.A. Lorie, T.G. Price, 'Access Path Selection in a Relational Database Mangement System,' Proc. SIGMOD Intl. Conf. on Management of Data, pp. 23-34, 1979 https://doi.org/10.1145/582095.582099
  5. Poosala, V., Y. Joannidis, P. Haas, and E. Shekida, 'Improved Histogram for Selectivity Estimation of Range Predicates', Proc. SIG MOD Intl. Conf. on Management of Data, pp. 294-305, 1996 https://doi.org/10.1145/233269.233342
  6. Lipton, R. J., J. F. Naughton, and D. A. Schneider, 'Practical Selectivity Estimation through Adaptive Sampling,' Proc. SIGMOD Intl. Conf. on Management of Data, pp. 1-11, 1990 https://doi.org/10.1145/93597.93611
  7. Chen, C. M., and N. Roussopoulos, 'Adaptive Selectivity Estimation using Query Feed back,' Proc. SIGMOD Intl. Conf. on Management of Data, pp. 161-172, 1994 https://doi.org/10.1145/191839.191874
  8. Acharya, S., V. Poosala, and S. Ramaswamy. 'Selectivity Estimation in Spatial Databases', Proc. SIGMOD Intl. Conf. on Management of Data, 1999 https://doi.org/10.1145/304182.304184
  9. Poosala, V., Y. Ioannidis, P. Haas, and E. Shekita, 'Improved Histograms for Selectivity Estimation of Range Predicates,' Proc. SIGMOD Intl. Conf. on Management of Data, 1996 https://doi.org/10.1145/233269.233342
  10. Guttman, A, 'Rrtrees: A Dynamic Index Structure for Spatial Indexing,' Proc. SIGMOD Intl. Conf. on Management of Data, 1985
  11. Beckman, N., H-P Kriegel, R. Schneider, and B. Seeger, 'The R*- Trees: An Efficient and Robust Access Method for Points and Rectangles,' Proc. SIGMOD Intl. Conf. on Management of Data, pp. 322-331, 1990
  12. Tiger/line files (tm), 1992 Technical Documentation, Technical Report, U. S. Bureau of the Census, 1992