An Algorithm for Computing Range-Groupby Queries

영역-그룹화 질의 계산 알고리즘

  • Lee, Yeong-Gu (Dept. of Electronic Computer Science, Korea Advanced Institute of Science and Technology) ;
  • Mun, Yang-Se (Dept. of Electronic Computer Science, Korea Advanced Institute of Science and Technology) ;
  • Hwang, Gyu-Yeong (Dept. of Electronic Computer Science, Korea Advanced Institute of Science and Technology)
  • 이영구 (한국과학기술원 전자전산학과) ;
  • 문양세 (한국과학기술원 전자전산학과) ;
  • 황규영 (한국과학기술원 전자전산학과)
  • Published : 2002.08.01

Abstract

Aggregation is an important operation that affects the performance of OLAP systems. In this paper we define a new class of aggregation queries, called range-groupby queries, and present a method for processing them. A range-groupby query is defined as a query that, for an arbitrarily specified region of an n-dimensional cube, computes aggregations for each combination of values of the grouping attributes. Range-groupby queries are used very frequently in analyzing information in MOLAP since they allow us to summarize various trends in an arbitrarily specified subregion of the domain space. In MOLAP applications, in order to improve the performance of query processing, a method of maintaining precomputed aggregation results, called the prefix-sum array, is widely used. For the case of range-groupby queries, however, maintaining precomputed aggregation results for each combination of the grouping attributes incurs enormous storage overhead. Here, we propose a fast algorithm that can compute range-groupby queries with minimal storage overhead. Our algorithm maintains only one prefix-sum away and still effectively processes range-groupby queries for all possible combinations of the grouping attributes. Compared with the method that maintains a prefix-sum array for each combination of the grouping attributes in an n-dimensional cube, our algorithm reduces the space overhead by (equation omitted), while accessing a similar number of cells.

온라인 분석처리(On-Line Analytical Processing: OLAP)에서 집계 연산은 중요한 기본 연산이다. 본 논문에서는 OLAP에서의 집계 질의 중 영역-그룹화(range-groupby)라는 새로운 클래스의 질의를 정의하고, 이 질의의 처리 방법을 제시한다. 영역-그룹화 질의는 n-차원 데이타 큐브의 임의의 영역에 속한 셀들에 대하여 주어진 그룹화 속성들의 조합에 따라 집계 값을 구하는 질의이다. 이 질의는 관심의 대상이 되는 임의의 영역 내에서의 경향을 다각적인 측면에서 분석하기 위해서 OLAP에서 자주 사용되는 질의이다. 일반적으로, OLAP에서는 질의를 빠르게 처리하기 위하여 전방-합 배열(prefix-sum array)이라 불리는 집계 결과를 미리 계산하여 유지하는 선계산 기법이 실제적으로 널리 사용되고 있다. 그런데, 영역-그룹화 질의의 경우에는, 그룹화 속성들의 모든 조합에 대하여 집계 결과를 저장해야 하기 때문에, 저장 공간 오버헤드가 너무 크다. 본 논문에서는 가능한 적은 공간 오버헤드를 가지고 영역-그룹화 질의를 빠르게 처리할 수 있는 방법을 제안한다. 제안한 방법은 단지 하나의 전방-합 배열만을 유지하면서도, 가능한 모든 그룹화 속성의 조합에 대하여 영역-그룹화 질의를 효율적으로 처리한다. 이 방법은 가능한 모든 그룹화 속성들의 조합에 대하여, 전방-합 배열을 선계산하여 유지하는 방법과 비교할 때 액세스되는 셀의 개수는 비슷하면 서 공간 오버헤드는 (equation omitted)(n은 디멘젼의 개수)로 줄인다.

Keywords

References

  1. Codd, E.F., Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate, Technical Report, E.F. Codd and Associates, 1993
  2. Chaudhuri, S. and Dayal, U., 'An Overview of Data Warehousing and OLAP Technology,' ACM SIGMOD Record, Vol. 26, No.1, pp. 65-74, Mar. 1997 https://doi.org/10.1145/248603.248616
  3. Agarwal, S., Agrawal, R., Deshpande, P.M. et al., 'On the Computation of Multidimensional Aggregations,' In Proc. Int'l Conf. on Very Large Data Bases, pp. 506-521, Mumbai(Bombay), India, Sept. 1996
  4. Chan, C. - Y. and Ioannidis, Y.E., 'Hierarchical Cubes for Range-Sum Queries,' In Proc. Int'l Conf. on Very Large Data Bases, pp. 675-686, Edinburgh, Scotland, 1999
  5. Geffner, S., Agrawal, D., Abhadi, A. EI, and Smith, T., 'Relative Prefix Sums: An Efficient Approach for Querying Dynamic OLAP Data Cubes,' In Proc. Int'l Conf. on Data Engineering, pp. 328-335, Sydney, Australia, Mar. 1999
  6. Ho, C.-T., Agrawal, R., Megiddo, N., and Srikant R., 'Range Queries in OLAP Data Cubes,' In Proc. Int'l Conf. on Management of Data, pp. 73-88, ACM SIGMOD, Tucson, Arizona, June 1997 https://doi.org/10.1145/253260.253274
  7. Agrawal, R, Gupta, A, and Sarawagi, S., 'Modeling Multidimensional Databases,' In Proc. Int'l Conf. on Data Engineering, pp. 232-243, Birmingham, U.K., Apr. 1997
  8. Gray, J' Bosworth, A, Layman, A, and Pirahesh, H., 'Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tabs, and Subtotals,' In Proc. Int'l Conf. on Data Engineering, pp. 152-159, New Orleans, Louisiana, Feb. 1996
  9. Chaudhuri, S., Krishnamurthy, S., Potamianos, S., and Shim, K., 'Optimizing Queries with Materialized Views,' In Proc. Int'l Conf. on Data Engineering, pp, 190-200, Taipei, Mar. 1995 https://doi.org/10.1109/ICDE.1995.380392
  10. Harinarayan, V., Rajaraman, A, and Ullman, J.D., 'Implementing Data Cubes Efficiently,' In Proc. Int'l Conf. on Management of Data, pp. 205-216, ACM SIGMOD, Montreal, Quebec, Canada, June 1996 https://doi.org/10.1145/233269.233333
  11. Mumick, I.S., Quass, D., and Mumick, B.S., 'Maintenance of Data Cubes and Summary Tables in a Warehouse,' In Proc. Int'l Conf. on Management of Data, pp. 100-111, ACM SIGMOD, Tucson, Arizona, June 1997 https://doi.org/10.1145/253260.253277
  12. Zhao, Y., Deshpande, P.M., and Naughton, J,F., 'An Array-Based Algorithm for Simultaneous Multidimensional Aggregates,' In Proc. Int'l Conf. on Management of Data, pp. 159-170, ACM SIGMOD, Tucson, Arizona, June 1997
  13. Knuth, D.E., The Art of Computer Programming, Volume 1: Fundamental Algorithms, 3rd ed., Addison-Wesley, 1997