Extensions of Histogram Construction Algorithms for Interval Data

구간 데이타에 대한 히스토그램 구축 알고리즘의 확장

  • 이호석 (서울대학교 전기컴퓨터공학부) ;
  • 심규석 (서울대학교 전기컴퓨터공학부) ;
  • 이병기 (포항공대 컴퓨터공학과)
  • Published : 2007.08.15

Abstract

Histogram is one of tools that efficiently summarize data, and it is widely used for selectivity estimation and approximate query answering. Existing histogram construction algorithms are applicable to point data represented by a set of values. As often as point data, we can meet interval data such as daily temperature and daily stock prices. In this paper, we thus propose the histogram construction algorithms for interval data by extending several methods used in existing histogram construction algorithms. Our experiment results, using synthetic data, show our algorithms outperform naive extension of existing algorithms.

히스토그램은 원본 데이타를 효과적으로 요약하는 기법중의 하나이며, 선택도 측정과 근사 질의 처리 등에 널리 사용되고 있다. 기존의 히스토그램 구축 알고리즘들은 하나의 값으로 표현되는 점 데이타에 대하여 적용 가능한 알고리즘이었다. 그러나 일상생활에서는 하루 동안의 온도, 주식 가격과 같은 구간 데이타들도 점 데이터만큼 흔하게 접할 수 있다. 본 논문에서는 점 데이타에 대한 히스토그램 구축 알고리즘을 구간 데이타에 대하여 확장한다. 합성 데이타를 사용한 실험을 통하여 기존의 점 데이타에 대한 히스토그램을 초보적으로 확장하는 방법보다 본 논문에서 제시된 알고리즘의 성능이 좋다는 것을 보였다.

Keywords

References

  1. S. Guha, C. Kim, and K. Shim, 'XWAVE: Approximate Extended Wavelets for Streaming Data,' In Proc. of VLDB, Toronto, Canada, Sep. 2004
  2. S. Guha, K. Shim, and J. Woo, 'REHIST : Relative ERRor Histogram Construction Algorithms,' In Proc. of VLDB, Toronto, Canada, Sep. 2004
  3. H. V. Jagadish, N. Koudas, S. Muthukrishnan, V. Poosala, K. C. Sevcik, and T. Suel, 'Optimal Histograms with Quality Guarantees,' In Proc. of VLDB, New York City, New York, USA, Aug. 1998
  4. Y. E. Ioannidis, 'Universality of serial histograms,' In Proc. of VLDB, Dublin, Ireland, Aug. 1993
  5. P. B. Gibbons, Y. Matias, and V. Poosala, 'Fast Incremental Maintenance of Approximate Histograms,' In Proc. of VLDB, Athens, Greece, Aug. 1997
  6. N. Roussopoulos, S. Kelley, and F. Vincent, 'Nearest Neighbor Queries,' In Proc. of SIGMOD, San Jose, Calfornia, USA, May 1995
  7. B. Yi, and J. Roh, 'Similarity Search for Interval Time Sequences,' DASFAA, Jeju Island, Korea, Mar. 2004
  8. S. Guha, and N. Koudas, 'Approximating a Data Stream for Querying and Estimation: Algorithms and Performance Evaluation,' In Proc. of ICDE, San Jose, California, USA, Feb. 2002
  9. S. Guha, N. Koudas, and K. Shim, 'Data Streams and Histograms,' In Proc. on STOC, Heraklion, Crete, Greece, Jul. 2001
  10. http://biz.yahoo.com/kr