Error Estimation about Selectivity of Approximate Range Queries in Multi-Dimensional Histogram

다차원 히스토그램에서 범위 질의의 선택도에 대한 오차 추정

  • 정지훈 (서울대학교 전기·컴퓨터공학부) ;
  • 홍석진 (서울대학교 전기·컴퓨터공학부) ;
  • 배진욱 (서울대학교 전기·컴퓨터공학부) ;
  • 안성준 (서울대학교 전기·컴퓨터공학부) ;
  • 송병호 (상명대학교 소프트웨어학부) ;
  • 이석호 (서울대학교 전기·컴퓨터공학부)
  • Published : 2001.10.01

Abstract

히스토그램은 질의 최적화글 위해 사용되는 튿-계 정또 중 하나이다. 최근에는 방대한 데이타에 대한 범위 질의의 선택도 추정 방법의 하나로 사용되기도 한다. 히스토그램을 통한 범위 질의의 선택도 추정 결과는 항상 오차를 포함한다. 따라서 결과의 신뢰성을 보장하기 위해 선택도에 대한 오차를 추정하는 방법이 요구된다. 추정된 선택도의 오차 추정에 대한 기존 방법은 1차원 히스토그램만을 고려하여 하나의 애트리뷰트의 값에 따라 빈도의 분포를 반영하므로 애트리뷰트가 많은 다차원 히스토그램에 바로 적용시키는데 문제가 있다. 이 논문에서는 기존의 추정된 선택도에 대한 오차 추정 기법들을 다차원에 적용할 수 있게 확장한 M-Max, M-Sum 기법을 제안하고, 두 기법을 합친 하이브리드 기법을 제안한다. 실험을 통해 M-Sum 기법과 하이브리드 기법이 M-Max 기법보다 정확한 오차 추정 기법임을 보이고, 또한 작은 기억 공간에서도 두 기법이 오차를 보다 정확하게 추정함을 보인다.

Keywords