Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)
- 1999.10a
- /
- Pages.18-20
- /
- 1999
- /
- 1598-5164(pISSN)
Approximate Aggregation and Effective Error Estimation using Histogram
히스토그램을 이용한 근사적 집단 연산과 효과적인 오차 추정
Abstract
히스토그램은 데이터베이스 질의 최적기가 사용하는 통게정보 중의 하나이다. 최근에는 데이터베이스의 크기가 기하급수적으로 커짐에 따라, 데이터의 전체적인 성향을 빠르게 파악할 수 있는 방법의 하나로 히스토그램으로 활용하는 방안이 고려되고 있다. 그를 위해서, 히스토그램에서 얻어진 근사값의 오차를 추정할 수 있는 방법이 요구되었다. 기존의 기법에서는 히스토그램의 각 버켓에 실제 빈도와 평균 빈도의 최대차를 추가하고, 이 값을 이용하여 오차추정을 하였다. 그러나, 이 값이 히스토그램 버켓의 전체적인 데이터 분포를 잘 반영하지 못하기 때문에 실제 오차에 근접한 오차 추정을 할 수가 없는 단점이 있었다. 본 논문에서는 이를 극복하기 위해, 히스토그램에 데이터의 분포를 잘 반영하는 정보 즉, 평균값, COUNT/SUM 연산에 대한 최대 오차를 추가하였다. 이 정보들을 이용하여 실제 오차에 보다 근접한 오차 추정을 할 수 있었으며, 부가적으로 SUM/AVG 연산에 대한 보다 정확한 근사값을 얻을 수 있었다.
Keywords