• 제목/요약/키워드: range sum queries

검색결과 6건 처리시간 0.017초

시공간 데이타베이스에서 영역 합 질의를 위한 색인 기법 (An Indexing Technique for Range Sum Queries in Spatio - Temporal Databases)

  • 조형주;최용진;민준기;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권2호
    • /
    • pp.129-141
    • /
    • 2005
  • 시공간 데이타베이스는 최근에 많은 주목을 받았지만, 영역 합 질의에 대한 연구는 그 중요성에 비하여 많이 부족하다. 영역 합 질의를 처리하기 위하여, 많은 양의 데이타에 대한 직접적인 접근은 엄청난 계산 비용을 야기하기 때문에, 최근에 기존 색인 기법을 활용한 materialization 방법이 제안되었다. 간단하면서 효과적인 방법은 시공간 조건을 가지는 윈도우 질의를 효율적인 처리하는 MVR-tree에 materialization 방법을 적용하는 것이다. 그러나, MVR-tree는 노드들 사이의 존재하는 원형 경로 때문에, 중간 노드에 미리 계산된 합을 유지하는 것이 불가능하다. 다른 색인 구조들에 기초한 집합적 구조(aggregate structures)는 만족스러운 질의 성능을 제공하지 못 한다. 본 논문에서는 적응적 분할 기법을 사용하는 새로운 색인 기법(Adaptive Partitioned Aggregate R-Tree, APART)과 다양한 환경에서 영역합 질의를 효율적으로 처리하는 질의 처리 알고리즘을 제안한다. 실험 결과는 APART의 성능이 다양한 상황에서 기존의 집합적 색인 기법들보다 2배 이상 우월하다는 것을 보여준다.

영역-그룹화 질의 계산 알고리즘 (An Algorithm for Computing Range-Groupby Queries)

  • 이영구;문양세;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권4호
    • /
    • pp.247-261
    • /
    • 2002
  • 온라인 분석처리(On-Line Analytical Processing: OLAP)에서 집계 연산은 중요한 기본 연산이다. 본 논문에서는 OLAP에서의 집계 질의 중 영역-그룹화(range-groupby)라는 새로운 클래스의 질의를 정의하고, 이 질의의 처리 방법을 제시한다. 영역-그룹화 질의는 n-차원 데이타 큐브의 임의의 영역에 속한 셀들에 대하여 주어진 그룹화 속성들의 조합에 따라 집계 값을 구하는 질의이다. 이 질의는 관심의 대상이 되는 임의의 영역 내에서의 경향을 다각적인 측면에서 분석하기 위해서 OLAP에서 자주 사용되는 질의이다. 일반적으로, OLAP에서는 질의를 빠르게 처리하기 위하여 전방-합 배열(prefix-sum array)이라 불리는 집계 결과를 미리 계산하여 유지하는 선계산 기법이 실제적으로 널리 사용되고 있다. 그런데, 영역-그룹화 질의의 경우에는, 그룹화 속성들의 모든 조합에 대하여 집계 결과를 저장해야 하기 때문에, 저장 공간 오버헤드가 너무 크다. 본 논문에서는 가능한 적은 공간 오버헤드를 가지고 영역-그룹화 질의를 빠르게 처리할 수 있는 방법을 제안한다. 제안한 방법은 단지 하나의 전방-합 배열만을 유지하면서도, 가능한 모든 그룹화 속성의 조합에 대하여 영역-그룹화 질의를 효율적으로 처리한다. 이 방법은 가능한 모든 그룹화 속성들의 조합에 대하여, 전방-합 배열을 선계산하여 유지하는 방법과 비교할 때 액세스되는 셀의 개수는 비슷하면 서 공간 오버헤드는 (equation omitted)(n은 디멘젼의 개수)로 줄인다.

OLAP에서 MAX-of-SUM 질의의 효율적인 처리 기법 (Efficient Processing of MAX-of-SUM Queries in OLAP)

  • 정희정;김동욱;김종수;이윤준;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제27권2호
    • /
    • pp.165-174
    • /
    • 2000
  • OLAP 분야에서 지금까지 연구되어온 영역 질의는 주어진 영역에 대한 집단 연산의 결과를 구하는 단순한 형태이다. 그러나 실제 데이타 분석 과정에서는 이러한 단순한 형태의 영역 질의뿐만 아니라, 집단 연산이 포함된 특정 조건을 만족하는 데이타 큐브 내의 영역을 찾는 형태의 확장된 영역 질의에 대한 필요성이 존재한다. 본 논문에서는 이러한 확장된 영역 질의 유형의 일반적인 형태를 정의하고, 이에 대한 대표적인 예인 'MAX-of-SUM 질의'의 효율적인 처리 기법을 제안한다. MAX-of-SUM 질의는 데이타 큐브 상에서 영역합(SUM)이 최대(MAX)가 되는 영역을 찾는 질의를 의미한다. 본 논문에서는 MAX-of-SUM 질의 처리 시 검색의 대상이 되는 영역들에 대한 SUM 연산의 결과값이 취할 수 있는 범위를 미리 예측하는 기법을 제안한다. 즉, 영역에 대한 SUM 값의 범위를 예측함으로써, 이들 중에서 최대값을 찾기 위해 실제로 계산하여야 하는 영역의 개수를 줄여 빠른 질의 처리를 보장한다.

  • PDF

다이나믹 데이터 웨어하우스 환경에서 OLAP 영역-합 질의의 효율적인 처리 방법 (Efficient Processing method of OLAP Range-Sum Queries in a dynamic warehouse environment)

  • 전석주;이주홍
    • 정보처리학회논문지D
    • /
    • 제10D권3호
    • /
    • pp.427-438
    • /
    • 2003
  • 데이터 웨어하우스에서 사용자는 전형적으로 상호작용적으로 질의를 부여함으로서 추세와 패턴 또는 예외적인 데이터의 행위를 검색한다. OLAP 영역-합 질의는 데이터 웨어하우스에서 추세를 발견하거나 또는 애트리뷰트들간의 관계를 발견하는데 폭 넓게 사용되고 있다. 최근의 기업환경은 데이터 큐브의 데이터 요소들이 자주 바뀌게 된다. 문제는 프리픽스 섬 큐브를 업데이트하는 비용이 매우 크다는 것이다. 이 논문에서는Δ-트리로 불리는 인덱싱 구조를 사용하여 업데이트 비용을 상당히 줄이는 참신한 알고리즘을 제안한다. 또한, 근사 또는 정확한 해를 제공하므로 질의의 전체비용을 줄일 수 있는 하이브리드 방법을 제안한다. 이는 의사 결정 지원 시스템과 같이 시간을 많이 소비하는 정확한 해보다는 빠른 근사 해를 필요로 하는 다양한 응용들에 큰 장점이 있다. 폭 넓은 실험은 우리의 방법이 다른 방법들과 비교하여 다양한 차원에서 매우 효율적으로 수행됨을 보여준다.

중첩된-서브큐브: 전위-합 큐브를 위한 손실 없는 압축 방법 (Overlapped-Subcube: A Lossless Compression Method for Prefix-Sun Cubes)

  • 강흠근;민준기;전석주;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권6호
    • /
    • pp.553-560
    • /
    • 2003
  • 영역 질의는 의사결정에서 자주 사용되는 중요한 질의이다. 그러나, 영역 질의를 처리하기 위해서는 많은 점(cell)들이 검색되어야 하기 때문에 효율적인 처리가 쉽지 않았다. 이러한 문제를 해결하기 위해서 영역의 크기에 관계없이 일정한 시간에 영역 질의를 처리할 수 있는 전위-합 큐브(prefix-sum cube)가 제안되었다. 그러나, 전위-합 큐브는 영역 질의의 처리는 효율적으로 할 수 있지만, 그것을 저장하기 위해 매우 큰 저장 공간이 필요하다는 문제를 갖고 있다. 본 논문에서는 전위-합 큐브의 이 문제를 해결하기 위해서 손실 없이 전위-합 큐브를 압축하는 중첩된-서브큐브 압축 방법을 제안한다. 중첩된-서브큐브 압축 방법은 전위-합 큐브의 압축을 위해서 만들어진 것으로 압축된 상태에서 저장된 값을 검색할 수 있는 매우 유용한 특징이 있다. 이 특징으로 인해, 질의 처리 시 압축된 전위-합 큐브를 그대로 사용할 수 있다. 압축된 전위-합 큐브를 사용하면, 동일한 크기의 버퍼에 전위-합 큐브의 더 많은 부분을 저장할 수 있다. 이것은 질의 처리 시 디스크 입출력의 횟수를 획기적으로 감소시킨다.

다차원 히스토그램에서 범위 질의의 선택도에 대한 오차 추정 (Error Estimation about Selectivity of Approximate Range Queries in Multi-Dimensional Histogram)

  • 정지훈;홍석진;배진욱;안성준;송병호;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.211-213
    • /
    • 2001
  • 히스토그램은 질의 최적화글 위해 사용되는 튿-계 정또 중 하나이다. 최근에는 방대한 데이타에 대한 범위 질의의 선택도 추정 방법의 하나로 사용되기도 한다. 히스토그램을 통한 범위 질의의 선택도 추정 결과는 항상 오차를 포함한다. 따라서 결과의 신뢰성을 보장하기 위해 선택도에 대한 오차를 추정하는 방법이 요구된다. 추정된 선택도의 오차 추정에 대한 기존 방법은 1차원 히스토그램만을 고려하여 하나의 애트리뷰트의 값에 따라 빈도의 분포를 반영하므로 애트리뷰트가 많은 다차원 히스토그램에 바로 적용시키는데 문제가 있다. 이 논문에서는 기존의 추정된 선택도에 대한 오차 추정 기법들을 다차원에 적용할 수 있게 확장한 M-Max, M-Sum 기법을 제안하고, 두 기법을 합친 하이브리드 기법을 제안한다. 실험을 통해 M-Sum 기법과 하이브리드 기법이 M-Max 기법보다 정확한 오차 추정 기법임을 보이고, 또한 작은 기억 공간에서도 두 기법이 오차를 보다 정확하게 추정함을 보인다.

  • PDF