• 제목/요약/키워드: Hash join

검색결과 42건 처리시간 0.041초

데이터 편재 하에서 히스토그램 변환기법에 기초한 효율적인 병렬 해쉬 결합 알고리즘 (Effective Parallel Hash Join Algorithm Based on Histoftam Equalization in the Presence of Data Skew)

  • 박웅규;최황규;김탁곤
    • 한국정보처리학회논문지
    • /
    • 제4권2호
    • /
    • pp.338-348
    • /
    • 1997
  • 본 논문은 병렬 해쉬 결합 연산에서 데이터 분산 시에 나타나는 부하의 불균형과 버켓 오버플로우를 해결하기 위한 새로운 데이터 분산 방법을 제안한다. 제안된 데이터 분산 방법은 편재된 분포를 갖는 데이터들을 히스토프로그램 변환 기법에 의하여 각 노드의 성능에 따라 균일하게 분산 시킨다. 또한 본 논문에서는 이 분산 방법을 병렬 해쉬 결합 연산에 적용하여 데이터 편재에 따른 성능 저하를 해결할 수 있는 알고리즘을 제안하고, 기존의 병렬 결합 알고리즘들과의 성능 비교를 위하여 모의 실험결과COREDB 병렬 데이터베이스 컴퓨터 상에서의 실험을 통하여 편재된 분포를 갖는 데이터에 대하여 성능 분석을 수행한다. 실험 결과에서 편재된 데이터에 대하여 기존의 다른 결합 연산 알고리즘보다 제안된 알고리즘이 우수한 성능을 나타냄을 보인다.

  • PDF

데이타베이스 공유 시스템에서 동적 부하분산을 지원하는 해쉬 조인 알고리즘들의 성능 평가 (Performance Evaluation of Hash Join Algorithms Supporting Dynamic Load Balancing for a Database Sharing System)

  • 문애경;조행래
    • 한국정보처리학회논문지
    • /
    • 제6권12호
    • /
    • pp.3456-3468
    • /
    • 1999
  • 기존에 제안된 대부분의 병렬 조인 알고리즘들은 데이타베이스가 여러 처리 노드에 분할되어 저장되는 데이타베이스 분할 시스템을 가정하였다. 데이타베이스 분할 시스템은 다수의 노드들을 연결할 수 있으며 지리적으로 분산된 환경도 지원할 수 있다는 장점을 갖지만, 데이타베이스 공유 시스템에 비해 부하 분산이나 시스템 가용성이 떨어진다는 단점을 갖는다. 본 논문에서는 데이타베이스 공유 시스템의 특성을 이용한 동적 부하분산 기법을 제안하고, 제안한 동적 부하분산 기법을 이용하여 기존의 해쉬 조인 알고리즘들을 데이타베이스 공유 시스템에 확장한다. 그리고, 다양한 시스템 구성 및 데이터베이스 부하 환경에서 모의 실험을 수행함으로써 데이타베이스 공유 시스템에서 동적 부하분산 기법의 효과 및 해쉬 알고리즘들의 성능 차이를 정량적으로 분석한다.

  • PDF

다중 해시 조인의 파이프라인 처리에서 분할 조율을 통한 부하 균형 유지 방법 (A Load Balancing Method using Partition Tuning for Pipelined Multi-way Hash Join)

  • 문진규;진성일;조성현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권3호
    • /
    • pp.180-192
    • /
    • 2002
  • Shared nothing 다중 프로세서 환경에서 조인 어트리뷰트의 자료 불균형(data skew)이 파이프라인 해시 조인 연산의 성능에 주는 영향을 연구하고, 자료 불균형을 대비하여 적재부하를 Round-robin 방식으로 정적 분할하는 방법과 자료분포도를 이용하여 동적 분할하는 두 가지 파이프라인 해시 조인 알고리즘을 제안한다. 해시 기반 조인을 사용하면 여러 개의 조인을 파이프라인 방식으로 처리할 수 있다. 다중 조인은 파이프라인 방식 처리는 조인 중간 결과를 디스크를 통하지 않고 다른 프로세서에게 직접 전달하므로 효율적이다. Shared nothing 다중 프로세서 구조는 대용량 데이타베이스를 처리하는데 확장성은 좋으나 자료 불균형 분포에 매우 민감하다. 파이프라인 해시 조인 알고리즘이 동적 부하 균형 유지 메커니즘을 갖고 있지 않다면 자료 불균형은 성능에 매우 심각한 영향을 줄 수 있다. 본 논문은 자료 불균형의 영향과 제안된 두 가지 기법을 비교하기 위하여 파이프라인 세그먼트의 실행 모형, 비용 모형, 그리고 시뮬레이터를 개발한다. 다양한 파라미터로 모의 실험을 한 결과에 의하면 자료 불균형은 조인 선택도와 릴레이션 크기에 비례하여 시스템 성능을 떨어뜨림을 보여준다. 그러나 제안된 파이프라인 해시 조인 알고리즘은 다수의 버켓 사용과 분할의 조율을 통해 자료 불균형도가 심한 경우에도 좋은 성능을 갖게 한다.

PRAM 기반의 조인 알고리즘 성능 비교 연구 (A Comparative Study of PRAM-based Join Algorithms)

  • 최용성;온병원;최규상;이인규
    • 정보과학회 논문지
    • /
    • 제42권3호
    • /
    • pp.379-389
    • /
    • 2015
  • Phase Change Memory (PCM 또는 PRAM), Magneto Resistive RAM (MRAM)과 같은 차세대 비휘발성 메모리가 등장하면서, Dynamic Random-Access Memory (DRAM)을 PRAM으로 대체하는 연구가 활발히 진행되고 있다. 본 논문에서는 PRAM을 메인 메모리로 사용하는 시스템에서 지금까지 널리 사용되고 있는 기존의 조인 알고리즘(블록 네스티드 조인, 소트-머지 조인, 그레이스 해시 조인, 하이브리드 해시 조인)들을 사용했을 때 발생하는 내구성과 성능 문제를 비교, 분석한다. 본 연구의 실험결과에 의하면 기존의 조인 알고리즘들을 PRAM에 맞게 재설계해야 하는 필요성이 제기되었다. 특히, 본 연구는 조인 알고리즘들을 PRAM에 적용했을 때 발생하는 이슈들을 과학적으로 규명한 첫 시도이다. 그리고 기존의 조인 알고리즘들을 PRAM에 적용했을 때 발생하는 내구성과 성능을 비교하기 위한 PRAM 기반의 시스템을 모델링하고 시뮬레이터를 구현한 것에 연구의 의의를 둘 수 있다.

Performance Study of the Index-based Parallel Join

  • Jeong, Byeong-Soo;Edward Omiecinski
    • 정보기술과데이타베이스저널
    • /
    • 제2권2호
    • /
    • pp.87-109
    • /
    • 1995
  • The index file has been used a access database records effectively. The join operation in a relational database system requires a large execution time, especially in the case of handling large size tables. If the indexes are available on the joining attributes for both relations involved in the join and the join selectivity is relatively small, we can improve the execution time of the join operation. In this paper. we investigate the performance trade-offs of parallel index-based join algorithms where different indexing schemes are used. We also present a comparison of our index-based parallel join algorithms with the hash-based parallel join algorithm.

  • PDF

대용량 메모리를 가진 병렬 데이터베이스 시스템의 조인 연산 (Join Operation of Parallel Database System with Large Main Memory)

  • 박영규
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권3호
    • /
    • pp.51-58
    • /
    • 2007
  • 확장성에서 장점을 가지고 있는 비공유 병렬 프로세서 구조는 병렬 데이터베이스 시스템에서 많이 적용되고 있는 구조이다. 그러나 비공유 병렬 프로세서 구조는 데이터의 분포가 전체 프로세서에게 균일하게 분포되어 있지 않을 경우에는 일부 프로세서에게 부하가 집중되고 이로 인한 성능의 감소가 불가피하게 되는 단점이 있다. 특히 부하의 불균형 정도가 심한 경우에 조인 연산을 수행할 때 이런 성능 감소의 단점은 두드러진다. 본 논문은 비공유 병렬 프로세서 구조에서 부하의 불균형 정도가 심한 경우에도, 조인 연산을 실시하기 전에 부하 불균형을 고려함으로써 성능 감소를 최소화하고, 메모리의 대용량화를 이용하여 성능을 높인 조인 알고리즘을 제시한다. 또한 알고리즘의 성능 분석을 위한 분석 모델을 제시하며, 분석 모델을 통하여 데이터 불균형 문제를 해결하기 위한 다른 알고리즘과의 성능을 비교한다.

  • PDF

페이지 실행시간 동기화를 이용한 다중 파이프라인 해쉬 결합 (Multiple Pipelined Hash Joins using Synchronization of Page Execution Time)

  • 이규옥;원영선;홍만표
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권7호
    • /
    • pp.639-649
    • /
    • 2000
  • 관계형 데이타베이스 시스템에서 결합 연산자는 데이타베이스 질의를 구성하는 연산자들 중 가장 많은 처리시간을 요구한다. 따라서 이러한 결합 연산자를 효율적으로 처리하기 위해 많은 병렬 알고리즘들이 소개되었다. 그 중 다중 해쉬 결합 질의의 처리를 위해 할당 트리를 이용한 방법이 가장 우수한 것으로 알려져 왔다. 그러나 이 방법은 할당 트리의 각 노드에서 필연적인 지연이 발생되는 데 이는 튜플-시험 단계에서 외부 릴레이션을 디스크로부터 페이지 단위로 읽는 비용과 이미 읽는 페이지에 대한 해쉬 결합 비용간의 차이에 의해 발생하게 된다. 본 논문에서는 이 비용 차이로 인해 발생되는 전체 시스템의 성능 저하를 방지하기 위해 페이지 실행시간 동기화 기법을 제안하였고 이 기법을 통해 각 노드에서의 처리시간을 줄이고 나아가 전체 시스템의 성능을 향상시켰다. 또한 분석적 비용 모형을 세우고 기존 방식과의 다양한 성능 분석을 통해 비용 모형의 타당성을 입증하였다.

  • PDF

하이퍼큐브 시스템에서 데이타 비대칭성을 고려한 향상된 병렬 결합 알고리즘 (An Advanced Parallel Join Algorithm for Managing Data Skew on Hypercube Systems)

  • 원영선;홍만표
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제30권3_4호
    • /
    • pp.117-129
    • /
    • 2003
  • 본 논문에서는 하이퍼큐브 시스템에서 결합 연산을 효율적으로 처리할 수 있는 향상된 병렬 결합 알고리즘을 제안한다. 새로운 알고리즘은 릴레이션 R을 처리함에 있어 하이퍼큐브 구조에 적합한 방송 알고리즘을 사용함으로써 하이퍼큐브 구조에 최적인 병렬 결합 알고리즘을 보이게 된다. 또한 병렬화 성능의 최대 주안점인 부하균등 문제와 데이타 불균형으로 인한 과부하 문제를 완전히 해결하고 결집 효과의 특성을 수용함으로써 전체 성능이 향상된다. 새로운 알고리즘은 해쉬를 기반으로 하는 알고리즘에서 구현하기 어려운 non-equijoin 연산을 쉽게 구현할 수 있다는 장점을 가지며, 비용 모형을 통해 분석한 결과 기존의 병렬 결합 알고리즘들에 비해 보다 나은 성능을 나타냄을 확인한다.

A Data Mining Approach for Selecting Bitmap Join Indices

  • Bellatreche, Ladjel;Missaoui, Rokia;Necir, Hamid;Drias, Habiba
    • Journal of Computing Science and Engineering
    • /
    • 제1권2호
    • /
    • pp.177-194
    • /
    • 2007
  • Index selection is one of the most important decisions to take in the physical design of relational data warehouses. Indices reduce significantly the cost of processing complex OLAP queries, but require storage cost and induce maintenance overhead. Two main types of indices are available: mono-attribute indices (e.g., B-tree, bitmap, hash, etc.) and multi-attribute indices (join indices, bitmap join indices). To optimize star join queries characterized by joins between a large fact table and multiple dimension tables and selections on dimension tables, bitmap join indices are well adapted. They require less storage cost due to their binary representation. However, selecting these indices is a difficult task due to the exponential number of candidate attributes to be indexed. Most of approaches for index selection follow two main steps: (1) pruning the search space (i.e., reducing the number of candidate attributes) and (2) selecting indices using the pruned search space. In this paper, we first propose a data mining driven approach to prune the search space of bitmap join index selection problem. As opposed to an existing our technique that only uses frequency of attributes in queries as a pruning metric, our technique uses not only frequencies, but also other parameters such as the size of dimension tables involved in the indexing process, size of each dimension tuple, and page size on disk. We then define a greedy algorithm to select bitmap join indices that minimize processing cost and verify storage constraint. Finally, in order to evaluate the efficiency of our approach, we compare it with some existing techniques.

가상 메시 오버레이 네트워크상에서의 P2P VOD 서비스를 위한 클러스터 세그먼트 인덱스 기법 (Clustered Segment Index Scheme for P2P VOD Service on Virtual Mesh Overlay Network)

  • 림펑언;최황규
    • 전기학회논문지
    • /
    • 제65권6호
    • /
    • pp.1052-1059
    • /
    • 2016
  • Video-on-Demand(VoD) is one of the most popular media streaming which attracted many researchers' attention. VMesh is one of the most cited works in the field of the VoD system. VMesh is proposed to solve the problem of random seeking functionality. However, a large number of the DHT(Distributed Hash Table) searches in VMesh is sill the main problem which needs to be solved. In order to reduce the number of the DHT searches, the clustered segment index(CSI) scheme is proposed. In this scheme, the video segments are divided into clusters. The segment information of the video segments, which are clustered into the same cluster, are stored in the same clustered segment index that can be searched by using the hash key. Each peer also can request the required segments by using this clustered segment index. The experiment results show that the number of the DHT searches in the proposed scheme is less than that of VMesh even in case of peers leave and join the network or peers perform the fast forward/backward operations.