• 제목/요약/키워드: 조인 알고리즘

검색결과 938건 처리시간 0.027초

개선된 공간 해쉬 조인 알고리즘을 이용한 편중 데이터 처리 기법 (Skewed Data Handling Technique Using an Enhanced Spatial Hash Join Algorithm)

  • 심영복;이종연
    • 정보처리학회논문지D
    • /
    • 제12D권2호
    • /
    • pp.179-188
    • /
    • 2005
  • 지난 수년 동안 공간 데이터의 조인 연산에 대한 많은 연구가 진행되어 왔다. 본 논문에서는 공간 조인연산 시 인덱스가 존재하지 않을 경우, 후보 객체의 여과 단계 처리에 중점을 둔다. 이 분야에 대한 여러 알고리즘들이 제안되었으며 대부분의 경우 공간 데이터의 조인 연산 시 우수한 성능을 나타내고 있다. 하지만, 조인을 위한 입력 테이블의 객체들이 편중되어 분포할 경우 조인 성능이 급격히 저하되는 문제점을 가지고 있으며 이 문제를 해결하려는 연구는 미흡한 실정이다. 따라서, 본 논문에서는 공간 데이터의 편중 문제를 개선하기 위해 기존의 공간 조인 알고리즘 중 Spatial Hash Join 알고리즘과 SSSJ 알고리즘의 장점을 결합한 Spatial Hash Sip Join 알고리즘을 제안한다. 이 알고리즘을 SHJ 알고리즘의 객체 분포에 기반한 공간 분할 특성과 공간 조인 시 SSSJ 알고리즘의 우수한 I/O 특성을 이용한다. 본 논문에서 제안한 SHSJ 알고리즘의 성능 평가를 위해 Tiger/line 데이터를 사용하여 기존 SHJ 알고리즘과 성능을 비교 평가 하였으며 평가 결과 인덱스가 존재하지 않는 입력 테이블에 대한 공간 조인 연산 시 모든 평가 파라미터에 대해 기존의 SHJ 알고리즘보다 우수함이 검증되었다.

공간 해쉬 조인 알고리즘을 이용한 편중 데이터 처리 기법 (A Skewed Data Handling Method using Spatial Hash Join Algorithm)

  • 심영복;이종연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.19-21
    • /
    • 2004
  • 이 논문은 인덱스가 존재하지 않는 두 입력 테이블의 공간 조인 연산 과정 중 여과 단계 처리에 중점을 둔다. 관련 연구는 Spatial Hash Join(SHJ)과 Scalable Sweeping-Based Spatial Join(SSSJ) 알고리즘이 대표적이다. 하지만 조인을 위한 입력 테이블의 객체들이 편중 분포할 경우 성능이 급격히 저하되는 문제를 가지고 있다. 따라서, 이 논문에서는 이러한 문제를 해결하기 위해 기존 SHJ 알고리즘과 SSSJ 알고리즘의 특성을 이용한 Spatial Hash Strip Join(SHSJ) 알고리즘을 제안한다. 기존 SHJ 알고리즘과의 차이점은 입력 데이터 집합을 버킷에 할당할 때 버킷 용량에 제한을 두지 않는다는 점과 버킷의 조인 단계에서 I/O 성능의 향상을 위해 우수한 SSSJ 알고리즘을 사용한다는 것이다. 끝으로 이 논문에서 제안한 SHSJ 알고리즘의 성능은 실제 Tiger/line 데이터를 이용하여 실험한 결과 기존의 SHJ와 SSSJ 알고리즘 보다 편중된 입력 테이블의 조인 연산에 대해 월등히 우수함이 검증되었다.

  • PDF

효율적인 버킷 분할과 조인 방법을 이용한 공간 해쉬 스트립 조인 알고리즘 설계 (Design of a Spatial Hash Strip Join Algorithm using Efficient Bucket Partitioning and Joining Methods)

  • 심영복;이종연;정순기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (하)
    • /
    • pp.1367-1370
    • /
    • 2003
  • 본 논문에서는 인덱스가 존재하지 않는 두 개의 입력 릴레이션에 대해서도 최적의 조인 연산을 수행할 수 있는 공간 해쉬 조인 알고리즘을 제안한다. 인덱스가 존재하지 않는 릴레이션의 처리에 사용하는 기존의 공간 해쉬 조인(SHJ: Spatial Hash Join)과 Scalable Sweeping-Rased Spatial Join(SSSJ) 알고리즘을 결합하여 SHJ 알고리즘의 단점으로 지적되고 있는 편향된(skewed) 데이터에 대한 조인 연산의 성능저하 문제를 개선한 수 있는 Spatial Hash Strip Join(SHSJ) 알고리즘을 제안한다. SHJ에서 편향된 데이터의 경우 해쉬 버킷의 오버플로우 처리를 위해 버킷 재분할 방법을 사용하고 있는데 반하여 본 논문에서 제안한 SHSJ 알괴리즘에서는 버킷의 재분할 처리 대신에 버킷에 데이터를 삽입하고, 조인 연산과정에서 오버플로우가 발생한 버킷에 대하여 SSSJ 알고리즘을 사용함으로써 편향된 입력 릴레이션의 처리 성능을 제고시킬 수 있도록 한다.

  • PDF

DOT 공간조인 알고리즘의 효율적인 여과단계 처리 (Efficient Filter Step of DOT Spatial Join Algorithm)

  • 유용혁;백현;윤지희;이건배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.39-41
    • /
    • 2000
  • 공간조인 연산은 지리정보시스템의 연산 중 매우 높은 처리비용을 요구하는 연산이다. DOT 공간 색인 기법은 전통적인 데이터베이스 시스템의 주색인 기법을 적용할 수 있으며, 공간객체의 상호 인접성이 유지되도록 Hilbert 값으로 정렬되어 클러스터링 된다. 이러한 특징을 이용한 DOT공간 조인 알고리즘은 적정한 버퍼크기를 유지하는 경우 잘 알려진 R-tree를 이용한 공간조인 알고리즘에 비해 디스크 액세스면에서 유리한 장점이 있으나, 조인가능영역 산출시 많은 양의 공간변환 연산을 필요로 하므로 전체적인 성능이 만족스럽지 못하다. 본 논문은 DOT 공간조인 알고리즘의 성능을 향상시키기 위하여 이러한 공간변환 연사의 횟수를 최소화시킨 효율적인 여과단계처리 방법을 제시하며, 이를 적용한 DOT공간조인 알고리즘과 R-tree 공간조인 알고리즘의 실행시간을 비교 분석하여 DOT 공간조인 알고리즘이 최대 약 2배까지 우수한 성능을 가지고 있음을 보인다.

  • PDF

데이타베이스 공유 시스템에서 병렬 해쉬 조인 알고리즘의 구현 (Implementation of Parallel Hash Join Algorithms in a Database sharing System)

  • 김창현;조행래
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.43-45
    • /
    • 2002
  • 기존에 제안된 대부분의 병렬 조인 알고리즘들은 데이타베이스가 여러 처리 노드에 분할되어 저장되는 데이타베이스 분할 시스템을 가정하였다. 데이타베이스 분할 시스템은 다수의 노드들을 연결할 수 있으며 지리적으로 분산된 환경도 지원할수 있다는 장점을 갖지만, 데이타베이스 공유 시스템에 비해 부하 분산이나 시스템 가용성이 떨어진다는 단점을 갖는다. 본 논문에서는 데이타베이스 공유 시스템에서 병렬 질의 처리기를 위한 병렬 해쉬 조인 알고리즘을 구현한다. 이를 위하여, 데이타베이스 공유 시스템에 적용 가능하도륵 병렬 질의 처리기를 구성하고 병렬 해쉬 조인 알고리즘의 처리 과정에 대해 설명 한다.

  • PDF

맵리듀스를 이용한 멀티웨이 조인 알고리즘의 비교 (A Comparison of Multi- Way Join Algorithms in MapReduce)

  • 명재석;이상구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.127-130
    • /
    • 2011
  • 맵리듀스는 데이터의 분산 및 병렬 처리를 돕는 프레임워크로서, 하둡과 같은 오픈 소스 맵리듀스 구현이 배포되면서 많은 연구가 이루어지고 있다. 맵리듀스를 이용한 조인은 대용량 데이터 분석을 위한 필수적인 연산이며, 여러 개의 테이블을 한 번의 맵리듀스로 조인하기 위한 멀티웨이 조인 알고리즘에 대한 연구도 계속 진행되고 있다. 이 논문에서는 반복(iteration) 기반 멀티웨이 조인과 중복(replication) 기반 멀티웨이 조인 알고리즘의 장단점을 분석한다. 또한 두 가지 방식의 조인 알고리즘의 단점을 보완하여 하나의 통합적인 2단계 멀티웨이 세미조인을 제시하고, 이를 기존의 방식과 비교한다. 결과적으로, 2단계 멀티웨이 세미조인은 반복 기반의 조인에 비하여 입출력 비용을 절감하고, 중복 기반의 조인에 비하여 커뮤니케이션 비용을 절감한다.

빠른 XML질의 처리를 위한 세그먼트 조인 기법 (Segment Join Technique for Processing in Queries Fast)

  • 배진옥;문봉기;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.334-343
    • /
    • 2005
  • XML 데이타를 대상으로 선형 질의나 가지모양 질의 같은 복잡한 질의가 많이 연구되고 있다. 이와 같은 질의를 처리하기 위해 XML 데이타를 구조정보에 의해 미리 인코딩한 후, 질의 처리시 구조정보를 이용하여 빠르게 질의를 수행하는 구조 조인 알고리즘들이 제안되었다. 그 중 최근에 제안된 TwigStack 알고리즘과 TSGeneric 알고리즘은 각각 인덱스가 없는 환경과 있는 환경에서 수행시간이 입력 데이타의 양과 비례하는 최적의 성능을 보여주었다. 하지만 이들 알고리즘은 질의의 길이(질의에 나타난 엘리먼트 개수)에 비례하여 입력데이타의 양이 증가하고, 따라서 수행시간이 길어진다는 제한점이 있다. 이 논문에서는 기존의 구조 조인 알고리즘들에 구조 인덱스를 결함한 세그먼트 조인 기법을 제안한다. 이 기법은 질의 노드와 노드 간의 구조 조인과는 달리, 구조 인덱스를 이용하여 일련의 질의 노드들을 하나의 세그먼트로 식별한 후 세그먼트와 세그먼트 사이의 조인을 수행한다. 그 결과 세그먼트마다 하나의 질의 노드만을 읽음에 의해 질의를 처리할 수 있게 되어 수행성능이 향상된다. 다양한 데이타셋에 대해 인덱스가 없는 환경에서 실험 결과, 세그먼트 조인 기법을 적용한 SegmentTwig 알고리즘은 TwigStack 알고리즘보다 우수한 성능을 보였다.

TB-Tree 를 이용한 이동객체 조인 알고리즘 (Moving Objects Join Algorithms using TB-Tree)

  • 이재호;이성호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.125-128
    • /
    • 2005
  • 이동 객체 데이터베이스 시스템에서 시공간 조인 연산은 이동 객체들의 결합을 위한 중요한 연산이며 수행 시간은 이동 객체의 수가 증가함에 따라 기하급수적으로 증가한다. 그러므로 효과적인 시공간 조인 연산이 필수적이다. 본 논문에서는 기존의 공간 조인에서 활용되었던 기법들을 이동객체 조인에 적용하였다. 이동 객체의 궤적에 대한 정보를 잘 유지하고 있는 시공간 색인인 TB-Tree 를 이용한 깊이 우선 탐색 기반과 넓이 우선 탐색 기반 TB-Tree 조인에 대한 알고리즘들을 제시하고 구현한 알고리즘들의 성능 비교한 실험 결과를 제시한다.

  • PDF

편중 데이타의 효율적인 처리를 위한 공간 해쉬 스트립 조인 알고리즘 (A Spatial Hash Strip Join Algorithm for Effective Handling of Skewed Data)

  • 심영복;이종연
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권5호
    • /
    • pp.536-546
    • /
    • 2005
  • 이 논문은 공간 조인연산 시 인덱스가 존재하지 않는 두 입력 테이블에 대한 후보 객체들의 여과 단계 처리이다 이 분야에 대한 기존 알고리즘들은 대개 공간 데이타의 조인 연산에서는 우수한 성능을 나타내고 있지만 입력 테이블에 객체들이 편중되어 있을 경우 성능이 저하되는 문제를 가지고 있으며, 이러한 단점을 보완할 수 있는 방법에 대한 연구는 미흡한 상태이다 따라서, 이 논문에서는 인덱스가 존재하지 않는 두 입력 테이블의 편중된 객체에 대한 문제를 해결하기 위해 기존 연구인 Spatial Hash Join 알고리즘을 개선한 Spatial Hash Strip loin 알고리즘을 제안한다. SHSJ 알고리즘과 기존 SHJ 알고리즘의 차이점은 입력 데이타 집합을 버킷에 할당 시 버킷 용량에 제한을 두지 않는다는 점과 버킷의 조인 단계에서 SSSJ 알고리즘을 사용한다는 것이다. 제안한 SHSJ 알고리즘의 성능 평가를 위해 Tiger/line 데이타를 사용하여 평가한 결과 인덱스가 존재하지 않으며 편중 분포를 갖는 입력 테이블에 대한 공간 조인 연산의 성능이 기존 SHJ와 SSSJ 알고리즘보다 우수함이 검증되었다.

병렬 조인에서 샘플링 기반 비용 예측 기법을 이용한 균등 부하 분산 (Uniform Load Distribution Using Sampling-Based Cost Estimation in Parallel Join)

  • 박웅규
    • 한국정보처리학회논문지
    • /
    • 제6권6호
    • /
    • pp.1468-1480
    • /
    • 1999
  • 데이터베이스 시스템에서 조인 연산은 시스템의 성능에 영향을 주는 가장 복잡하고 소모적인 연산이다. 데이터베이스 시스템의 향상을 위한 많은 병렬 처리 알고리즘들이 제안되었으나 기존의 방법들은 AVS(Attribute Value Skew)와 JPS(Join Product Skew) 등과 같은 데이터 편지를 고려하고 있지 않다. 따라서 데이터 편재의 상황에서 기존의 방법들은 조인 연산 중에 노드들 간의 부하 불균형으로 인하여 그 성능이 급격하게 저하된다. 본 논문에서는 병렬 조인 시에 AVS와 JPS를 고려하여 노드간에 균등하게 부하를 분산하는 방법과 이를 이용한 효율적인 병렬 조인 알고리즘을 제안한다. 제안된 알고리즘은 먼저 기존의 샘플링 방법을 이용하여 조인 연산의 입력과 결과 릴레이션의 데이터 분포를 예측하고, 이를 기반으로 데이터 값에 대한 조인 비용을 산출한다. 그리고 히스토그램 균등화 기법을 이용하여 국부적인 조인 과정에서 노드들 간에 부하 균등을 성취할 수 있도록 데이터를 각 노드에 재 분재한다. 본 논문에서는 성능 평가를 위하여 제안된 알고리즘과 기존의 대표적인 알고리즘들을 위한 모의 실험 모델을 제시하고 모의 실험 결과를 기술한다. 성능 측정 결과 제안된 알고리즘이 기존의 알고리즘들에 비해서 데이터 편재의 상황에서 성능이 우수한 것으로 나타났다.

  • PDF