• 제목/요약/키워드: theta join

검색결과 4건 처리시간 0.018초

그리디 알고리즘을 이용한 맵리듀스 세타조인 M-Bucket-I 휴리스틱의 개선 (Using a Greedy Algorithm for the Improvement of a MapReduce, Theta join, M-Bucket-I Heuristic)

  • 김우열;심규석
    • 정보과학회 논문지
    • /
    • 제43권2호
    • /
    • pp.229-236
    • /
    • 2016
  • 세타조인은 데이터베이스에 있어서 가장 기본적이면서도 중요한 질의 중 하나이다. 최근 처리해야 하는 데이터의 양이 증가함에 따라, 맵리듀스와 같은 분산 병렬 처리 프레임워크를 사용한 데이터베이스의 질의처리가 많이 연구되고 있다. 대표적인 연구로 M-Bucket-I 휴리스틱을 이용한 세타조인이 있으나, 이 알고리즘은 수행시간이 입력 데이터의 크기를 n이라 할 때, 각 레코드를 $r_{max}$개의 리듀서 중 어느 리듀서로 보낼지 정하는 리듀서맵핑을 구하는데 O(n)의 시간이 걸려 쉽게 사용할 수 없다는 문제가 있다. 본 논문에서는 기존의 M-Bucket-I 휴리스틱을 개선하여, 같은 리듀서 매핑 결과를 내놓더라도 수행시간이 $O(r_{max}log\;n)$으로 보다 짧은 새로운 알고리즘을 제시한다. 다양한 실험을 통하여 기존의 맵리듀스를 이용한 세타조인보다 성능을 10% 정도 향상시킬 수 있음을 보였다.

XML 정규 경로식을 위한 유연한 질의 처리 시스템 (A Flexible Query Processing System for XML Regular Path Expressions)

  • 김대일;김기창;김유성
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권6호
    • /
    • pp.641-650
    • /
    • 2003
  • 반 구조적(semi-structured)이며 표현의 유연성이 높은 XML(extensible Markup Language)은 인터넷에서의 정보 교환의 표준으로 자리잡았다. 많은 문서들이 XML로 작성되고 있으며 이러한 문서들에 대한 효율적인 저장과 검색에 대한 요구가 증가하고 있다. XML 문서들을 저장하는 백엔드(back-end)로서 대량의 정보처리가 가능하고 회복, 동시성 제어 등의 성숙된 기술들을 가지고 있는 관계형 데이타베이스를 이용하는 많은 연구들이 있다. 기존의 관계형 데이타베이스를 이용한 질의 처리 방법들에서는 다양한 질의에 대해 동일한 구조 정보와 기본 연산을 적용하여 질의 처리를 하기 때문에 특정한 질의 형태만을 효율적으로 처리할 수 있다. 본 논문에서는 질의를 분석하여 질의에 적합한 구조 정보와 기본 연산을 적용하는 유연한 질의 처리 시스템을 제안한다. 제안된 질의 처리 시스템은 정규 경로식 XML 질의를 분석하여 부모-자식 관계 파악에는 동등(equi)-조인을 사용하고 부모-자식 관계가 아닌 조상-자손 관계에는 $\theta$-조인을 사용하여 다양한 정규 경로식 질의를 효율적으로 처리한다. 제안된 XML 질의 처리 시스템과 기존의 관계형 데이타베이스를 이용하는 질의 처리 시스템을 비교 실험한 결과 다양한 정규 경로식 질의 처리의 성능 향상을 보였다.

System Size and Service Size Distributions of a Batch Service Queue

  • Lee, Soon-Seok;Lee, Ho-Woo;Yoon, Seung-Hyun;Nadrajan, R.
    • 한국경영과학회지
    • /
    • 제18권3호
    • /
    • pp.179-186
    • /
    • 1993
  • We derive the arbitrary time point system size distribution of M/ $G^{B}$1 queue in which late arrivals are not allowed to join the on-going service. The distribution is given by P(z) = $P_{4}$(z) $S^{*}$ (.lambda.-.lambda.z) where $P_{4}$ (z) is the probability generating function of the queue size and $S^{*}$(.theta.) is the Laplace-Stieltjes transform of the service time distribution function. We also derive the distribution of the service siez at arbitrary point of time. time.

  • PDF

분산 CUBIRD 상에서 세타 조인 및 중첩 SQL 병렬 질의처리를 지원하는 질의 재구성 기법 (Query Reorganization Scheme supporting Parallel Query Processing of Theta Join and Nested SQL on Distributed CUBRID)

  • 양현식;김형진;장재우
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2014년도 추계 종합학술대회 논문집
    • /
    • pp.37-38
    • /
    • 2014
  • 최근 SNS의 발전으로 인해 데이터의 양이 급격히 증가하였으며, 이에 따라 빅데이터 처리를 위한 분산 DBMS 기반 질의 처리 연구가 활발히 진행되고 있다. 이를 위해 CUBRID는 CUBRID Shard 서비스를 통해 데이터베이스를 shard 단위로 수평 분할하여 각기 다른 물리 노드에 데이터를 분산 저장하도록 지원한다. 그러나 CUBRID Shard는 shard간 데이터가 독립적으로 관리되기 때문에 세타 조인 및 중첩 질의와 같이 다수 서버에서의 테이블 참조가 필요한 질의는 처리가 불가능하다. 따라서 본 논문에서는 분산 CUBRID 상에서 세타 조인 및 중첩 SQL를 지원하는 질의 재구성 기법을 제안한다.

  • PDF