• 제목/요약/키워드: Join Algorithm

검색결과 138건 처리시간 0.029초

A Differential Data Replicator in Distributed Environments

  • Lee, Wookey;Park, Jooseok;Sukho Kang
    • 정보기술과데이타베이스저널
    • /
    • 제3권2호
    • /
    • pp.3-24
    • /
    • 1996
  • In this paper a data replicator scheme with a distributed join architecture is suggested with its cost functions and the performance results. The contribution of this scheme is not only minimizing the number of base relation locks in distributed database tables but also reducing the remote transmission amount remarkably, which will be able to embellish the distributed databse system practical. The differential files that are derived from the active log of the DBMS are mainly forcing the scheme to reduce the number of base relation locks. The amount of transportation between relevant sites could be curtailed by the tuple reduction procedures. Then we prescribe an algorithm of data replicator with its cost function and show the performance results compared with the semi-join scheme in their distributed environments.

  • PDF

개선된 군집화 단계의 NofM 알고리즘을 이용한 훈련된 신경망으로부터의 규칙추출 (Rule extraction from trained neural network using NofM algorithm with improved clustering step)

  • 이한율;나종회;김문현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.581-584
    • /
    • 2001
  • 신경망이 만들어내는 출력에 대한 정보는 수치적으로 분산되어 신경망에 저장되므로, 인간이 직접 해석하기가 힘들다. 본 논문에서는 LRE(link rule extraction)기법인 NofM 알고리즘의 6단계 중에서 초기 단계인 가중치 군집화 단계를 개선하여 추출되는 규칙들의 전제부에 들어가는 규칙 조건들의 수를 조절함으로써, 추출된 규칙이 입력 특성에 대한 정보를 과잉 일반화하거나, 과잉 구체화하는 것을 피할 수 있음을 실험을 통해 보였다. 일반적으로 NofM 알고리즘에서 가중치들을 군집화한 때는 Join 알고리즘을 사용하는데, 본 논문에서는 Join 알고리즘의 Join condition을 0.05부터 0.25까지 0.05씩 점진적으로 확대하여 클러스터링을 하여줌으로써 신경망의 출력에 중요한 역할을 하는 가중치들을 효과적으로 군집화함을 보였다.

  • PDF

센서 네트워크에서 효율적인 다중 이벤트 탐지 (An Efficient Multiple Event Detection in Sensor Networks)

  • 양동윤;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권4호
    • /
    • pp.292-305
    • /
    • 2009
  • 무선 센서 네트워크는 산업 공정 제어, 기계 및 자원 관리, 환경 및 서식지 모니터링 등 다양한 분야에서 활용되고 있다. 그리고 이러한 분야들에서 무선 센서 네트워크를 사용하는 주된 목적 중 하나는 이벤트 탐지이다. 사용자의 요청에 따른 다수의 이벤트를 탐지하기 위해서는 센서 데이터와 이벤트의 조건들과의 조인(Join) 연산이 필요하다. 만약 이벤트의 조건들이 너무 많고 그에 비해 센서 노드의 저장용량이 작을 경우, 센서 노드에 이벤트의 조건들을 저장하여 인-네트워크 조인(In-Network Join)을 할 수 가없다. 본 논문에서는 다수의 이벤트 조건들과 센서 노드의 제한적인 저장 용량을 고려하여, 에너지 효율적으로 다중 이벤트 탐지를 할 수 있는 조건 병합 기반의 인-네트워크 조인 방법을 제안하고자 한다. 이 방법은 원래의 이벤트 조건들 중에 일부를 병합된 조건으로 대체함으로써, 전체 이벤트의 조건의 개수를 줄인다. 메시지 전송에 대한 예측 모델을 만들어서 조건 병합의 대상을 선택하는 알고리즘에 적용하였다. 실험을 통하여 제안한 예측 모델에 대한 검증을 하고, 기존의 방법에 비해서 제안한 방법의 성능이 우수함을 입증하였다.

페이지 실행시간 동기화를 이용한 다중 파이프라인 해쉬 결합 (Multiple Pipelined Hash Joins using Synchronization of Page Execution Time)

  • 이규옥;원영선;홍만표
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권7호
    • /
    • pp.639-649
    • /
    • 2000
  • 관계형 데이타베이스 시스템에서 결합 연산자는 데이타베이스 질의를 구성하는 연산자들 중 가장 많은 처리시간을 요구한다. 따라서 이러한 결합 연산자를 효율적으로 처리하기 위해 많은 병렬 알고리즘들이 소개되었다. 그 중 다중 해쉬 결합 질의의 처리를 위해 할당 트리를 이용한 방법이 가장 우수한 것으로 알려져 왔다. 그러나 이 방법은 할당 트리의 각 노드에서 필연적인 지연이 발생되는 데 이는 튜플-시험 단계에서 외부 릴레이션을 디스크로부터 페이지 단위로 읽는 비용과 이미 읽는 페이지에 대한 해쉬 결합 비용간의 차이에 의해 발생하게 된다. 본 논문에서는 이 비용 차이로 인해 발생되는 전체 시스템의 성능 저하를 방지하기 위해 페이지 실행시간 동기화 기법을 제안하였고 이 기법을 통해 각 노드에서의 처리시간을 줄이고 나아가 전체 시스템의 성능을 향상시켰다. 또한 분석적 비용 모형을 세우고 기존 방식과의 다양한 성능 분석을 통해 비용 모형의 타당성을 입증하였다.

  • PDF

다중 윈도우 조인을 위한 튜플의 도착 순서에 기반한 효과적인 부하 감소 기법 (Effective Load Shedding for Multi-Way windowed Joins Based on the Arrival Order of Tuples on Data Streams)

  • 권태형;이기용;손진현;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권1호
    • /
    • pp.1-11
    • /
    • 2010
  • 최근 다중 데이터 스트림에 대한 연속 질의 처리에 관한 연구가 활발하게 진행되고 있다. 데이터 스트림에서 튜플들의 도착 속도가 폭증하여 시스템의 메모리 용량을 초과하는 경우, 일부 튜플을 버림으로써 시스템이 과부하 상태가 되지 않도록 하는 기법을 부하 감소(load shedding)라 한다. 본 논문에서는 다중 데이터 스트림에 대한 다중 윈도우 조인을 위한 효과적인 부하 감소 기법을 제안한다. 기존의 부하 감소 기법들은 버릴 튜플을 선택하기 위해 튜플들의 조인 키 값을 이용하여 각 튜플이 생성할 조인 결자 개수(생산성)를 예측하고, 생산성이 최소가 되는 튜플을 버린다. 그러나 이러한 방법들은 조인 키 값이 다시 나타나지 않거나, 조인 키 값의 분포가 일정하게 유지되지 않는 경우 튜플들의 생산성을 올바르게 예측하기 어렵다. 본 논문은 이러한 경우를 위해 튜플들의 조인 키 값 대신, 튜플의 데이터 스트림에 대한 도착 순서를 사용하여 튜플들의 생산성을 예측하는 방법을 사용한다. 제안하는 방법은 조인 키 값으로 튜플들의 생산성을 예측하가 어려운 상황에서 튜플의 도착 순서를 통해 각 튜플의 생산성을 효과적으로 예측할 수 있도록 해준다. 다양한 실험과 분석을 통해 제안하는 새로운 부하 감소 기법이 기존 기법에 비해 더욱 효과적이고 효율적으로 부하를 감소시킬 수 있음을 보인다.

플래쉬 메모리 SSD 기반 해쉬 조인 알고리즘의 성능 평가 (Performance Evaluation of Hash Join Algorithm on Flash Memory SSDs)

  • 박장우;박상신;이상원;박찬익
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권11호
    • /
    • pp.1031-1040
    • /
    • 2010
  • 데이터베이스 관리 시스템의 핵심 알고리즘인 해쉬 조인은 해싱을 위한 메모리가 부족한 경우(즉, 해쉬 테이블 오버플로우) 디스크 입출력를 유발하게 된다 하드디스크를 임시 저장공간으로 사용할 경우, 해쉬 조인의 probing 단계에서 과도한 임의 읽기로 인해 I/O 시간이 성능을 저하시키게 된다. 한편, 플래시메모리 SSD가 저장장치로 각광을 받고 있으며, 머지않아 엔터프라이즈 환경에서 하드디스크를 대체할 것으로 예상 된다 하드디스크와 달리, 기계적인 동작 장치가 없는 플래시메모리 SSD의 경우 임의 읽기에서 빠른 성능을 보이기 때문에 해쉬 조인의 성능을 크게 향상시킬 수 있다. 본 논문에서는 플래시 메모리 SSD를 해쉬 조인을 위한 임시 저장공간으로 사용할 경우의 몇 가지 중요하고 현실적인 이슈들을 다룬다. 우선, 해쉬 조인의 I/O 패턴을 자세히 설명하고, 하드디스크에 비해 플래시메모리 SSD가 수십 배에 가까운 성능 향상을 보이는 이유를 설명한다. 다음으로, 클러스터 크기(즉, 해쉬 조인 알고리즘에서 사용하는 I/O 단위)가 성능에 미치는 영향을 제시하고 분석한다. 마지막으로, 하드디스크의 경우, DBMS의 질의 최적화기가 산출하는 비용이 실 수행시간과 편차가 클 수 있는데 반해, 플래시메모리 SSD의 경우 비용 산출을 정확히 하게 됨을 실험적으로 보인다. 결론적으로, 플래시메모리 SSD를 해쉬 조인을 위한 임시 저장공간으로 사용할 경우, 빠른 성능과 더불어 질의 최적화기의 비용 산출이 훨씬 더 신뢰할 수 있음을 보인다.

맞춤 접두 필터링을 이용한 효율적인 유사도 조인 (Efficient Similarity Joins by Adaptive Prefix Filtering)

  • 박종수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권4호
    • /
    • pp.267-272
    • /
    • 2013
  • 데이터 정제나 복사 탐지와 같은 많은 응용들을 가진 중요한 연산인 유사도 조인은 도전적인 주제로 데이터집합에서 주어진 한계치 이상의 유사도를 가지는 모든 쌍의 레코드들을 찾는 것이다. 우리는 빠른 유사도 조인을 위해 후보 쌍들의 생성 시에 접두 필터링 원리를 강한 제약 조건으로 사용하는 새 알고리즘을 제안한다. 그 원리에 의해 한정된 접두 토큰들내에서 탐색 레코드의 현재 접두 토큰이 인덱싱 레코드의 접두 토큰을 공유할 때에만 후보 쌍이 생성된다. 이 생성 방법은 두 레코드들 사이에 공통부분의 상한 값을 계산할 필요가 없어서 실행시간을 감소시킨다. 실제 데이터 집합에 적용된 실험 결과는 제안된 알고리즘이 이전의 접두 필터링 방법의 알고리즘들에 비해 상당히 우수함을 보여준다.

스트림 데이터에서 슬라이딩 윈도우를 사용한 조인 연산의 효율에 관한 연구 (A Study on the Efficiency of Join Operation On Stream Data Using Sliding Windows)

  • 양영휴
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권2호
    • /
    • pp.149-157
    • /
    • 2012
  • 이 논문은 슬라이딩 윈도우를 사용하는 스트림 데이터에서 모든 조인 연산의 상태를 저장하기에 메모리가 충분하지 않을 경우에, 연속적인 슬라이딩 윈도우 조인 연산의 근사치 답을 구하는 문제에 대한 연구이다. 근사치를 구하는 두 가지 방법으로는 최대 부분집합으로 근사치를 구하는 방법과 조인 결과에서 임의의 결과를 택하는 방법이 있다. 전자는 잃어버리는 튜플의 수를 최소화 하고, 후자는 조인의 결과가 집계로 나타날 때 사용된다. 이 논문에서는 임의의 입력 데이터에 슬라이딩 윈도우가 사용되는 경우 두 가지 방법으로 얻는 근사치 모두 효율적이지 못함을 보여준다. 기존의 최대 부분집합에 의해 근사치를 구하는 모델에서는 빈도-기반 모델을 사용하였는데. 샘플링이 문제가 되었다. 오히려 스트림 도착한 이후의 연령-기반 모델이 많은 응용분야에서 더 적절하게 사용 될 수 있음을 보여주고 있다. 이 논문에서는 최대 부분 집합과 임의의 결과라는 두 가지 근사치 측정법을 분석, 그 효율성을 비교하여 보여 준다. 또한, 메모리가 제한 되어있는 환경에서 다중 조인 연산이 수행 될 경우에, 어떤 경우에도 근사치 측정을 최적화할 수 있도록, 조인 연산 전체에 필요한 메모리를 적절하게 할당하는 알고리즘의 효율성을 분석한다.

개인 방송 시스템을 위한 mOBCP 기반의 오버레이 멀티캐스트 트리 구성 방안 (Personal Broadcasting System Using mOBCP-based Overlay Multicast Tree Construction Method)

  • 남지승;강미영;전진한;손승철
    • 한국통신학회논문지
    • /
    • 제32권8B호
    • /
    • pp.539-546
    • /
    • 2007
  • 개인 방송 서비스를 다수의 사용자들에게 제공하기 위해서 본 논문에서는 오버레이 멀티캐스트 기반의 알고리즘을 적용한 효율적이고 향상된 성능을 제공하는 miniOverlay Broadcasting Control Protocol(mOBCP)을 제안하였다. mOBCP는 서비스를 받고자 대기하는 자식 노드들에게 대기시간을 최소한으로 줄이면서 가능한 빠르게 부모 노드를 찾을 수 있는 알고리즘과 서비스를 받던 기존 부모 노드의 경로에 Failure가 발생 되었을 경우 새로운 부모를 찾아서 빠르게 다시 서비스를 가능하게 할 수 있는 성능 효율적인 Mechanism을 본 논문에서는 제안한다. 성능비교는 제한된 트리 구성 시간 변화에 대한 지연(Latency)을 시뮬레이션을 통하여 결과를 얻어내었으며 결과를 통해 제안된 기법의 효율성을 보여주고 있다.

적응적 다단계 거리 조인의 최적화 기법 (Optimization Methods of Adaptive Multi-Stage Distance Joins)

  • 신효섭;문봉기;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권3호
    • /
    • pp.373-383
    • /
    • 2001
  • 거리조인은 두 공간 데이터 집합 사이의 데이터쌍을 거리 상 가까운 순으로 검색하는 공간조인이다. 본 논문에서는 [1]에서 제시한 적응식 다단계 거리 조인 기법을 최적화하기 위한 기법들을 제안한다. 첫째, 평면 스위핑 축 선택을 위해 사용되는 스위핑 인덱스 공식을 최적화한다. 둘째, 노드쌍을 관리하는데 사용한 메인큐의 성능 향상을 위하여 노드쌍의 최대 거리값을 큐의 2차 우선 순위로 적용하는 기법을 제안한다. 또한, 균등 분포 및 비균등 분포 가정하의 한계 거리값 예측 기법의 장단점을 비교한다. 실험 결과는 제안하는 기법들을 통하여 알고리즘의 성능이 CPU 비용과 I/O 비용 면에서 크게 향상되었음을 보여준다.

  • PDF