• 제목/요약/키워드: query processing algorithms

검색결과 112건 처리시간 0.025초

분산 객체지향 데이타베이스에서 분산 설계 및 구현 (Design and Implementation of Distribution in Distributed Object-Oriented Databases)

  • 이순미;박혜숙;하얀
    • 정보처리학회논문지B
    • /
    • 제11B권5호
    • /
    • pp.611-618
    • /
    • 2004
  • 본 논문에서는 인터넷상의 대용량 자료에서 원하는 정보를 검색하기 위한 지원 기능으로서 분산 객체지향 데이타베이스에서 클래스를 분할하여 여러 사이트에 분산시키는 기법에 관하여 설계 및 구현하였다 제안된 분산 기법은 클래스의 분할 과정과 할당 과정으로 구성된다. 클래스의 분할 과정에서는 메소드, 계승 및 복합 객체와 같은 객체지항 데이터베이스의 특성을 반영하여 클래스를 분할하였으며 할당 과정에서는 저장, 질의 처리 및 전송비용을 고려하여 할당수식을 정의하였으며 이를 유전자 알고리즘을 이용하여 구현하였다.

분산 디렉토리 환경 하에서 효율적인 캐시 메카니즘 설계 (Design of cache mechanism in distributed directory environment)

  • 이강우;이재호;임해철
    • 한국통신학회논문지
    • /
    • 제22권2호
    • /
    • pp.205-214
    • /
    • 1997
  • 본 논문에서는 분산 디렉토리 환경에서 질의 처리 속도를 향상 시키기 위하여 원격지의 객체에 대한 질의와 결과를 요청지의 캐시에 저장하는 캐싱 메카니즘을 설계하였으며, 설계 단계는 다음과 같이 6단계로 나누어 진행하였다. 첫째, 분산 디렉토리 시스템에 저장되는 캐시 정보를 응용 데이타 정보, 시스템 데이타 정보, 메타 데이타 정보로 분류하였다. 둘째, 분류된 캐시 정보를 기반으로 캐시 시스템 구조를 설계하였다. 셋째, 각각의 캐시 정보에 대한 저장 구조를 설계하였다. 넷째, 데이타 캐시(응용 데이타 캐시, 시스템 데이타 캐시)의 대체 알고리즘으로 거리 정보와 접근 회수를 가중치로 부여한 최소-TTL 대체 알고리즘을 제안하였다. 다섯째, 질의에 대한 탐색 공간의 범위를 좁힘으로써 질의 처리 속도를 향상시키기위해 이전 질의를 재구성한 메타 데이타 트리를 저장하는 메타 데이타 캐시의 운영 알고리즘을 개발하였다. 마지막으로, 제안된 캐시 메카니즘과 타 메카니즘과 성능 평가를 수행하여 제안된 메카니즘의 우수성을 입증하였다.

  • PDF

데이터 웨어하우스에서 클러스터링 기법을 이용한 실체화 뷰 선택 알고리즘 (Materialized View Selection Algorithm using Clustering Technique in Data Warehouse)

  • 양진혁;정인정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 제13회 춘계학술대회 및 임시총회 학술발표 논문집
    • /
    • pp.28-35
    • /
    • 2000
  • 데이터 웨어하우스에서 실체화 할 뷰들을 알맞게 선택하는 것은 분석적인 질의에 대한 정확하고 신속한 응답을 얻기 위해서 대단히 중요한 문제이다. 기존의 알고리즘들에서는 릴레이션 전체가 실체화 뷰들로서 고려되었다. 그러나, 릴레이션의 부분 대신 전체를 실체화한다는 것은 시간과 공간 비용측면에서 좋지 못한 성능을 초래한다. 따라서, 우리는 이러한 문제를 해결함과 동시에 데이터 웨어하우스의 성능을 향상시키기 위해서 새로운 실체화 뷰 선택 알고리즘을 제안한다. 제안된 알고리즘 ASVMR(Algorithm for Selection of Views to Materialize using Reduced table)에서는 먼저 속성-값들의 농도에 기반을 둔 자동 클러스터링을 사용하여 축약 테이블들을 데이터 웨어하우스에서 생성하고, 그리고 원래의 베이스 릴레이션들의 조합 대신에 축약 테이블들의 조합을 실체화 뷰들로 고려한다. 실험결과에서 시간 및 공간 모두에서 기존 알고리즘들보다 약 1.8배의 성능향상이 있음을 알 수 있다.

  • PDF

인덱스 보간법에 기반한 효율적인 서브시퀀스 매칭 기법 (An Efficient Subsequence Matching Method Based on Index Interpolation)

  • 노웅기;김상욱
    • 정보처리학회논문지D
    • /
    • 제12D권3호
    • /
    • pp.345-354
    • /
    • 2005
  • 서브시퀀스 매칭은 데이터 마이닝 분야에서 중요한 연산 중의 하나이다. 기존의 서브시퀀스 매칭 알고리즘들은 하나의 인덱스만을 사용하여 검색을 수행하며, 인덱스를 생성하기 위하여 데이터 시퀀스로부터 추출한 윈도우의 크기와 질의 시퀀스의 길이 간의 차이가 커질수록 검색 성능이 급격히 저하된다. 본 논문에서는 이러한 문제점을 해결하기 위하여 인덱스 보간법에 기반한 새로운 서브시퀀스 매칭 기법을 제안한다. 인덱스 보간법이란 하나 이상의 인덱스를 구축하고 주어진 질의 시퀀스의 길이에 따라 적절한 인덱스를 선택하여 검색을 수행하는 기법이다. 본 논문에서는 먼저 사전 실험을 통하여 서브시퀀스 매칭을 수행하는 데에 있어 질의 시퀀스 길이와 윈도우 크기 간의 차이로 인한 성능의 변화를 관찰하고, 이 관찰을 통하여 물리적 데이터베이스 설계 관점에서 질의 시퀀스의 길이 분포에 따른 검색 비용 공식을 산출한다. 다음에, 윈도우 크기 효과에 의한 성능 저하를 개선하기 위해 인덱스 보간법에 기반한 새로운 검색 기법을 제안한다. 또한, 검색 비용 공식에 기반하여 제안된 검색 기법의 성능을 최적화할 수 있도록 다수의 인덱스를 구성하는 알고리즘을 제시한다. 마지막으로, 실제 데이터와 합성 데이터를 이용한 여러 가지 실험을 통하여 제안된 기법의 우수성을 검증한다.

그리드 분할에 의한 다차원 데이터 디클러스터링 성능 분석 (Performance Analysis on Declustering High-Dimensional Data by GRID Partitioning)

  • 김학철;김태완;이기준
    • 정보처리학회논문지D
    • /
    • 제11D권5호
    • /
    • pp.1011-1020
    • /
    • 2004
  • 대규모의 데이터를 다루는 여러 시스템에서 데이터를 다수의 병렬 디스크에 분산시켜 저장한 후 질의 처리시 동시에 여러 개의 디스크를 접근함으로써 입출력 성능의 향상을 위한 많은 노력들이 행해져 왔다. 대부분 이전 연구들은 데이터 공간을 이루는 각 차원이 겹치지 않는 여러개의 구간으로 나누어져 전체 데이터 공간이 그리드 형태로 분할되어 있다는 가정하에 각 차원의 구간 번호로 결정되는 그리드 셀에 대해서 효과적으로 디스크 번호를 할당하는 알고리즘 개발에 집중되었다. 하지만, 그들은 데이터 공간을 그리드 형태로 분할하는 방법이 전체 디클러스터링 알고리즘 성능에 미치는 영향을 간과하였다. 본 논문에서 우리는 효과적인 그리드 분할을 통하여 매핑 함수를 이용하는 디클러스터링 알고리즘의 성능을 향상 시켰다. 이를 위하여 영역 질의 크기가 주어졌을 때 겹치는 그리드 셀의 수를 예측하는 모델을 제시하였으며 이를 이용하여 가능한 그리드 분할 방법들 중에서 질의 크기를 감소시키는 분할 방법을 선택하였다. 일반적으로, 다차원 데이터에 대해서는 이진 분할을 하지만 본 논문에서는 더 작은 수의 차원을 선택해서 여러 번 분할함으로써 질의를 만족하는 그리드 셀의 수를 감소시켰다. 다양한 실험 결과에 의하면 본 논문에서 제시한 예측 모델은 질의 크기와 차원에 관계없이 0.5% 이내의 에러율을 보이는 것으로 나타났다. 또한 효과적인 그리드 분할을 통하여 다차원 데이터에 대해서 가장 성능이 좋은 것으로 소개되고 있는 Kronecker sequence 매핑 함수를 이용하는 디클러스터링 알고리즘의 성능을 최대 23배까지 향상시킬 수 있음을 알 수 있었다.

R-tree에서 위치 기반 질의를 지원하기 위한 동적 셀 레벨링 (Dynamic Cell Leveling to Support Location Based Queries in R-trees)

  • 정연욱;구경이;김유성
    • 한국공간정보시스템학회 논문지
    • /
    • 제6권2호
    • /
    • pp.23-37
    • /
    • 2004
  • 최근 GPS기능을 탑재한 휴대폰 PDA등의 모바일 장치를 사용하여 위치 기반 서비스를 이용하는 사용자가 급증하고 있다. 이에 위치 정보를 지닌 공간 데이타를 저장하고 관리하는 대용량의 공간 데이타베이스는 사용자의 다양한 질의 조건과 빠른 검색을 가능하게 하기 위한 색인이 필요하며 대표적인 색인 기법으로는 R-tree가 널리 사용되고 있다. 기존의 R-tree를 이용한 검색은 질의 영역과 관계없는 공간 데이타까지 검색하여 불필요한 입출력을 유발하기 때문에 응답시간이 늦어진다. 본 논문에서는 공간 데이타가 위치 기반 질의를 지원하기 위해 자신이 속한 노드의 전체(Union) MBR 영역에 따라 동적으로 셀 레벨 값을 구성하는 CLR-트리(Cell Leveling R-tree)를 제안한다. 또한, CLR-트리에서의 새로운 공간 데이타의 삽입, 분할, 삭제, 검색 알고리즘을 제안한다. 제안된 CLR-트리에서는 위치 기반 질의 시 사용자 질의 영역의 셀 레벨 값과 공간 데이타의 셀 레벨 값을 비교하여, 겹치지 않는 셀에 대해서는 검색 대상으로부터 제거하고 연관된 셀만을 검색하기 때문에 빠른 응답시간을 제공한다. 디스크 입출력 실험에서 CLR-트리가 기존 R-tree보다 디스크 접근 수를 $5{\sim}20%$ 감소시켜 사용자의 위치 기반 질의에 대해 빠르게 처리함을 알 수 있었다.

  • PDF

RFID 태그 객체를 위한 구간 색인 구조의 설계 및 구현 (Design and Implementation of Index for RFID Tag Objects)

  • 반재훈;홍봉희
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 추계종합학술대회 B
    • /
    • pp.143-146
    • /
    • 2008
  • RFID 시스템에서 태그의 위치를 추적하기 위해서는 태그의 제적을 모델링하고 색인으로 구성해야 한다. 궤적은 태그가 판독기의 인식영역으로 들어갈 때와 나갈 때 보고되는 두 개의 시공간 위치를 연결한 선분으로 표현될 수 있다. 만약 태그가 판독기의 인식영역에 들어와 나가지 않는 경우에 태그의 궤적은 인식영역에 들어올 때만 보고된 점으로 표현되며, 질의 처리 시 이러한 태그를 찾기 위해 질의영역을 확장해야하는 문제가 발생한다. 이러한 문제를 해결하기 위하여 이 논문에서는 RFID 태그의 제적을 위한 구간 데이터 모델을 정의한다. 또한 구간 데이터 모델에 적합한 R-tree 기반 색인 구조인 IR-tree(Interval R-tree)를 제시하며 효율적인 질의처리를 위해 시간에 종속적인 동적 구간의 특성을 고려한 새로운 삽입 및 분할 알고리즘을 제안한다. 마지막으로 다양한 데이터 집합에서 제안된 색인과 기존 알고리즘을 사용하는 색인과의 성능비교를 통하여 색인의 우수성을 입증한다.

  • PDF

페이지 실행시간 동기화를 이용한 다중 파이프라인 해쉬 결합 (Multiple Pipelined Hash Joins using Synchronization of Page Execution Time)

  • 이규옥;원영선;홍만표
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권7호
    • /
    • pp.639-649
    • /
    • 2000
  • 관계형 데이타베이스 시스템에서 결합 연산자는 데이타베이스 질의를 구성하는 연산자들 중 가장 많은 처리시간을 요구한다. 따라서 이러한 결합 연산자를 효율적으로 처리하기 위해 많은 병렬 알고리즘들이 소개되었다. 그 중 다중 해쉬 결합 질의의 처리를 위해 할당 트리를 이용한 방법이 가장 우수한 것으로 알려져 왔다. 그러나 이 방법은 할당 트리의 각 노드에서 필연적인 지연이 발생되는 데 이는 튜플-시험 단계에서 외부 릴레이션을 디스크로부터 페이지 단위로 읽는 비용과 이미 읽는 페이지에 대한 해쉬 결합 비용간의 차이에 의해 발생하게 된다. 본 논문에서는 이 비용 차이로 인해 발생되는 전체 시스템의 성능 저하를 방지하기 위해 페이지 실행시간 동기화 기법을 제안하였고 이 기법을 통해 각 노드에서의 처리시간을 줄이고 나아가 전체 시스템의 성능을 향상시켰다. 또한 분석적 비용 모형을 세우고 기존 방식과의 다양한 성능 분석을 통해 비용 모형의 타당성을 입증하였다.

  • PDF

MapReduce 기반 분산 이미지 특징점 추출을 활용한 빠르고 확장성 있는 이미지 검색 알고리즘 (A Fast and Scalable Image Retrieval Algorithms by Leveraging Distributed Image Feature Extraction on MapReduce)

  • 송환준;이진우;이재길
    • 정보과학회 논문지
    • /
    • 제42권12호
    • /
    • pp.1474-1479
    • /
    • 2015
  • IoT 시대를 맞아 모바일 기기의 급격한 성능 향상에 힘입어 폭발적으로 증가하는 멀티미디어 빅데이터의 빠른 처리가 요구되고 있다. 하지만, 이런 환경의 대격변 속에서도 이미지 검색 연구 분야에서는 정확도 향상에 주로 초점을 맞춘 나머지, 고해상도 멀티미디어 데이터 Query에 대한 빠른 처리 측면에서는 제대로 대응하지 못하고 있다. 이에 우리는 이미지 검색만을 분산화한 선행연구와 달리 MapReduce 기반 분산 이미지 특징점 추출 기법을 활용하여 정확도는 유지하면서 빠른 응답시간을 확보하며, BIRCH 인덱싱을 기반으로 메모리 확장성까지 해결한 새로운 분산 이미지 검색 알고리즘을 제안한다. 그리고 제안하는 분산 이미지 검색 알고리즘의 정확도, 처리시간, 확장성에 대한 실험을 통해 뛰어난 성능을 확인한다.

멀티미디어 DBMS에서 3차 저장장치의 효율적 활용 기법 (Efficient Incorporation of Tertiary Storage in a Multimedia DBMS)

  • 문찬호;강현철
    • 한국정보처리학회논문지
    • /
    • 제6권7호
    • /
    • pp.1724-1737
    • /
    • 1999
  • 멀티미디어 데이터 서비스 응용에서는 멀티미디어 데이터를 구성하는 LOB(unstructured large object)을 다량 저장하고 다룰 수 있어야 한다. 따라서, 대용량 데이터의 효율적 저장 및 처리를 지원하는 DBMS의 저장장치로 기존의 디스크뿐만 아니라 복수 개의 플래터(광 디스크 쥬크 박스의 경우 디스크, 테이프의 경우 카트리지 테이프)로 구성된 광 디스크 쥬크 박스 또는 테이프 라이브러리와 같은 3차 저장장치가 중요하게 고려되고 있다. 3차 저장장치는 데이터 접근 시 발생하는 지연 시간이 매우 크기 때문에 3차 저장장치에 저장된 LOB에 대한 효율적인 검색 기법에 관한 연구가 필요하다. 본 논문에서는 LOB의 주 저장소로서 3차 저장장치를 활용할 경우, 3차 저장장치로부터 LOB을 효율적으로 검색하기 위한 입출력 스케줄링에 대해 연구하였다. 3차 저장장치의 성능 특성과 LOB 데이터의 특성을 고려하여 3차 저장장치로부터 LOB을 검색하는 질의 처리에 있어 발생하는 지연 시간을 줄일 수 있는 여러 가지 입출력 스케줄링 휴리스틱을 제시하고 이들의 성능을 시뮬레이션을 통하여 평가하였다.

  • PDF