• 제목/요약/키워드: query performance

검색결과 948건 처리시간 0.022초

A Clustered Dwarf Structure to Speed up Queries on Data Cubes

  • Bao, Yubin;Leng, Fangling;Wang, Daling;Yu, Ge
    • Journal of Computing Science and Engineering
    • /
    • 제1권2호
    • /
    • pp.195-210
    • /
    • 2007
  • Dwarf is a highly compressed structure, which compresses the cube by eliminating the semantic redundancies while computing a data cube. Although it has high compression ratio, Dwarf is slower in querying and more difficult in updating due to its structure characteristics. We all know that the original intention of data cube is to speed up the query performance, so we propose two novel clustering methods for query optimization: the recursion clustering method which clusters the nodes in a recursive manner to speed up point queries and the hierarchical clustering method which clusters the nodes of the same dimension to speed up range queries. To facilitate the implementation, we design a partition strategy and a logical clustering mechanism. Experimental results show our methods can effectively improve the query performance on data cubes, and the recursion clustering method is suitable for both point queries and range queries.

분산 컴퓨팅 환경에서 효율적인 유사 조인 질의 처리를 위한 행렬 기반 필터링 및 부하 분산 알고리즘 (Matrix-based Filtering and Load-balancing Algorithm for Efficient Similarity Join Query Processing in Distributed Computing Environment)

  • 양현식;장미영;장재우
    • 한국콘텐츠학회논문지
    • /
    • 제16권7호
    • /
    • pp.667-680
    • /
    • 2016
  • 하둡 맵리듀스와 같은 분산 컴퓨팅 플랫폼이 개발됨에 따라, 기존 단일 컴퓨터 상에서 수행되는 질의 처리 기법을 분산 컴퓨팅 환경에서 효율적으로 수행하는 것이 필요하다. 특히, 주어진 두 데이터 집합에서 유사도가 높은 모든 데이터 쌍을 탐색하는 유사 조인 질의를 분산 컴퓨팅 환경에서 수행하려는 연구가 있어 왔다. 그러나 분산 병렬 환경에서의 기존 유사 조인 질의처리 기법은 데이터 전송 비용만을 고려하기 때문에 클러스터 간에 비균등 연산 부하 분산의 문제점이 존재한다. 본 논문에서는 분산 컴퓨팅 환경에서 효율적인 유사 조인 처리를 위한 행렬 기반 부하 분산 알고리즘을 제안한다. 제안하는 알고리즘은 클러스터의 균등 부하 분산을 위해 행렬을 이용하여 예상되는 연산 부하를 측정하고 이에 따라 파티션을 생성한다. 아울러, 클러스터에서 질의 처리에 사용되지 않는 데이터를 필터링함으로서 연산 부하를 감소시킨다. 마지막으로 성능 평가를 통해 제안하는 알고리즘이 기존 기법에 비해 질의 처리 성능 측면에서 우수함을 보인다.

이동객체의 궤적에 대한 연속 최근접 질의에 관한 연구 (Study on Continuous Nearest Neighbor Query on Trajectory of Moving Objects)

  • 정지문
    • 한국디지털정책학회:학술대회논문집
    • /
    • 한국디지털정책학회 2005년도 춘계학술대회
    • /
    • pp.517-530
    • /
    • 2005
  • Researches for NN(nearest neighbor) query which is often used in LBS system, have been worked. However, Conventional NN query processing techniques are usually meaningless in moving object management system for LBS since their results may be invalidated as soon as the query and data objects move. To solve these problems, in this paper we propose a new nearest neighbor query processing technique, called CTNN, which is possible to meet continuous trajectory nearest neighbor query processing. The proposed technique consists of Approximate CTNN technique which has quick response time, and Exact CTNN technique which makes it possible to search accurately nearest neighbor objects. Experimental results using GSTD datasets showed that the Exact CTNN technique has high accuracy, but has a little low performance for response time. They also showed that the Approximate CTNN technique has low accuracy comparing with the Exact CTNN, but has high response time.

  • PDF

SVD를 기반으로 한 고차원 데이터 및 질의 집합의 생성 (An SVD-Based Approach for Generating High-Dimensional Data and Query Sets)

  • 김상욱
    • 정보기술과데이타베이스저널
    • /
    • 제8권2호
    • /
    • pp.91-101
    • /
    • 2001
  • Previous research efforts on performance evaluation of multidimensional indexes typically have used synthetic data sets distributed uniformly or normally over multidimensional space. However, recent research research result has shown that these hinds of data sets hardly reflect the characteristics of multimedia database applications. In this paper, we discuss issues on generating high dimensional data and query sets for resolving the problem. We first identify the features of the data and query sets that are appropriate for fairly evaluating performances of multidimensional indexes, and then propose HDDQ_Gen(High-Dimensional Data and Query Generator) that satisfies such features. HDDQ_Gen supports the following features : (1) clustered distributions, (2) various object distributions in each cluster, (3) various cluster distributions, (4) various correlations among different dimensions, (5) query distributions depending on data distributions. Using these features, users are able to control tile distribution characteristics of data and query sets. Our contribution is fairly important in that HDDQ_Gen provides the benchmark environment evaluating multidimensional indexes correctly.

  • PDF

DISSECTION TECHNIQUE FOR EFFICIENT JOIN OPERATION ON SEMI-STRUCTURED DOCUMENT STREAM

  • Seo, Dong-Hyeok;Lee, Dong-Gyu;Ryu, Keun-Ho
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2007년도 Proceedings of ISRS 2007
    • /
    • pp.11-13
    • /
    • 2007
  • There has been much interest in stream query processing. Various index techniques and advanced join techniques have been proposed to efficiently process data stream queries. Previous proposals support rapid and advanced response to the data stream queries. However, the amount of data stream is increasing and the data stream query processing needs more speedup than before. In this paper, we proposed novel query processing techniques for large number of incoming documents stream. We proposed Dissection Technique for efficient query processing in the data stream environment. We focused on the dissection technique in join query processing. Our technique shows efficient operation performance comparing with the other proposal in the data stream. Proposed technique is applied to the sensor network system and XML database.

  • PDF

이동객체의 궤적에 대한 연속 최근접 질의에 관한 연구 (Study on Continuous Nearest Neighbor Query on Trajectory of Moving Objects)

  • 정지문
    • 디지털융복합연구
    • /
    • 제3권1호
    • /
    • pp.149-163
    • /
    • 2005
  • Researches for NN(nearest neighbor) query which is often used in LBS system, have been worked. However. Conventional NN query processing techniques are usually meaningless in moving object management system for LBS since their results may be invalidated as soon as the query and data objects move. To solve these problems, in this paper we propose a new nearest neighbor query processing technique, called CTNN, which is possible to meet continuous trajectory nearest neighbor query processing. The proposed technique consists of Approximate CTNN technique which has quick response time, and Exact CTNN technique which makes it possible to search accurately nearest neighbor objects. Experimental results using GSTD datasets shows that the Exact CTNN technique has high accuracy, but has a little low performance for response time. They also shows that the Approximate CTNN technique has low accuracy comparing with the Exact CTNN, but has high response time.

  • PDF

오픈소스 DBMS의 성능 품질 평가 (Evaluating the Performance Quality of Open Source Database Management Systems)

  • 민미경
    • 품질경영학회지
    • /
    • 제45권4호
    • /
    • pp.933-942
    • /
    • 2017
  • Purpose: The purpose of this paper is to evaluate the performance quality of the open source DBMSs. Performance quality is defined as processing time for Join queries. Query processing time is measured and compared in the most widely used open source DBMSs and commercial DBMS. Methods: By varying the number of tuples of two relations to be joined, the average processing time(seconds) of a Join query in each DBMS was obtained experimentally. ANOVA and Tukey HSD test were used in order to compare the performance quality of DBMSs. Results: There was a significant difference between the performance qualities of the three DBMSs at all experimental levels where the number of tuples was 100, 1,000, 2,000, 10,000, and 50,000. As a result of the Tukey HSD test, two open source DBMSs (MariaDB, MySQL) were classified in the same group only at the tuple level of 100. The commercial DBMS (MS-SQL Server) belonged to another group. At level of more than 1,000 tuples, all three DBMSs belonged to different groups. Conclusion: Within the open source DBMS group, MariaDB showed the better performance quality except for a small number of tuples. Thus the results show that MariaDB can be the alternative to MySQL which is currently most widely used. Between open source DBMS and commercial DBMS groups, MS-SQL Server always shows the best performance quality, but the less number of tuples, the less the difference.

센서 네트워크에서 다차원 데이타를 위한 쿼리 처리 시스템 (Query Processing System for Multi-Dimensional Data in Sensor Networks)

  • 김장수;김정준;김영곤;이창훈
    • 한국인터넷방송통신학회논문지
    • /
    • 제17권1호
    • /
    • pp.139-144
    • /
    • 2017
  • 최근 GeoSensor 활용이 증가함에 따라 공간 센서 데이터와 같은 2차원 데이타를 효율적으로 처리하기 위한 질의 처리 시스템이 활발히 연구되고 있다. 하지만 기존 질의 처리 시스템들은 시공간 센서 데이터와 같은 다차원 데이타를 처리하기 위한 데이타 타입과 연산자를 지원하지 않기 때문에 이와 같은 다차원 데이터를 처리하기에 미흡하다. 따라서, 본 논문은 이러한 센서 네트워크에서 다차원 데이타를 효율적으로 처리하기 위하여 질의 처리 시스템을 개발하였다. 마지막으로 본 논문은 시나리오를 통해 본 시스템의 효용성을 검증하고, 수행시간 및 메모리 사용량 등의 성능평가를 통해 기존 시스템들보다 성능이 우수함을 입증하였다.

음악 정보검색 시스템을 위한 효율적인 특징 벡터 추출에 관한 연구 (A Study on the Efficient Feature Vector Extraction for Music Information Retrieval System)

  • 윤원중;이강규;박규식
    • 한국음향학회지
    • /
    • 제23권7호
    • /
    • pp.532-539
    • /
    • 2004
  • 본 논문에서는 Classic, Hiphop, Jazz, Rock 4개의 장르로 곡을 구분하여 각 장르별 60곡씩 총 240곡의 음악 DB를 대상으로 예제 질의 (QBE) 방식의 음악 정보 검색 시스템을 제안하였다. 제안된 시스템은 입력 질의로부터 spectral centroid, rolloff, flux등 STFT기반의 특징들과 MFCC, LPC, Beat 정보 등의 총 60차의 특징 벡터들을 추출한후 Euclidean 유사도를 측정해서 DB내의 해당 음악을 검색한다. 실제 검색에 사용되는 특징 벡터는 SFS (Sequential Forward Selection) 기법을 사용하여 10차 특징 벡터로 최적화 되며 검색 실험결과 평균 84% Hit Rate 와 0.63 MRR의 성공률을 보이고 있어 기존의 연구 결과보다 약 10%이상의 성능 향상을 보였다. 한편 본 논문에서는 실제 시스템 사용 환경을 고려하여 임의 질의 구간과 임의 질의 길이에 대한 시스템 성능 평가를 수행하였으며 실험 결과 이러한 임의성에 기인한 검색 성능의 불안정성을 지적하였다.

맵리듀스에서 빅데이터 분석을 위한 다중 Group-by 질의의 효율적인 처리 기법 (Efficient Processing of Multiple Group-by Queries in MapReduce for Big Data Analysis)

  • 박은주;박소정;오소현;최혜진;이기용;심준호
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권5호
    • /
    • pp.387-392
    • /
    • 2015
  • 맵리듀스(MapReduce)는 대용량의 데이터를 다수의 컴퓨터로 병렬 처리하기 위해 사용되는 프레임워크이다. Group-by 질의는 데이터를 지정된 애트리뷰트들의 값에 따라 그룹화하고, 각 그룹에 대해 지정된 집계 함수 값을 구하는 질의이다. 본 논문에서는 둘 이상의 group-by 질의가 동시에 요청되었을 때, 이들을 맵리듀스를 사용하여 효율적으로 처리하는 기법을 제안한다. 제안 기법은 각 group-by 질의를 독립적으로 계산하는 대신, 총 수행비용을 줄이기 위해 하나 이상의 맵리듀스 잡을 통해 단계적으로 계산한다. 성능 평가 실험을 통해, 제안 기법이 각 group-by 질의를 독립적으로 계산하는 단순 방법에 비해 좋은 성능을 가짐을 보인다.