• 제목/요약/키워드: 분산질의처리

Search Result 260, Processing Time 0.026 seconds

A Study of Join and Communication Cost for processing Integrated XQuery queries over Distributed Environment (분산 환경에서 통합 XQuery 질의 처리를 위한 조인과 통신비용에 대한 연구)

  • Choi, Seong-Il;Park, Jong-Hyun;Kang, Ji-Hoon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.59-63
    • /
    • 2007
  • XML은 웹 상에서 정보교환의 표준이며, 이종의 데이터를 보유하고 있는 지역 시스템들은 XML View를 이용하여 정보를 공개한다. 사용자는 XML을 위한 표준 질의어인 XQuery를 사용하여 분산된 XML View들을 대상으로 통합 XQuery질의를 생성할 수 있다. 이렇게 생성된 통합 XQuery질의는 자연스럽게 다른 지역시스템들 사이의 조인을 포함 할 수 있다. 조인은 비용이 많이 드는 연산자이므로 조인을 효율적으로 처리하는 것은 전체 질의의 성능에 큰 영향을 준다. 그러므로 조인을 효율적으로 처리하기 위한 비용을 결정하는 연구가 중요하다고 할 수 있다. SQL에서는 이와 같은 연구들이 많이 존재하며, 분산 환경에서의 조인을 효율적으로 처리하기 위해 크게 두 가지 비용을 고려한다. 그 중 하나는 지역시스템 내에서 조인을 처리하는 조인비용이며, 나머지 하나는 조인을 수행하기 위하여 다른 지역시스템으로 데이터를 전송하는 통신비용이다. 이 두 비용은 분산 조인을 처리하기 위한 중요한 요소이므로[6,7,8] 이를 측정하는 것은 통합 질의 처리를 위해서 필요한 연구라 할 수 있다. 그러나 테이블 구조의 데이터를 검색하기 위한 SQL 의 방법들을 구조적인 XML 데이터를 검색하기 위한 XQuery질의를 위해서 그대로 사용하는 것은 어려운 일이다. 본 논문에서는 분산 환경에서 통합 XQuery질의의 조인을 효율적으로 처리하기 위해 조인비용과 통신비용을 측정하는 방법을 제안한다. 본 논문의 기여는 앞서 기술한 문제점을 해결하여, XQuery 질의의 조인을 효율적으로 처리하기 위한 비용을 측정할 수 있도록 한다.

  • PDF

Matrix-based Filtering and Load-balancing Algorithm for Efficient Similarity Join Query Processing in Distributed Computing Environment (분산 컴퓨팅 환경에서 효율적인 유사 조인 질의 처리를 위한 행렬 기반 필터링 및 부하 분산 알고리즘)

  • Yang, Hyeon-Sik;Jang, Miyoung;Chang, Jae-Woo
    • The Journal of the Korea Contents Association
    • /
    • v.16 no.7
    • /
    • pp.667-680
    • /
    • 2016
  • As distributed computing platforms like Hadoop MapReduce have been developed, it is necessary to perform the conventional query processing techniques, which have been executed in a single computing machine, in distributed computing environments efficiently. Especially, studies on similarity join query processing in distributed computing environments have been done where similarity join means retrieving all data pairs with high similarity between given two data sets. But the existing similarity join query processing schemes for distributed computing environments have a problem of skewed computing load balance between clusters because they consider only the data transmission cost. In this paper, we propose Matrix-based Load-balancing Algorithm for efficient similarity join query processing in distributed computing environment. In order to uniform load balancing of clusters, the proposed algorithm estimates expected computing cost by using matrix and generates partitions based on the estimated cost. In addition, it can reduce computing loads by filtering out data which are not used in query processing in clusters. Finally, it is shown from our performance evaluation that the proposed algorithm is better on query processing performance than the existing one.

SPARQL Query Processing System over Scalable Triple Data using SparkSQL Framework (SparQLing : SparkSQL 기반 대용량 트리플 데이터를 위한 SPARQL 질의 시스템 구축)

  • Jeon, MyungJoong;Hong, JinYoung;Park, YoungTack
    • Journal of KIISE
    • /
    • v.43 no.4
    • /
    • pp.450-459
    • /
    • 2016
  • Every year, RDFS data tends further toward scalability; hence, the manner of SPARQL processing needs to be changed for fast query. The query processing method of SPARQL has been studied using a scalable distributed processing framework. Current studies indicate that the query engine based on the scalable distributed processing framework i.e., Hadoop(MapReduce) is not suitable for real-time processing because of the repetitive tasks; in addition, it is difficult to construct a query engine based on an In-memory Distributed Query engine, because distributed structure on the low-level is required to be considered. In this paper, we proposed a method to construct a query engine for improving the speed of the query process with the mass triple data. The query engine processes the query of SPARQL using the SparkSQL, which is an In-memory based, distributed query processing framework. SparkSQL is a high-level distributed query engine that facilitates existing SQL statement. In order to process the SPARQL query, after generating the Algebra Tree using Jena, the Algebra Tree is required to be translated to Spark Algebra Tree for application in the Spark system, and construction of the system that generated the SparkSQL query. Furthermore, we proposed the design of triple property table based on DataFrame for more efficient query processing in the Spark system. Finally, we verified the validity through comparative evaluation with the query engine, which is the existing distributed processing framework.

k-NN Query Process ing for Distributed Moving Object Dat abases (분산 이동객체 데이터베이스를 위한 k-NN질의 처리)

  • Han, Jong-Hyeong;Lee, Joon-Woo;Nah, Yun-Mook
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10c
    • /
    • pp.261-266
    • /
    • 2006
  • GIS분야와 유비쿼터스 환경의 진보로 언제 어디서나 유무선으로 정보를 주고 받는 환경의 계선에 대한 발전이 계속 되어 왔다. 이런 환경에서 이동객체의 이용도가 증대됨에 따라 대용량의 객체 처리를 위해 분산 처리방식이 적용 되었다. 기존 연구의 k-NN질의는 단일 노드에서 질의 처리 비용의 절감에 중점을 두어 분할된 노드에서의 질의처리에 관련된 연구가 부족하였다. 분할된 노드에서 질의를 처리하기 위해서 고비용이 요구되는 k-NN질의를 위하여 본 논문에서는 Hybrid k-NN질의처리 방식을 제안한다. 제안방식은 k-NN질의와 범위질의 특성을 결합한 형태로 분할된 노드에 질의처리를 가능하게 하고, 질의처리 시 k-NN질의와 범위질의의 혼합으로 k-NN질의의 고비용을 절감하는 방법이다. 이 방법은 GALIS 프로토타입의 SLDS의 질의 처리 부분을 개선에 활용할 수 있다.

  • PDF

Load Balancing Method for Query Processing Based on Cache Management in the Grid Database (그리드 데이터베이스에서 질의 처리를 위한 캐쉬 관리 기반의 부하분산 기법)

  • Shin, Soong-Sun;Back, Sung-Ha;Eo, Sang-Hun;Lee, Dong-Wook;Kim, Gyoung-Bae;Chung, Weon-Il;Bae, Hae-Young
    • Journal of Korea Multimedia Society
    • /
    • v.11 no.7
    • /
    • pp.914-927
    • /
    • 2008
  • Grid database management systems are used for large data processing, high availability and data integration in grid computing. Furthermore the grid database management systems are in the use of manipulating the queries that are sent to distributed nodes for efficient query processing. However, when the query processing is concentrated in a random node, it will be occurred with imbalance workload and decreased query processing. In this paper we propose a load balancing method for query processing based on cache Management in grid databases. This proposed method focuses on managing a cache in nodes by cache manager. The cache manager connects a node to area group and then the cache manager maintains a cached meta information in node. A node is used for caching the efficient meta information which is propagated to other node using cache manager. The workload of node is distributed by using caching meta information of node. This paper shows that there is an obvious improvement compared with existing methods, through adopting the proposed algorithm.

  • PDF

Analysis of Parallel and Sequential processing for integrated XQuery query (통합 XQuery 질의의 병렬처리와 순차처리 성능분석)

  • Kang, Soon-Jong;Park, Jong-Hyun;Kang, Ji-Hoon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10c
    • /
    • pp.214-217
    • /
    • 2006
  • XML 문서의 검색을 위한 질의 언어인 XQuery는 다양한 데이터 소스로부터 가져온 고유한 구조를 가진 질의 결과로 구성할 수 있도록 설계되어 XML질의 언어의 표준이 되었다. XQuery를 이용해 특별히, 분산 환경에서 다중 XML문서 를 대상으로 하는 통합 질의의 경우, 질의 처리 계획을 결정하는 것은 처리 효율과 직결된다. 따라서 질의 처리 계획을 결정하는 요소 중 하나인 조인 처리 방법의 연구는 중요하다. 그러나 통합 질의에서 조인구조를 기준으로 단일 XML문서에 대한 질의 처리방법을 결정하는 것은 쉽지 않다. 본 논문에서는 분산환경에서 다중 XML문서를 대상으로 하는 조인을 포함한 다양한 통합 질의를 대상으로 실험을 통해 병렬처리 방법과 순차처리 방법 그리고 두 가지 처리방법을 조합한 하이브리드 방법을 적용하여 처리 시간을 비교 분석하고, 다중 문서에 대한 효율적인 조인방법과 순서를 모색한다.

  • PDF

Query Reorganization Scheme supporting Parallel Query Processing of Theta Join and Nested SQL on Distributed CUBRID (분산 CUBIRD 상에서 세타 조인 및 중첩 SQL 병렬 질의처리를 지원하는 질의 재구성 기법)

  • Yang, Hyeon-Sik;Kim, Hyeong-Jin;Chang, Jae-Woo
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2014.11a
    • /
    • pp.37-38
    • /
    • 2014
  • 최근 SNS의 발전으로 인해 데이터의 양이 급격히 증가하였으며, 이에 따라 빅데이터 처리를 위한 분산 DBMS 기반 질의 처리 연구가 활발히 진행되고 있다. 이를 위해 CUBRID는 CUBRID Shard 서비스를 통해 데이터베이스를 shard 단위로 수평 분할하여 각기 다른 물리 노드에 데이터를 분산 저장하도록 지원한다. 그러나 CUBRID Shard는 shard간 데이터가 독립적으로 관리되기 때문에 세타 조인 및 중첩 질의와 같이 다수 서버에서의 테이블 참조가 필요한 질의는 처리가 불가능하다. 따라서 본 논문에서는 분산 CUBRID 상에서 세타 조인 및 중첩 SQL를 지원하는 질의 재구성 기법을 제안한다.

  • PDF

Design and Implementation of Distributed XML Storage System and Distributed XPath Query Processor using Distributed ORDBMSs (분산 객체 관계 데이터베이스 시스템을 이용한 분산 XML 문서 저장 시스템과 분산 XPath 질의 처리기 설계 및 구현)

  • Lee, Chang-Ju;Hong, Eui-Kyeong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10c
    • /
    • pp.235-239
    • /
    • 2006
  • 최근 컴퓨팅 환경은 인터넷 환경의 웹을 기반으로 한 분산 컴퓨팅 환경으로 변화하고 있다. 그에 따라 XML 문서의 사용과 XML 문서의 양이 급속하게 증가하였으며, 언제라도 쉽게 필요한 XML 문서에 접근할 수 있어야 한다. XML 문서에서 정보를 검색하기 위하여 XPath 질의어가 널리 사용 중이며, XML 저장 기법과 XPath를 이용한 질의 처리에 대한 연구가 활발히 진행되고 있다. 본 연구에서는 분산 객체 관계 데이터베이스 시스템을 이용하여 XML 문서를 저장하고 관리하는 시스템을 설계하였으며 분산된 XML 데이터를 접근할 수 있도록 하기 위해 XPath를 분산 SQL로 변환하여 실행하는 분산 XPath 질의 처리기를 설계 및 구현하였다.

  • PDF

A Path Query Processing Scheme for Distributed Semi-structured Data Retrieval (분산된 준구조적 데이터 검색을 위한 경로 질의 처리 기법)

  • Lee, Jae-Hyeong;Jeong, Yeon-Don;Kim, Deok-Hyeon;Kim, Myeong-Ho
    • Journal of KIISE:Databases
    • /
    • v.28 no.1
    • /
    • pp.95-103
    • /
    • 2001
  • 본 논문에서는 분산된 준구조적 데이터에 대한 질의 처리 문제를 다룬다. 분산된 준구조적 데이터는 루트가 있고 간선에 레이블이 있는 그래프 모델로 표현될 수 있으며, 그래프의 조드들은 한 사이트 또는 여러 사이트들에 위치할 수 있다. 분산된 준구조적 데이터의 효율적인 검색을 위해 ‘질의 단축 및 확산’ 방법에 기반을 둔 질의 처리 모델을 제안한다. 이 방법은 사용자 질의가 사이트 내부에서 단축되고 다른 사이트로 분산되는 과정을 통해 데이터를 검색한다. 또한, 제안된 모델에 필요한 알고리즘들을 제시하고 정확성을 증명한다.

  • PDF

A Global XQuery Query Processing based on Local XQuery Query Generation (지역 질의 생성기반 전역 XQuery 질의 처리 기법)

  • Park, Jong-Hyun;Park, Won-Ik;Kim, Young-Kuk;Kang, Ji-Hoon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.15 no.11
    • /
    • pp.11-20
    • /
    • 2010
  • XML view is proposed to integrate between XML data and heterogeneous data over distributed environment and global XML view is used to search distributed heterogeneous data. At this time, standard query language for user is XQuery and the method for processing global XQuery queries over distributed environment is one of the new research topics. One of the basic and simple methods to process distributed SQL queries is that generates local queries for processing a global query and constructs the result of the global query from the results of the local queries. However, the syntax of XQuery differs from SQL because the XQuery contains some special expressions like FOR clauses for querying to semi-structured data, of course, FOR clauses are not used in SQL. Therefore, there are some problems to adopt the method for processing global SQL queries for generating local XQuery queries. This paper defines some problems when generates local XQuery queries for processing global XQuery queries and proposes a method for generating local XQuery queries considered these problems. Also we implement and evaluate a Global XQuery Processor which uses our method.