• Title/Summary/Keyword: 분산 그래프

Search Result 165, Processing Time 0.028 seconds

An Algorithm for Construction of Distribution Breadth-First Search Tree Using New Threshold Values (새로운 임계값을 이용한 분산 너비우선탐색 트리(Distributed Breadth-First Search Tree)의 구성 에 관한 알고리즘)

  • 송인섭;신재호
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.16 no.5
    • /
    • pp.468-574
    • /
    • 1991
  • In construction of breadth-frist tree, the communication complexity can be reduced by efficent synchronization schemes based on several threshold values, We determine several new threshold values by considering the graph density represented as lognm, where n and m are the number of nodes and links., repectively. When thesethreshold values are used in the synchroization method for constructing distrbuted bradth-first search tree, we can obtain a more efficient algorithm in sparse graphs, and also, this algorithm has vthe same performance for communication complexity in dense graphs.

  • PDF

A Performance Comparison of Distributed Data Processing Frameworks for Large Scale Graph Data (대규모 분산 처리 프레임워크에 따른 대규모 그래프 처리 성능 비교)

  • Bae, Kyung-sook;Kong, Yong-joon;Shim, Tak-kil;Shin, Eui-seob;Seong, Kee-kin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.469-472
    • /
    • 2012
  • 최근 IT 분야의 화두로 '빅 데이터'가 떠오르고 있으며 많은 기업들이 이를 분석하여 이익을 증대하기 위한 노력을 하고 있다. 이에 구글은 초기에 맴리듀스라고 하는 대용량 분산처리 프레임워크 기술을 확보하여 이를 기반으로 한 서비스를 제공하고 있다. 그러나 스마트 단말 및 소설미디어 등의 출현으로 다양한 디지털 정보들이 그래프로 표현되는 추세가 강화되고 있으며 기존의 맵리듀스로 이를 처리하는 데에 한계를 느낀 구글은 Pregel 이라는 그래프 형 자료구조에 최적화된 또 다른 분산 프레임워크를 개발하였다. 본 논문에서는 일반적인 그래프 형 데이터가 갖는 특성을 분석하고, 대용량 그래프 데이터를 처리하는데 있어 맵리듀스가 갖는 한계와 Pregel은 어떤 방식으로 이를 극복하고 있는지를 소개한다. 또한 실험을 통하여 데이터의 특성에 따른 적절한 프레임워크의 선택이 대용량 데이터를 처리하는 데에 있어서 얼마나 큰 영향을 미치는지 확인한다.

A Parallel Distributed Algorithm of the Independent Set Problem using Pregel (Pregel을 이용한 독립집합 문제의 병렬 분산 알고리즘)

  • Shin, Eun-Ok;Yi, Sung-Min;Chung, Yon-Dohn
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.104-106
    • /
    • 2012
  • 다양한 그래프 문제들은 대부분 NP-완전 문제로, 그 중 하나인 독립집합을 구하는 문제 또한 최적의 알고리즘이 존재하지 않는다. 따라서 규모가 큰 대용량 그래프 데이터로 독립집합 문제를 처리하기 위해서는 많은 시간과 비용이 소요된다. 이를 효율적으로 해결하기 위해 분산 환경에서 그래프 처리에 적합한 모델인 Pregel을 이용하여 독립집합 문제를 푼다. 이를 위해 정점 사이의 메시지 전달에 따른 정점 상태 변환 방법을 이용하여 분산 병렬 환경에 알맞은 알고리즘을 제안한다.

Approximate Top-k Subgraph Matching Scheme Considering Data Reuse in Large Graph Stream Environments (대용량 그래프 스트림 환경에서 데이터 재사용을 고려한 근사 Top-k 서브 그래프 매칭 기법)

  • Choi, Do-Jin;Bok, Kyoung-Soo;Yoo, Jae-Soo
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.8
    • /
    • pp.42-53
    • /
    • 2020
  • With the development of social network services, graph structures have been utilized to represent relationships among objects in various applications. Recently, a demand of subgraph matching in real-time graph streams has been increased. Therefore, an efficient approximate Top-k subgraph matching scheme for low latency in real-time graph streams is required. In this paper, we propose an approximate Top-k subgraph matching scheme considering data reuse in graph stream environments. The proposed scheme utilizes the distributed stream processing platform, called Storm to handle a large amount of stream data. We also utilize an existing data reuse scheme to decrease stream processing costs. We propose a distance based summary indexing technique to generate Top-k subgraph matching results. The proposed summary indexing technique costs very low since it only stores distances among vertices that are selected in advance. Finally, we provide k subgraph matching results to users by performing an approximate Top-k matching on the summary indexing. In order to show the superiority of the proposed scheme, we conduct various performance evaluations in diverse real world datasets.

Implementation DSM system over MPI (MPI상에서 분산 공유메로리(DSM)시스템의 구현)

  • 장우현;이성우;유기영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10a
    • /
    • pp.703-705
    • /
    • 1998
  • 본 논문에서는 MPI를 이용하여 분산 공유 메모리 시스템을 구현한다. 또한 사이클이 없는 방향성 그래프를 기반으로 한 분산 락 알고리즘을 기반으로 네트윅 환경에 적당한 알고리즘을 제안하고 구현하다. 사용된 MPI 는 분산 메모리 시스템의 메시지교환의 표준이므로 MPI 가 구현되어 있는 대부분의 분산 메모리 시스템에서 활용이 가능하여 높은 이식성을 가진다.

  • PDF

Scalable RDFS Reasoning Using the Graph Structure of In-Memory based Parallel Computing (인메모리 기반 병렬 컴퓨팅 그래프 구조를 이용한 대용량 RDFS 추론)

  • Jeon, MyungJoong;So, ChiSeoung;Jagvaral, Batselem;Kim, KangPil;Kim, Jin;Hong, JinYoung;Park, YoungTack
    • Journal of KIISE
    • /
    • v.42 no.8
    • /
    • pp.998-1009
    • /
    • 2015
  • In recent years, there has been a growing interest in RDFS Inference to build a rich knowledge base. However, it is difficult to improve the inference performance with large data by using a single machine. Therefore, researchers are investigating the development of a RDFS inference engine for a distributed computing environment. However, the existing inference engines cannot process data in real-time, are difficult to implement, and are vulnerable to repetitive tasks. In order to overcome these problems, we propose a method to construct an in-memory distributed inference engine that uses a parallel graph structure. In general, the ontology based on a triple structure possesses a graph structure. Thus, it is intuitive to design a graph structure-based inference engine. Moreover, the RDFS inference rule can be implemented by utilizing the operator of the graph structure, and we can thus design the inference engine according to the graph structure, and not the structure of the data table. In this study, we evaluate the proposed inference engine by using the LUBM1000 and LUBM3000 data to test the speed of the inference. The results of our experiment indicate that the proposed in-memory distributed inference engine achieved a performance of about 10 times faster than an in-storage inference engine.

A Path Query Processing Scheme for Distributed Semi-structured Data Retrieval (분산된 준구조적 데이터 검색을 위한 경로 질의 처리 기법)

  • Lee, Jae-Hyeong;Jeong, Yeon-Don;Kim, Deok-Hyeon;Kim, Myeong-Ho
    • Journal of KIISE:Databases
    • /
    • v.28 no.1
    • /
    • pp.95-103
    • /
    • 2001
  • 본 논문에서는 분산된 준구조적 데이터에 대한 질의 처리 문제를 다룬다. 분산된 준구조적 데이터는 루트가 있고 간선에 레이블이 있는 그래프 모델로 표현될 수 있으며, 그래프의 조드들은 한 사이트 또는 여러 사이트들에 위치할 수 있다. 분산된 준구조적 데이터의 효율적인 검색을 위해 ‘질의 단축 및 확산’ 방법에 기반을 둔 질의 처리 모델을 제안한다. 이 방법은 사용자 질의가 사이트 내부에서 단축되고 다른 사이트로 분산되는 과정을 통해 데이터를 검색한다. 또한, 제안된 모델에 필요한 알고리즘들을 제시하고 정확성을 증명한다.

  • PDF

대용량 그래프에서의 삼각형 검색 연구: 알고리즘과 응용

  • Park, Ha-Myeong;Gang, Yu
    • Information and Communications Magazine
    • /
    • v.31 no.11
    • /
    • pp.58-66
    • /
    • 2014
  • 본 고에서는 다양한 네트워크를 표현하는 그래프에서 삼각형을 검색하는 알고리즘과 그 응용을 다룬다. 삼각형은 그래프에서 서로가 연결된 세 정점의 집합을 의미한다. 삼각형 검색 문제는 폭 넓은 응용이 가능하기 때문에 데이터 마이닝, 네트워크 분석 등 다양한 분야에서 중요하고 기본적인 문제로서 인식되어왔다. 삼각형 검색 문제의 중요성이 널리 인식되면서 여러 알고리즘이 제안 되어 왔지만, 최근의 소셜 네트워크, 웹 등의 크기가 방대해 기존의 방법은 이러한 네트워크를 분석하기가 사실상 불가능하다. 최근 맵리듀스를 활용한 분산/병렬 처리를 통해 대용량 그래프에서 삼각형을 검색하는 알고리즘들이 여럿 제안되었다. 본 논문에서는 지금까지 제안된 알고리즘들을 설명하고 삼각형 검색의 응용에 대해서 소개한다.

An Efficient Graph Cycle Detection Technique based on Pregel (프리겔 기반의 효율적인 그래프 순환 검출 기법)

  • Kim, Taeyeon;Kim, Hyunwook;Park, Kisung;Lee, Young-Koo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.152-154
    • /
    • 2013
  • 페타 바이트 이상의 규모의 빅 데이터 분석은 다양한 분야에서 연구되고 있다. 최근 소셜 네트워크, XML 등과 같은 구조적인 정보를 갖는 대용량의 그래프들을 분석하는 기술이 활발히 연구되고 있다. 이러한 대용량의 그래프를 분석하기 위한 연산중의 하나로 순환 그래프가 사용되고 있다. 대용량의 그래프 환경에서 순환을 검출하는 연산은 단일 컴퓨팅 시스템에서 처리가 불가능하거나 많은 시간 비용이 발생하여 분산처리가 필요하다. 본 논문에서는 그래프 처리에 효율적인 프리겔 프레임워크를 이용하여 효율적으로 순환을 검출하고, 중복 순환을 제거하기 위해 정규 순환 코드를 제안한다. 실험을 통하여 제안하는 기법이 대용량 그래프에서 효율적으로 순환을 찾을 수 있음을 보인다.

DNA Sequence Alignment Using a Graph-based Distributed System (그래프 기반 분산 시스템을 이용한 염기 서열 정렬)

  • Lee, Jun-Su;Ahn, Jae-Gyoon;Yeu, Yun-Ku;Roh, Hong-Chan;Park, Sang-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.894-897
    • /
    • 2013
  • 서열 정렬(sequence alignment)은 유전학(genomic)에서 널리 사용되는 도구 중 하나이다. 최근에는 차세대 시퀀싱 기술(NGS)이 발달함에 따라 데이터의 생산량이 크게 증가했고, 이에 따라 높은 처리량(throughput)을 가진 서열 정렬 알고리즘의 필요성이 증가하였다. 본 논문에서 제안하는 염기 서열 정렬 알고리즘은 시퀀스(sequence)데이터를 그래프 형태로 변형시킨 다음, 마이크로소프트사의 그래프 기반인 메모리(in-memory) 분산시스템(distributed system) 트리니티(Trinity)를 이용해 서열 정렬을 수행한다. 본 논문의 알고리즘은 트리니티 시스템에서 시뮬레이션 염기 데이터를 성공적으로 정렬하였으며, 슬레이브의 개수가 늘어날수록 빠른 속도를 나타내어 확장성(scalability)을 입증했다.