• 제목/요약/키워드: Parallel distributed Processing

검색결과 260건 처리시간 0.026초

데이타베이스 공유 시스템에서 동적 부하분산을 지원하는 해쉬 조인 알고리즘들의 성능 평가 (Performance Evaluation of Hash Join Algorithms Supporting Dynamic Load Balancing for a Database Sharing System)

  • 문애경;조행래
    • 한국정보처리학회논문지
    • /
    • 제6권12호
    • /
    • pp.3456-3468
    • /
    • 1999
  • 기존에 제안된 대부분의 병렬 조인 알고리즘들은 데이타베이스가 여러 처리 노드에 분할되어 저장되는 데이타베이스 분할 시스템을 가정하였다. 데이타베이스 분할 시스템은 다수의 노드들을 연결할 수 있으며 지리적으로 분산된 환경도 지원할 수 있다는 장점을 갖지만, 데이타베이스 공유 시스템에 비해 부하 분산이나 시스템 가용성이 떨어진다는 단점을 갖는다. 본 논문에서는 데이타베이스 공유 시스템의 특성을 이용한 동적 부하분산 기법을 제안하고, 제안한 동적 부하분산 기법을 이용하여 기존의 해쉬 조인 알고리즘들을 데이타베이스 공유 시스템에 확장한다. 그리고, 다양한 시스템 구성 및 데이터베이스 부하 환경에서 모의 실험을 수행함으로써 데이타베이스 공유 시스템에서 동적 부하분산 기법의 효과 및 해쉬 알고리즘들의 성능 차이를 정량적으로 분석한다.

  • PDF

RDP: A storage-tier-aware Robust Data Placement strategy for Hadoop in a Cloud-based Heterogeneous Environment

  • Muhammad Faseeh Qureshi, Nawab;Shin, Dong Ryeol
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권9호
    • /
    • pp.4063-4086
    • /
    • 2016
  • Cloud computing is a robust technology, which facilitate to resolve many parallel distributed computing issues in the modern Big Data environment. Hadoop is an ecosystem, which process large data-sets in distributed computing environment. The HDFS is a filesystem of Hadoop, which process data blocks to the cluster nodes. The data block placement has become a bottleneck to overall performance in a Hadoop cluster. The current placement policy assumes that, all Datanodes have equal computing capacity to process data blocks. This computing capacity includes availability of same storage media and same processing performances of a node. As a result, Hadoop cluster performance gets effected with unbalanced workloads, inefficient storage-tier, network traffic congestion and HDFS integrity issues. This paper proposes a storage-tier-aware Robust Data Placement (RDP) scheme, which systematically resolves unbalanced workloads, reduces network congestion to an optimal state, utilizes storage-tier in a useful manner and minimizes the HDFS integrity issues. The experimental results show that the proposed approach reduced unbalanced workload issue to 72%. Moreover, the presented approach resolve storage-tier compatibility problem to 81% by predicting storage for block jobs and improved overall data block placement by 78% through pre-calculated computing capacity allocations and execution of map files over respective Namenode and Datanodes.

A Hybrid Mechanism of Particle Swarm Optimization and Differential Evolution Algorithms based on Spark

  • Fan, Debin;Lee, Jaewan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권12호
    • /
    • pp.5972-5989
    • /
    • 2019
  • With the onset of the big data age, data is growing exponentially, and the issue of how to optimize large-scale data processing is especially significant. Large-scale global optimization (LSGO) is a research topic with great interest in academia and industry. Spark is a popular cloud computing framework that can cluster large-scale data, and it can effectively support the functions of iterative calculation through resilient distributed datasets (RDD). In this paper, we propose a hybrid mechanism of particle swarm optimization (PSO) and differential evolution (DE) algorithms based on Spark (SparkPSODE). The SparkPSODE algorithm is a parallel algorithm, in which the RDD and island models are employed. The island model is used to divide the global population into several subpopulations, which are applied to reduce the computational time by corresponding to RDD's partitions. To preserve population diversity and avoid premature convergence, the evolutionary strategy of DE is integrated into SparkPSODE. Finally, SparkPSODE is conducted on a set of benchmark problems on LSGO and show that, in comparison with several algorithms, the proposed SparkPSODE algorithm obtains better optimization performance through experimental results.

MRSPAKE : Hadoop MapReduce를 이용한 웹 규모의 공간 지식 추출기 (MRSPAKE : A Web-Scale Spatial Knowledge Extractor Using Hadoop MapReduce)

  • 이석준;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.569-584
    • /
    • 2016
  • 본 논문에서는 Hadoop MapReduce 병렬 분산 컴퓨팅 환경을 이용해 개발한 공간 지식 추출기를 제안한다. 이 공간 지식 추출기는 대용량의 공간 데이터 집합으로부터, 임의의 두 공간 객체들 사이에 만족되는 위상 관계와 방향 관계를 나타내는 정성 공간 지식 베이스를 생성해낸다. 본 논문에서 제안하는 MapReduce 기반의 대용량 공간 지식 추출기 MRSPAKE는 HDFS 상의 분산 공간 데이터 파일에 대한 R 트리 색인과 범위 질의들을 이용함으로써, 웹 규모의 정성 공간 지식 베이스를 매우 효율적으로 추출해낸다. 대표적인 공개 데이터 집합인 Open Street Map(OSM)을 이용한 성능 분석 실험을 통해, 본 논문에서 제안하는 웹 규모의 공간 지식 추출기 MRSPAKE의 높은 성능과 확장성을 확인할 수 있었다.

다중 분산 웹 클러스터모델의 안전한 데이터 전송을 위한 상호 인증 프로토콜 (Mutual Authentication Protocol for Safe Data Transmission of Multi-distributed Web Cluster Model)

  • 이기준;김창원;정채영
    • 정보처리학회논문지C
    • /
    • 제8C권6호
    • /
    • pp.731-740
    • /
    • 2001
  • 기존의 클러스터 시스템을 확장한 다중 분산 웹 클러스터 모델은 개방 네트워크상에 존재하는 다수의 시스템 노드들을 단일한 가상 네트워크로 구축하여 사용자로부터 요구되어지는 대규모 작업을 병렬 컴퓨팅 방식으로 처리하는 클러스터 시스템이다 구성된 특성상 다중 분산 웹 클러스터 모델은 불법적인 3자에 의해 내부 시스템 노드들이 노출되어 있으며, 각 시스템 노드간의 협조작업 시 고의적인 방해와 공격으로 정상적인 작업수행이 불가능할 가능성을 지니고 있다. 본 논문에서는 시스템 노드의 서비스 코드 블록의 등록, 요구, 협조 및 결과취합 시 해당 시스템노드의 인증을 위하여 키 분배방식을 통한 시스템 노드 상호 인증 프로토콜을 제시하며, 전체 시스템 노드의 대칭키를 안전하고 효율적으로 관리하며 분배하는 SNKDC를 설계한다. SNKDC는 시스템 노드가 작업수행 시 필요한 대칭키를 분배하며, 제공된 키를 기반으로 시스템 노드는 암호화된 패킷을 전송한다. 시스템 노드간의 주고받는 암호화 패킷은 3자에 의해 해독되거나 거짓 메시지를 통한 정보의 유출을 방지할 수 있다.

  • PDF

소켓 및 RMI 기반 자바 메시지 전달 시스템의 구현 및 성능평가 (Implementation and Performance Evaluation of Socket and RMI based Java Message Passing Systems)

  • 방승준;안진호
    • 인터넷정보학회논문지
    • /
    • 제8권5호
    • /
    • pp.11-20
    • /
    • 2007
  • 본 논문은 자바 언어로 완성된 MPI(Message Passing Interface) 스펙인 MPJ(Message Passing in Java) 스펙을 준수하여 병렬 컴퓨팅 환경에서 메시지 통신 인터페이스를 제공하는 JMPI(Java Message Passing Interface) 라이브러리를 설계하고 구현하였다. 이 라이브러리는 간단하면서도 매우 편리한 GUI(Graphical User Interface) 도구를 제공하여, 사용자가 손쉽게 병렬 컴퓨팅 환경을 구성할 수 있다. 또한, 본 논문에서는 두 가지 전형적인 분산 시스템 통신 메커니즘인 소켓과 RMI(Remote Method Invocation) 방식을 이용하여 두 가지 버전의 시스템을 구현하였고, 기존의 JPVM 시스템과의 성능을 벤치마크 애플리케이션들을 통하여 컴퓨터 대수의 증가에 따른 처리 속도를 비교해 보았다. 실험 결과로는 본 논문에서 제시한 JMPI 시스템이 JPVM시스템보다 다양한 측면에서 높은 성능을 발휘한다는 것과 컴퓨터의 가장 효율적인 처리 속도는 애플리케이션에 따라 컴퓨터의 수를 증가시킨다고 해서 일정하게 처리속도가 증가하는 것이 아니라 네트워크의 트래픽을 고려하여 컴퓨터의 수를 증가시켰을 때 얻을 수 있다는 것을 보여준다. 마지막으로 컴퓨터의 수가 증가함에 따라 RMI를 사용하여 메시지를 전달하는 것이 소켓에 부속된 객체 스트림을 사용하여 메시지를 전달하는 것보다 효과적이라는 것을 알 수 있다.

  • PDF

지능로봇 제어를 위한 비전기반 실시간 수신호 인식 시스템 (Real-time Hand Gesture Recognition System based on Vision for Intelligent Robot Control)

  • 양태규;서용호
    • 한국정보통신학회논문지
    • /
    • 제13권10호
    • /
    • pp.2180-2188
    • /
    • 2009
  • 본 논문은 지능로봇의 동작을 제어하기 위해 비전기반의 실시간 수신호를 PCA 및 BP 알고리즘을 이용한 인식시스템을 제안하였다. 수신호 인식은 PCA 알고리즘을 이용한 전처리 단계와 BP 알고리즘을 이용한 인식의 두 단계로 구성한다. PCA 알고리즘은 데이터 분석을 위해 다차원 데이터 집합을 보다 낮은 차원으로 감소시키기 위해 사용되는 기술로 주어진 수신호의 특징인 투영 벡터를 계산하기 위하여 적용되었고, BP 알고리즘은 병렬 구조를 가지고 있으므로 병렬 분산처리가 가능하고, 처리 속도가 빠르므로 PCA로부터 훈련된 고유 수신호를 학습시켜 수신호를 실시간으로 인식한다. 실험에서는 10종류의 수신호를 PCA 알고리즘만을 사용한 경우와 제안한 PCA 및 BP 알고리즘을 사용한 경우와 인식률을 비교하여 제안한 알고리즘이 우수하다는 것을 보였다.

멀티 매니징 기법을 이용한 웹기반 분산 병렬 컴퓨팅 환경 (Web-based Distributed Parallel Computing Environment with Multi-Managing Method)

  • 맹혜선;한탁돈;김신덕
    • 한국정보처리학회논문지
    • /
    • 제6권7호
    • /
    • pp.1777-1788
    • /
    • 1999
  • 자바 언어를 이용하여 이질적인 컴퓨팅 자원으로 구성된 컴퓨팅 환경에서 효율적으로 분산 병렬 처리를 수행할 수 있도록 하는 웹컴퓨팅 방법이 제시되었다. 본 연구에서는 인트라넷상의 유휴 컴퓨팅 자원을 활용하는 '협력하는 웹컴퓨팅 환경(Cooperative Web Computing Environment : CWCE)'을 구축하였다. 이 환경은 특히 협력하는 병렬 프로그램을 효율적으로 수행할 수 있도록 한다. CWCE 컴퓨터들 사이의 통신 집중 감소를 위해 복수 개의 매니저 컴퓨터를 운용할 수 있는 방법을 제공한다. 또한 최적화 된 수행을 지원하기 위해 필요한 매니저 컴퓨터의 개수를 결정할 수 있는 '매니징 레벨 결정 함수'를 제공한다. 본 연구에서는 동기화 된 통신을 요구하는 응용 프로그램이 CWCE 환경에서 복수 개의 매니저 컴퓨터를 이용함으로써 보다 효율적으로 수행될 수 있음을 분석과 실험을 통해서 보이도록 하였다.

  • PDF

맵리듀스 잡을 사용한 해시 ID 매핑 테이블 기반 대량 RDF 데이터 변환 방법 (Conversion of Large RDF Data using Hash-based ID Mapping Tables with MapReduce Jobs)

  • 김인아;이규철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.236-239
    • /
    • 2021
  • AI 기술의 성장과 함께 지식 그래프의 크기는 지속적으로 확장되고 있다. 지식 그래프는 주로 트리플이 연결된 RDF로 표현되며, 많은 RDF 저장소들이 RDF 데이터를 압축된 형태의 ID로 변환한다. 그러나 RDF 데이터의 크기가 특정 기준 이상으로 클 경우, 테이블 탐색으로 인한 높은 처리 시간과 메모리 오버헤드가 발생한다. 본 논문에서는 해시 ID 매핑 테이블 기반 RDF 변환을 분산 병렬 프레임워크인 맵리듀스에서 처리하는 방법을 제안한다. 제안한 방법은 RDF 데이터를 정수 기반 ID로 압축 변환하면서, 처리 시간을 단축하고 메모리 오버헤드를 개선한다. 본 논문의 실험 결과, 약 23GB의 LUBM 데이터에 제시한 방법을 적용했을 때, 크기는 약 3.8배 가량 줄어들었으며 약 106초의 변환 시간이 소모되었다.

  • PDF

ECG 신호의 분산처리를 위한 Preprocess Module에 관한 연구 (A Design of the Preprocess Module for the Distributed Process of the ECG signals)

  • 송향봉;이경중;윤형로;이명호
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1987년도 전기.전자공학 학술대회 논문집(II)
    • /
    • pp.1338-1340
    • /
    • 1987
  • This paper describes the design of ECG data preprocess module for the ECG signals. This module process the data obtained from two channels. It is composed of the AID converter, QRS detector, one chip micro-computer and memory. This module performs the following functions;digital filtering, R wave detection and determination of reference point for the ST segment. The measured points are transfered to the next data module by the interrupt process. This preprocessor data module is available to the basis for the parallel data processing for the real time automatic diagnosis.

  • PDF