• Title/Summary/Keyword: 병렬 구현

Search Result 1,474, Processing Time 0.027 seconds

Implementation and Optimization of Distributed Deep learning based on Multi Layer Neural Network for Mobile Big Data at Apache Spark (아파치 스파크에서 모바일 빅 데이터에 대한 다계층 인공신경망 기반 분산 딥러닝 구현 및 최적화)

  • Myung, Rohyoung;Ahn, Beomjin;Yu, Heonchang
    • Proceedings of The KACE
    • /
    • 2017.08a
    • /
    • pp.201-204
    • /
    • 2017
  • 빅 데이터의 시대가 도래하면서 이전보다 데이터로부터 유의미한 정보를 추출하는 것에 대한 연구가 활발하게 진행되고 있다. 딥러닝은 텍스트, 이미지, 동영상 등 다양한 데이터에 대한 학습을 가능하게 할 뿐만 아니라 높은 학습 정확도를 보임으로써 차세대 머선러닝 기술로 각광 받고 있다. 그러나 딥러닝은 일반적으로 학습해야하는 데이터가 많을 뿐만 아니라 학습에 요구되는 시간이 매우 길다. 또한 데이터의 전처리 수준과 학습 모델 튜닝에 의해 학습정확도가 크게 영향을 받기 때문에 활용이 어렵다. 딥러닝에서 학습에 요구되는 데이터의 양과 연산량이 많아지면서 분산 처리 프레임워크 기반 분산 학습을 통해 학습 정확도는 유지하면서 학습시간을 단축시키는 사례가 많아지고 있다. 본 연구에서는 범용 분산 처리 프레임워크인 아파치 스파크에서 데이터 병렬화 기반 분산 학습 모델을 활용하여 모바일 빅 데이터 분석을 위한 딥러닝을 구현한다. 딥러닝을 구현할 때 분산학습을 통해 학습 속도를 높이면서도 학습 정확도를 높이기 위한 모델 튜닝 방법을 연구한다. 또한 스파크의 분산 병렬처리 효율을 최대한 끌어올리기 위해 파티션 병렬 최적화 기법을 적용하여 딥러닝의 학습속도를 향상시킨다.

  • PDF

Implementation of Scheduling Strategies on PC Clusters (PC 클러스터에서 스케줄링 기법의 구현)

  • Kang Oh-Han;Song Hee-Heon;Chung Joong-Soo
    • The KIPS Transactions:PartA
    • /
    • v.11A no.7 s.91
    • /
    • pp.521-528
    • /
    • 2004
  • In this-paper, we propose a new task scheduling scheme for bus-based cluster architectures and analyze performance of the scheduling scheme which has been implemented in a PC cluster. The implemented scheme schedules the tasks of a task graph to the processors of a PC cluster, and it reduces parallel execution time by selectively duplicating critical tasks using heuristic. Experimental results show that the proposed scheduling scheme produces better parallel execution time than the other scheduling scheme.

Implementation of Parallel Cyclic Redundancy Check Code Encoder and Syndrome Calculator (병렬 CRC코드 생성기 및 Syndrome 계산기의 구현)

  • 김영섭;최송인;박홍식;김재균
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.18 no.1
    • /
    • pp.83-91
    • /
    • 1993
  • In the digital transmission system, cyclic redundancy check(CRC) code is widely used because it is easy to be implemented and has good performance in error detection. CRC code generator consists of several shift registers and modulo 2 adders. After manipulation of input data stream in the encoder, the remaining value of shift registers becomes CRC code. At the receiving side, error can be detected and corrected by CRC codes immediately transmitted after data stream. But, in the high speed system such as an A TM switch, it is difficult to implement the serial CRC encoder because of speed limitation of available semiconductor devices. In this paper, we propose the efficient parallel CRC encoder and syndrome calculator to solve the speed problem in implementing these functions using the existing semiconductor technology.

  • PDF

Implementation of augmented reality using parallel structure (병렬구조를 이용한 증강현실 구현)

  • Park, Tae-Ryong;Heo, Hoon;Kwak, Jae-Chang
    • Journal of IKEEE
    • /
    • v.17 no.3
    • /
    • pp.371-377
    • /
    • 2013
  • This thesis propose an efficient parallel structure method for implementing a FAST and BRIEF algorithm based Augmented Reality. SURF algorithm that is well known in the object recognition algorithms is robust in object recognition. However, there is a disadvantage for real time operation because, SURF implementation requires a lot of computation. Therefore, we used a FAST and BRIEF algorithm for object recognition, and we improved Conventional Parallel Structure based on OpenMP Library. As a result, it achieves a 70%~100% improvement in execution time on the embedded system.

An Unequal Divider based on Transmission Line with Periodic Capacitor Shunt Connection (캐패시터가 주기적으로 병렬 연결된 전송선로를 이용한 비대칭 분배기)

  • Kim, Young;Yoon, Young-Chul
    • Journal of Advanced Navigation Technology
    • /
    • v.16 no.5
    • /
    • pp.781-786
    • /
    • 2012
  • In this paper, we propose the design and performance of an unequal divider using transmission line with periodic capacitor shunt connection. To design divider with a high dividing ratio, we limit a high impedance line value to fabricate microstrip line and also, design a low impedance line of below $10{\Omega}$ using periodic capacitor shunt connection. As a design example, a 10:1 ratio divider was designed and measured at center frequency 1 GHz to show the validity of the unequal divider using periodic capacitor shunt connection. Its performance is in good agreements with the simulated results.

Multiview Stereo Matching on Mobile Devices Using Parallel Processing on Embedded GPU (임베디드 GPU에서의 병렬처리를 이용한 모바일 기기에서의 다중뷰 스테레오 정합)

  • Jeon, Yun Bae;Park, In Kyu
    • Journal of Broadcast Engineering
    • /
    • v.24 no.6
    • /
    • pp.1064-1071
    • /
    • 2019
  • Multiview stereo matching algorithm is used to reconstruct 3D shape from a set of 2D images. Conventional multiview stereo algorithms have been implemented on high-performance hardware due to the heavy complexity that contains a large number of calculations in each step. However, as the performance of mobile graphics processors has recently increased rapidly, complex computer vision algorithms can now be implemented on mobile devices like a smartphone and an embedded board. In this paper we parallelize an multiview stereo algorithm using OpenCL on mobile GPU and provide various optimization techniques on the embedded hardware with limited resource.

A Parallel Implementation of the Order-Preserving Multiple Pattern Matching Algorithm using Fingerprints of Texts (텍스트의 핑거프린트를 이용한 순위다중패턴매칭 알고리즘 병렬 구현)

  • Park, Somin;Kim, Youngho;Sim, Jeong Seop
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.57-60
    • /
    • 2020
  • 순위다중패턴매칭문제는 길이가 n인 텍스트 T와 패턴들의 집합 P' = {P1,P2…,Pk}가 주어졌을 때, P'에 속하는 패턴들과 상대적인 순위가 일치하는 T의 모든 부분문자열들의 위치를 찾는 문제이다. P'에서 가장 짧은 패턴의 길이가 m, 가장 긴 패턴의 길이를 $\bar{m}$, 모든 패턴들의 길이의 합을 M, q개의 연속된 문자들을 q-그램이라 할 때, 기존에 텍스트의 핑거프린트를 이용하여 순위다중패턴매칭문제를 $O(q!+nqlogq+Mlog\bar{m}+nM)$ 시간에 해결하는 알고리즘이 제시되었다. 본 논문에서는 텍스트의 핑거프린트를 활용하여 O(max(q!,M,n))개의 스레드를 이용하여 순위다중패턴매칭문제를 평균적으로 $O(\bar{m}+qlogq+n/q!)$ 시간에 해결하는 병렬 구현 방법을 제시한다. 실험 결과, n = 1,000,000, k = 1,000, m = 5, q = 3일 때, 본 논문에서 제시하는 병렬 구현 방법은 기존의 순차 알고리즘보다 약 19.8배 빠르게 수행되었다.

Parallel Implementation and Performance Evaluation of the SIFT Algorithm Using a Many-Core Processor (매니코어 프로세서를 이용한 SIFT 알고리즘 병렬구현 및 성능분석)

  • Kim, Jae-Young;Son, Dong-Koo;Kim, Jong-Myon;Jun, Heesung
    • Journal of the Korea Society of Computer and Information
    • /
    • v.18 no.9
    • /
    • pp.1-10
    • /
    • 2013
  • In this paper, we implement the SIFT(Scale-Invariant Feature Transform) algorithm for feature point extraction using a many-core processor, and analyze the performance, area efficiency, and system area efficiency of the many-core processor. In addition, we demonstrate the potential of the proposed many-core processor by comparing the performance of the many-core processor with that of high-performance CPU and GPU(Graphics Processing Unit). Experimental results indicate that the accuracy result of the SIFT algorithm using the many-core processor was same as that of OpenCV. In addition, the many-core processor outperforms CPU and GPU in terms of execution time. Moreover, this paper proposed an optimal model of the SIFT algorithm on the many-core processor by analyzing energy efficiency and area efficiency for different octave sizes.

Fault-Tolerant Parallel Applications in Java Message Passing Systems (자바 메시지 전달 시스템에서의 결함 포용 병렬 애플리케이션)

  • 안진호;김기범;김정훈;황종선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10a
    • /
    • pp.768-770
    • /
    • 1998
  • 동기적 검사점(synchronous checkpoiting)기법, 인과적 메시지 로깅(causal message logging)과 향상된 회복 비동기성(improved asynchronism during recovery)을 제공하는 복귀회복(rollback recovery) 기법을 적용하여 자바 메시지 전달 시스템(java massage passing system)에서 수행하는 병렬 에플리케이션들에게 저 비용의 결함 포용성에 따라, 통신망으로 연결된 이질형 (fault-tolerance)(heterogeneous) 컴퓨터들을 이용하는 대규모 분산 시스템들은 아주 효율적인 병렬 컴퓨팅 환경을 제공해준다. 그러나, 이러한 분산 시스템들의 규모가 커짐에 따라 고장률 (failure rate)도 그 만큼 중요하게 된다. 따라서, 고장률이 높은 대규모 분산 시스템들에게 좀더 효율적인 결함 포용성을 제공하는 기법들이 필요하다. 또한, 대규모분산 시스템들은 이질형 컴퓨터들로 구성되어 있기 때문에, 결함 포용성을 제공하는 소프트웨어 패키지들은 플랫폼 독립적(platform independent)이어야 한다. 이러한 문제점은 높은 이식성(portability)을 가지고 있는 자바 언어로 구현함으로써 해결될 수 있다. 따라서, 본 논문은 자바 메시지 전달 시스템에서 수행되는 병렬 애플리케이션들에게 동기적 검사점 기법, 인과적 메시지 로깅과 향상된 비동기성을 제공하는 복귀회복 기법을 높은 이식성을 가진 자바언어로 구현하여 저 비용으로 결함 포용성을 제공하고자 한다.

  • PDF

Parallel-Addition Convolution Algorithm in Grayscale Image (그레이스케일 영상의 병렬가산 컨볼루션 알고리즘)

  • Choi, Jong-Ho
    • The Journal of Korea Institute of Information, Electronics, and Communication Technology
    • /
    • v.10 no.4
    • /
    • pp.288-294
    • /
    • 2017
  • Recently, deep learning using convolutional neural network (CNN) has been extensively studied in image recognition. Convolution consists of addition and multiplication. Multiplication is computationally expensive in hardware implementation, relative to addition. It is also important factor limiting a chip design in an embedded deep learning system. In this paper, I propose a parallel-addition processing algorithm that converts grayscale images to the superposition of binary images and performs convolution only with addition. It is confirmed that the convolution can be performed by a parallel-addition method capable of reducing the processing time in experiment for verifying the availability of proposed algorithm.