• Title/Summary/Keyword: Parallel Implementation

검색결과 878건 처리시간 0.146초

그래픽 사용자 인터페이스를 이용한 병렬 프로그래밍 환경 설계 및 구현 (A Design and Implementation of Parallel Programming Environment using Graphical User Interface)

  • 이원용;박두순
    • 한국멀티미디어학회논문지
    • /
    • 제4권6호
    • /
    • pp.579-587
    • /
    • 2001
  • 본 논문은 그래픽 사용자 인터페이스를 이용하여 병렬 프로그래밍 환경을 설계하고 구현하였다. 병렬 프로그램은 다양한 하드웨어의 특성에 따라 또는 프로그램의 특성에 따라 사용자가 병렬 프로그램을 작성하여야 하기 때문에 사용자가 병렬 프로그램을 작성하는 것은 매우 어렵다. 본 논문에서는 이런 문제를 도와주기 위하여 기존의 병렬 컴파일러에서 제공되고 있는 텍스트 위주의 병렬화 정보 대신에 그래픽 사용자 인터페이스를 이용하여 편안하고 쉽게 병렬화 정보를 제공하는 병렬 프로그래밍 환경을 제안하고, 구현하였다. 본 논문의 병렬 프로그래밍 환경은 종속성 분석, CFG, HTG, 루프 병렬화 등의 기능을 제공한다.

  • PDF

샷 경계 탐지 알고리즘의 병렬 설계와 구현 (Parallel Design and Implementation of Shot Boundary Detection Algorithm)

  • 이준구;김승현;유병문;황두성
    • 전자공학회논문지
    • /
    • 제51권2호
    • /
    • pp.76-84
    • /
    • 2014
  • 최근 고화질 영상의 증가와 더불어 대용량 영상 데이터의 처리는 높은 연산이 요구되어 병렬 처리 설계가 선택되고 있다. 영상 처리에서 나타나는 많은 단순 연산이 병렬처리 가능한 경우, CPU 기반 병렬처리보다는 GPU 기반 병렬처리를 적용하는 것이 계산문제의 시간과 공간 계산 복잡도를 줄일 수 있다. 본 논문은 영상에서 샷 경계 탐지 알고리즘의 병렬 설계와 구현을 연구하였다. 제안하는 샷 경계 탐지 알고리즘은 프레임 간 지역 화소 밝기 비교와 전역 히스토그램 정보를 이용하는데, 이들 데이터의 계산은 대량의 데이터에 대한 높은 병렬성을 갖는다. 이들 연산의 병렬처리를 최대화하기 위해 화소 밝기와 히스토그램의 계산을 NVIDIA GPU에서 병렬 설계 하였다. GPU 기반 샷 탐지 방법은 국가기록원에서 선택된 10개의 비디오 데이터에 대한 성능 테스트를 수행하였다. 테스트에서 GPU 기반 알고리즘의 탐지율은 CPU 기반 알고리즘과 유사하였으나 약 10배의 연산 속도가 개선되었다.

Efficient Implementation of a Pseudorandom Sequence Generator for High-Speed Data Communications

  • Hwang, Soo-Yun;Park, Gi-Yoon;Kim, Dae-Ho;Jhang, Kyoung-Son
    • ETRI Journal
    • /
    • 제32권2호
    • /
    • pp.222-229
    • /
    • 2010
  • A conventional pseudorandom sequence generator creates only 1 bit of data per clock cycle. Therefore, it may cause a delay in data communications. In this paper, we propose an efficient implementation method for a pseudorandom sequence generator with parallel outputs. By virtue of the simple matrix multiplications, we derive a well-organized recursive formula and realize a pseudorandom sequence generator with multiple outputs. Experimental results show that, although the total area of the proposed scheme is 3% to 13% larger than that of the existing scheme, our parallel architecture improves the throughput by 2, 4, and 6 times compared with the existing scheme based on a single output. In addition, we apply our approach to a $2{\times}2$ multiple input/multiple output (MIMO) detector targeting the 3rd Generation Partnership Project Long Term Evolution (3GPP LTE) system. Therefore, the throughput of the MIMO detector is significantly enhanced by parallel processing of data communications.

재구성 가능한 다중 프로세서 시스템을 이용한 혼합 영상 보호화기 구현에 관한 연구 (연구 I : H/W구현) (A Study on Hybrid Image Coder Using a Reconfigurable Multiprocessor System (Study I : H/W Implementation))

  • 최상훈;이광기;김제익;윤승철;박규태
    • 전자공학회논문지B
    • /
    • 제30B권10호
    • /
    • pp.1-12
    • /
    • 1993
  • A multiprocessor system for high-speed processing of hybrid image coding algorithms such as H.261, MPEG, or Digital HDTV is presented in this study. Using a combination of highly parallel 32-bit microprocessor, DCT(Discrete Cosine Transform), and motion detection processor, a new processing module is designed for the implementation of high performance coding system. The sysyem is implemented to allow parallel processing since a single module alone cannot perform hybrid coding algorithms at high speed, and crossbar switch is used to realize various parallel processing architectures by altering interconnections between processing modules within the system.

  • PDF

분산표본혼화기의 병렬구현 (Parallel Implementation of Distributed Sample Scrambler)

  • 정헌주;김재형정성현박승철
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 하계종합학술대회논문집
    • /
    • pp.62-65
    • /
    • 1998
  • This paper presents a method and implementation of the parallel distributed sample scrambler(DSS) in the cell-based ATM transmission environment. In the serial processing, it requires very high speed clock because the processing clock of the serial DSS is equal with the data transmission speed. In this paper, we develop a conversion method of the serial SRG(shift register generator) to 8bit parallel realization. In this case, it has a sample data processing problem which is a character of DSS. So, a theory of correction time movement is presented to solve this problem. We has developed a ASIC using this algorithm and verified the recommendation of ITU-T, I.432.

  • PDF

Time Complexity Measurement on CUDA-based GPU Parallel Architecture of Morphology Operation

  • Izmantoko, Yonny S.;Choi, Heung-Kook
    • 한국멀티미디어학회논문지
    • /
    • 제16권4호
    • /
    • pp.444-452
    • /
    • 2013
  • Operation time of a function or procedure is a thing that always needs to be optimized. Parallelizing the operation is the general method to reduce the operation time of the function. One of the most powerful parallelizing methods is using GPU. In image processing field, one of the most commonly used operations is morphology operation. Three types of morphology operations kernel, na$\ddot{i}$ve, global and shared, are presented in this paper. All kernels are made using CUDA and work parallel on GPU. Four morphology operations (erosion, dilation, opening, and closing) using square structuring element are tested on MRI images with different size to measure the speedup of the GPU implementation over CPU implementation. The results show that the speedup of dilation is similar for all kernels. However, on erosion, opening, and closing, shared kernel works faster than other kernels.

다중 컴퓨터 시스템을 이용한 최적화 신경회로망의 최적 병렬구현 (Optimal Parallel Implementation of an Optimization Neural Network by Using a Multicomputer System)

  • 김진호;최흥문
    • 전자공학회논문지B
    • /
    • 제28B권12호
    • /
    • pp.75-82
    • /
    • 1991
  • We proposed an optimal parallel implementation of an optimization neural network with linear increase of speedup by using multicomputer system and presented performance analysis model of the system. We extracted the temporal-and the spatial-parallelism from the optimization neural network and constructed a parallel pipeline processing model using the parallelism in order to achieve the maximum speedup and efficiency on the CSP architecture. The results of the experiments for the TSP using the Transputer system, show that the proposed system gives linear increase of speedup proportional to the size of the optimization neural network for more than 140 neurons, and we can have more than 98% of effeciency upto 16-node system.

  • PDF

MZI를 이용한 전광 직렬-병렬 데이터 형식 변환기 구현과 활용 방안 (Implementation of All-Optical Serial-Parallel Data Converters Using Mach-Zehnder Interferometers and Applications)

  • 이성철
    • 디지털산업정보학회논문지
    • /
    • 제7권2호
    • /
    • pp.59-65
    • /
    • 2011
  • All-optical signal processing is expected to offer advantages in speed and power consumption against over electronics signal processing. It has a potential to solve the bottleneck issues of ultra-high speed communication network nodes. All-optical serial-to-parallel and parallel-to-serial data converters would make it possible to easily process the serial data information of a high-speed optical packet without optical-to-electronic-to-optical data conversion. In this paper, we explain the principle of simple and easily expandable all-optical serial-to-parallel and parallel-to-serial data converters based on Mach-Zehnder interferometers. We experimentally demonstrate these data converters at 10Gbit/s serial data rate. They are useful all-optical devices for the all-optical implementations of label decoding, self-routing, control of variable packets, bit-wise logical operation, and data format conversion.

PARALLEL PERFORMANCE OF MULTISPLITTING METHODS WITH PREWEIGHTING

  • Han, Yu-Du;Yun, Jae-Heon
    • 대한수학회지
    • /
    • 제49권4호
    • /
    • pp.805-827
    • /
    • 2012
  • In this paper, we first study convergence of a special type of multisplitting methods with preweighting, and then we provide some comparison results of those multisplitting methods. Next, we propose both parallel implementation of an SOR-like multisplitting method with preweighting and an application of the SOR-like multisplitting method with preweighting to a parallel preconditioner of Krylov subspace method. Lastly, we provide parallel performance results of both the SOR-like multisplitting method with preweighting and Krylov subspace method with the parallel preconditioner to evaluate parallel efficiency of the proposed methods.

단일 칩 다중 프로세서상에서 운영체제를 사용하지 않은 OpenMP 구현 및 주요 디렉티브 변환 (Implementation and Translation of Major OpenMP Directives for Chip Multiprocessor without using OS)

  • 전우철;하순회
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제34권4호
    • /
    • pp.145-157
    • /
    • 2007
  • 단일 칩 다중 프로세서의 경우 표준화된 병렬 프로그래밍 방법이 없는데 OpenMP를 사용하면 병렬 프로그래밍이 쉬우므로 OpenMP는 단일 칩 다중 프로세서를 위한 매력적인 병렬 프로그래밍 모델이다. 그런데 단일 칩 다중 프로세서 시스템의 구조는 대상 응용 프로그램에 따라 다양할 수 있다. 따라서 각 시스템마다 다른 방식으로 OpenMP를 구현해야 할 필요가 있다. 본 논문에서는 운영체제를 사용하지 않는 단일 칩 다중 프로세서를 위한 OpenMP 구현과 주요 디렉티브의 효과적인 변환을 제안하여 특수한 하드웨어에 의존하지 않고 OpenMP 디렉티브의 추가적인 확장 없이 성능을 향상 시킬 수 있게 한다. 실험은 대상 플랫폼인 CT3400에서 수행하고 그 결과를 제시한다.