• Title/Summary/Keyword: 병렬화

Search Result 1,284, Processing Time 0.029 seconds

Performance Analysis of HEVC Decoder Parallelization based on Slice and Tile for Ultra-High Definition Video (초고해상도 비디오를 위한 분할 영상 기반 HEVC 복호화기 병렬화)

  • Son, SoHee;Baek, A-Ram;Choi, Haechul
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2016.06a
    • /
    • pp.359-360
    • /
    • 2016
  • 본 논문에서는 초고화질의 비디오 실시간 복호화를 위해 HEVC(High Efficiency Video Coding)에서 지원하는 병렬화 기술인 Slice와 Tile 기술을 이용하여 초고해상도 영상에 대한 복호화기 병렬화 성능을 비교한다. Slice와 Tile은 분할 데이터간 의존성이 존재하지 않으므로 분할된 데이터를 다중 스레드에 할당하여 데이터-레벨 병렬화를 수행하였다. 실험 결과에서는 병렬화된 복호화기 성능이 기존 순차 복호화기에 비해 최대 2.08배 고속화 되었고, 분할 데이터 수가 증가하여도 화질 손실이 거의 없는 결과를 보인다.

  • PDF

Efficient parallelization implementation technique of PU-level ME for fast HEVC encoding (고속 HEVC 부호화를 위한 효율적인 PU 레벨 움직임예측 병렬화 구현 기법)

  • Park, Soobin;Choi, Kiho;Park, Sanghyo;Jang, Eueeseon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2012.11a
    • /
    • pp.163-166
    • /
    • 2012
  • 본 논문에서는 차세대 비디오 표준인 High Efficiency Video Coding(HEVC)의 영상 부호화 과정의 시간복잡도 감소를 위한 효율적인 Prediction Unit(PU)레벨 움직임예측(Motion Estimation, ME) 병렬화의 구현 기법을 제시하고자 한다. 움직임예측 과정은 부호화기에서 80%의 복잡도를 차지하는 과정으로 고속 부호화의 걸림돌이 되고 있다. 이를 해결하기 위한 방법으로 제안된 것이 움직임예측 알고리즘의 병렬화이다. 알고리즘 수준에서 ME 의 일부인 Merge Estimation 의 병렬화를 위해서 Merge Estimation Region (MER)기반의 ME 방법이 제안되었다. 하지만 HEVC Test Model reference software(HM)에 반영된 MER 을 이용하여 실제로 병렬화된 ME 를 구현하는 과정에서는 알고리즘 측면에서 아직 고려되지 않은 문제들이 존재한다. 이에 본 논문에서는 MER 을 사용한 안정적인 병렬 ME 를 구현하기 위한 전략으로 각 PU 의 정보를 독립적으로 사용하기 위한 부분 순차화 방법과 메모리 접근제한을 이용한 병렬화 방법을 제시한다. 실험을 통해 본 연구의 우수성이 확인되었는데, 제안된 방법에 기반을 둔 구현에서 순차적인 ME 를 이용한 부호화기 대비 평균 25.64%의 전체 부호화 과정 시간의 감소가 나타났다.

  • PDF

Parallelized PI($\pi$) Calculation Algorithm using MPI (MPI를 활용한 PI($\pi$)값 계산 병렬화 알고리즘)

  • Choi, Min;Maeng, Seung-Ryoul
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04a
    • /
    • pp.91-93
    • /
    • 2004
  • 정확한 $\pi$값의 계산은 자연과학의 여러 분야에 도움을 준다 이와 같이 $\pi$값을 계산하는 여러 가지 방법이 제안되어 있으며 널리 사용되고 있으나, 본 논문에서는 MPI 라이브러리를 활용한 $\pi$값 계산의 병렬화 알고리즘을 소개한다. tan$^{-1}$($\chi$)의 정의를 이용하는 $\pi$값 계산 방법은 다항식의 계산과정에서 각 항(term)들의 종속성으로 인하여 병렬화 수행이 힘든 단점이 있다. 본 논문에서는 tan$^{-1}$($\chi$)를 맥클로린 수열(Maclaurin Series)을 통하여 다항함수로 표현하고, 병렬화 수행에 적합한 적분형태로 변형한다. 따라서. MPI 환경에서 수행하기 적합한 $\pi$값 계산의 병렬화 알고리즘을 제안하고 8노드 클러스터 환경에서 성능을 비교해본다. 또한, 직렬화된 방법에 대한 성능향상(speedup)을 측정한다.

  • PDF

Integrated Parallelization of Video Decoding on Multi-core Systems (멀티코어 시스템에서의 통합된 비디오 디코딩 병렬화)

  • Hong, Jung-Hyun;Kim, Won-Jin;Chung, Ki-Seok
    • Journal of the Institute of Electronics Engineers of Korea SD
    • /
    • v.49 no.7
    • /
    • pp.39-49
    • /
    • 2012
  • Demand for high resolution video services leads to active studies on high speed video processing. Especially, widespread deployment of multi-core systems accelerates researches on high resolution video processing based on parallelization of multimedia software. Previously proposed parallelization approach could improve the decoding performance. However, some parallelization methods did not consider the entropy decoding and others considered only a partial decoding parallelization. Therefore, we consider parallel entropy decoding integrated with other parallel video decoding process on a multi-core system. We propose a novel parallel decoding method called Integrated Parallelization. We propose a method on how to optimize the parallelization of video decoding when we have a multi-core system with many cores. We parallelized the KTA 2.7 decoder with the proposed technique on an Intel i7 Quad-Core platform with Intel Hyper-Threading technology and multi-threads scheduling. We achieved up to 70% performance improvement using IP method.

Backend of a Parallelizing Compiler for an Heterogeneous Parallel System (이기종 병렬 시스템을 위한 자동적 병렬화 컴파일러 후위)

  • Kwon, Dae-Suk;Kim, Hsung-Hwan;Han, Sang-Yong
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.27 no.8
    • /
    • pp.710-718
    • /
    • 2000
  • Many multiprocessing systems have been developed to exploit the parallelism and to improve the performance. However, the naive multiprocessing schemes were not successful as many researchers thought, due to the heavy cost of communication and synchronization resulting from parallelization. In this paper, we will identify the reasons for the poor performance and the compiler requirements for the performance improvement. We realized that the decisions for multiprocessing should be derived by the overhead information. We applied this idea to the automatic parallelizing compiler, SUIF. We substituted the original backend of SUIF with our backend using MPI, and gave it the capability to validate parallelization decisions based on overhead parameters. This backend converts the intermediate code containing spacification of parallelizable regions into the distributed-memory based parallel program with MPI function calls without excessive parallelization that may cause performance degradation.

  • PDF

A Two-Phase Parallel Genetic Algorithm (2-단계 병렬 유전자 알고리즘)

  • 길원배;이승구
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.40-42
    • /
    • 2003
  • 본 논문에서는 유전자 알고리즘(Genetic Algorithm: GA)의 새로운 병렬화 방법을 제안 하고 있다. 기존의 병렬 유전자 알고리즘(Parallel Genetic Algorithm: PGA)은 전체 개체집단을 부개체집단 (Subpopulation)으로 나누어 해의 가능 영역을 동시에 탐색하는 것이 일반적인 방법인데 반해. 본 논문에서 제안하는 병렬화 방법은 전체 해의 영역을 나누어 각각의 영역에서 독립된 개체집단들이 서로 다른 영역을 탐색하게 하는 방법이다. 이 방법은 두 가지 단계의 병렬 유전자 알고리즘으로 구성된다. 먼저 적응교배 연산자(Adaptive Crossover Operator: ACO)를 이용한 PGA를 통해 지역해에 인접한 범위들로 해의 영역을 나누고, 이렇게 나누어진 각각의 영역들에서 다시 병렬로 GA를 적용시켜 자세하게 탐색하는 방법이다. 첫 번째 수행되는 PGA 단계에서는 탐색 시간을 줄이고 두 번째 PGA 단계에서는 보다 자세한 탐색을 하기 위해 정밀도(Precision)의 조정을 유전자 알고리즘의 병렬화에 적용하였으며. 이를 통해 빠르고 자세한 탐색이 가능한 유전자 알고리즘의 병렬화 방법을 제안하고 있다.

  • PDF

Deterministic Parallelism for Symbolic Execution Programs based on a Name-Freshness Monad Library

  • Ahn, Ki Yung
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.2
    • /
    • pp.1-9
    • /
    • 2021
  • In this paper, we extend a generic library framework based on the state monad to exploit deterministic parallelism in a purely functional language Haskell and provide benchmarks for the extended features on a multicore machine. Although purely functional programs are known to be well-suited to exploit parallelism, unintended squential data dependencies could prohibit effective parallelism. Symbolic execution programs usually implement fresh name generation in order to prevent confusion between variables in different scope with the same name. Such implementations are often based on squential state management, working against parallelism. We provide reusable primitives to help developing parallel symbolic execution programs with unbound-genercis, a generic name-binding library for Haskell, avoiding sequential dependencies in fresh name generation. Our parallel extension does not modify the internal implementation of the unbound-generics library, having zero possibility of degrading existing serial implementations of symbolic execution based on unbound-genecrics. Therefore, our extension can be applied only to the parts of source code that need parallel speedup.

A Parallelization of Motion Estimation in MPEG (MPEG 상에서의 움직임 벡터 추출 병렬화)

  • 이양수;성순용;김영호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10a
    • /
    • pp.774-776
    • /
    • 1998
  • 영상 압축의 표준인 MPEG은 대표적 비대칭 코딩방법으로 인코딩 시간이 디코딩 시간보다 훨씬 많은 시간을 소비한다. MPEG인코딩 과정은 크게 DCT, 양자화, 움직임 벡터 추출, 가변장 부호화로 구성된다. 이중에서 DCT와 움직임 벡터 추출 정도가 많은 계산량을 가지므로 병렬화의 관심이 되고 있다. 본 논문에서는 움직임 벡터의 추출에 관해서 병렬화하는 기법을 제시한다 병렬화의 단위는 fine-grained이며, 통신 오버헤드를 보다 줄일 수 있는 기법을 제시하였다. 최소한의 초기 데이터 할당으로 계산을 시작하여, 계산을 위한 초기화 과정을 줄여 속도를 증대시킨다. 통신비용 즉, 메시지 전달 수 및 메시지 전달 홉(hop) 수를 비교하고, 기존의 기법에 대해 한 프레임에 대한 움직임 벡터 추출 시간을 요소로 할 때 보다나은 결과를 나타냄을 보였다.

  • PDF

Design and Implementation of Parallelized Linked List Class Library using Pthread Library (Pthread 라이브러리를 이용한 Linked List 병렬화 클래스 라이브러리의 설계 및 구현)

  • 김홍숙;한동수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10c
    • /
    • pp.780-782
    • /
    • 1999
  • 병렬 프로세서 시스템이 제고하는 하드웨어적인 장점을 이용하기 위해서는 병렬 프로그래밍을 통한 애플리케이션의 병렬화가 필요하다. 기존의 순차적 코드의 경우에 자동 병렬화 컴파일러 기법을 통하여 병렬 프로세서시스템이 제공하는 성능을 극대화하고 있다. 그러나 자동병렬화는 과학 기술 계산용 코드와 같은 정형성을 지닌 코드에서는 유용하지만 비즈니스 응용에서 사용되는 동적인 자료구조를 사용하는 코드에서는 포인터에 의한 별명과 이에 따른 의존성 분석에 어려움으로 인해 많이 응용되고 있지는 못하다. 본 논문은 병렬 프로세서 시스템이 제공하는 기능을 이용하기 위한 한 방법으로 비즈니스 응용에서 많이 사용되는 동적인 자료 구조 중 linked list 클래스 라이브러리의 설계와 구현에 대하여 기술한다.

  • PDF

Data Level Parallelism for H.264/AVC Decoder on a Multi-Core Processor and Performance Analysis (멀티코어 프로세서에서의 H.264/AVC 디코더를 위한 데이터 레벨 병렬화 성능 예측 및 분석)

  • Cho, Han-Wook;Jo, Song-Hyun;Song, Yong-Ho
    • Journal of the Institute of Electronics Engineers of Korea SD
    • /
    • v.46 no.8
    • /
    • pp.102-116
    • /
    • 2009
  • There have been lots of researches for H.264/AVC performance enhancement on a multi-core processor. The enhancement has been performed through parallelization methods. Parallelization methods can be classified into a task-level parallelization method and a data level parallelization method. A task-level parallelization method for H.264/AVC decoder is implemented by dividing H.264/AVC decoder algorithms into pipeline stages. However, it is not suitable for complex and large bitstreams due to poor load-balancing. Considering load-balancing and performance scalability, we propose a horizontal data level parallelization method for H.264/AVC decoder in such a way that threads are assigned to macroblock lines. We develop a mathematical performance expectation model for the proposed parallelization methods. For evaluation of the mathematical performance expectation, we measured the performance with JM 13.2 reference software on ARM11 MPCore Evaluation Board. The cycle-accurate measurement with SoCDesigner Co-verification Environment showed that expected performance and performance scalability of the proposed parallelization method was accurate in relatively high level