• 제목/요약/키워드: parallel decoding

검색결과 152건 처리시간 0.028초

Parallel LDPC Decoding on a Heterogeneous Platform using OpenCL

  • Hong, Jung-Hyun;Park, Joo-Yul;Chung, Ki-Seok
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권6호
    • /
    • pp.2648-2668
    • /
    • 2016
  • Modern mobile devices are equipped with various accelerated processing units to handle computationally intensive applications; therefore, Open Computing Language (OpenCL) has been proposed to fully take advantage of the computational power in heterogeneous systems. This article introduces a parallel software decoder of Low Density Parity Check (LDPC) codes on an embedded heterogeneous platform using an OpenCL framework. The LDPC code is one of the most popular and strongest error correcting codes for mobile communication systems. Each step of LDPC decoding has different parallelization characteristics. In the proposed LDPC decoder, steps suitable for task-level parallelization are executed on the multi-core central processing unit (CPU), and steps suitable for data-level parallelization are processed by the graphics processing unit (GPU). To improve the performance of OpenCL kernels for LDPC decoding operations, explicit thread scheduling, vectorization, and effective data transfer techniques are applied. The proposed LDPC decoder achieves high performance and high power efficiency by using heterogeneous multi-core processors on a unified computing framework.

An Efficient Interpolation Hardware Architecture for HEVC Inter-Prediction Decoding

  • Jin, Xianzhe;Ryoo, Kwangki
    • Journal of information and communication convergence engineering
    • /
    • 제11권2호
    • /
    • pp.118-123
    • /
    • 2013
  • This paper proposes an efficient hardware architecture for high efficiency video coding (HEVC), which is the next generation video compression standard. It adopts several new coding techniques to reduce the bit rate by about 50% compared with the previous one. Unlike the previous H.264/AVC 6-tap interpolation filter, in HEVC, a one-dimensional seven-tap and eight-tap filter is adopted for luma interpolation, but it also increases the complexity and gate area in hardware implementation. In this paper, we propose a parallel architecture to boost the interpolation performance, achieving a luma $4{\times}4$ block interpolation in 2-4 cycles. The proposed architecture contains shared operations reducing the gate count increased due to the parallel architecture. This makes the area efficiency better than the previous design, in the best case, with the performance improved by about 75.15%. It is synthesized with the MagnaChip $0.18{\mu}m$ library and can reach the maximum frequency of 200 MHz.

HEVC 구문요소에 적응적인 파이프라인-병렬 CABAC 복호화기 설계 (A Design of Pipelined-parallel CABAC Decoder Adaptive to HEVC Syntax Elements)

  • 배봉희;공진흥
    • 전자공학회논문지
    • /
    • 제52권5호
    • /
    • pp.155-164
    • /
    • 2015
  • 본 연구에서는 다양한 HEVC 구문요소들을 적응적으로 파이프라인 및 병렬 처리할 수 있는 CABAC 복호화기 아키텍처를 설계 및 구현하였다. CABAC는 높은 압축률을 제공하지만, 구문요소 단위 순차적 복호화와 문맥간 강한 데이터 종속성, 빈 단위 복호화 과정 때문에 고성능 복호화 처리를 어렵게 한다. CABAC의 복호화 처리 성능을 높이기 위하여 연속된 flag 타입의 구문요소에 대해서는 다음에 복호될 구문요소들을 선행 연산하여 적응적으로 파이프라인 처리하였고, 멀티빈으로 구성된 구문요소는 최대 3개 빈까지 병렬 처리하는 고성능 구조를 설계하였다. 또한 이진산술복호기를 가속화하기 위해 문맥모델 업데이트와 재정규화를 선행 병렬 연산하고, 복호화 결과값에 따라 선택해서, 이진산술복호기의 임계 지연시간을 개선하였다. 제안하는 HEVC CABAC 아키텍처는 최대 1.01bins/cycle의 처리 성능으로 기존 구조대비 약 2배의 가속화 성능을 갖는다. 65nm ASIC 합성 결과 224M bins/sec.의 복호화 성능을 보이며, QFHD영상의 실시간 처리를 가능하게 하였다.

비대칭 멀티코어 시스템 상의 HEVC 병렬 디코딩 최적화를 위한 타일 분할 기법 (Tile Partitioning-based HEVC Parallel Decoding Optimization for Asymmetric Multicore Processor)

  • 류영일;노현준;류은석
    • 정보과학회 논문지
    • /
    • 제43권9호
    • /
    • pp.1060-1065
    • /
    • 2016
  • 최근 비디오 시스템은 초고해상도 영상의 사용으로 병렬처리의 필요성이 대두되고 있고, 시스템은 ARM big.LITTLE 같은 비대칭 처리능력을 지닌 컴퓨팅 시스템이 도입되고 있다. 따라서, 이 같은 비대칭 컴퓨팅 환경에 최적화된 초고해상도 UHD 비디오 병렬처리 기법이 필요한 시점이다. 본 논문은 인코딩/디코딩 시에 비대칭 컴퓨팅 환경에 최적화 된 HEVC 타일(Tile) 분할 기법을 제안한다. 제안하는 방식은 (1) 비대칭 CPU 코어들의 처리능력과 (2) 비디오 크기별 연산 복잡도 분석 모델을 분석하여, (3) 각 코어에 최적화된 크기의 타일을 할당함으로써, 처리속도가 빠른 CPU 코어와 느린 코어의 인코딩/디코딩 시간차를 최소화한다. 이를 ARM기반의 비대칭 멀티코어 플랫폼에서 4K UHD 표준 영상을 대상으로 실험하였을 때, 평균 약 20%의 디코딩 시간 개선이 발생함을 확인하였다.

짝·홀 교차 사상을 이용한 Double Flow 기법 기반 병렬 터보 복호기 설계 (A Design of Parallel Turbo Decoder based on Double Flow Method Using Even-Odd Cross Mapping)

  • 좌유철;임종석
    • 전자공학회논문지
    • /
    • 제54권7호
    • /
    • pp.36-46
    • /
    • 2017
  • 오류 정정부호의 일종인 터보 코드는 우수한 BER 성능을 얻기 위하여 동일한 복호 과정을 반복 수행해야 하므로 긴 복호시간을 필요로 한다. 따라서 복호시간을 줄이기 위하여 병렬처리를 이용할 수 있는데, 이 경우, 추가 버퍼를 필요로 하는 메모리 경합이 있을 수 있다. QPP 인터리버는 이러한 메모리 경합을 피하기 위하여 제안되었으나, double flow 복호 기법과 함께 사용하여 복호기를 구성할 경우 여전히 메모리 경합이 발생할 가능성이 있다. 본 논문에서는 double-flow 기법을 이용한 복호에서 메모리 충돌을 피할 수 있는 even-odd cross mapping 기법을 제안한다. 이 방법은 QPP 인터리버의 주소 생성 특성을 사용하며, 복호 모듈과 LLR 메모리 블록 간의 인터리빙 회로 구현에 사용될 수 있다. Double flow 기법과 제안한 방법을 적용하여 복호기를 구현하고, 이를 기존의 MDF 기법에 의한 구현과 비교하였을 때, 전체 면적은 약 8% 증가하지만, 복호시간을 최대 약 32% 줄일 수 있다.

PRML 신호용 저 전력 아날로그 병렬처리 비터비 디코더 개발 (Fabrication of a Low Power Parallel Analog Processing Viterbi Decoder for PRML Signal)

  • 김현정;손홍락;김형석
    • 대한전자공학회논문지SD
    • /
    • 제43권6호
    • /
    • pp.38-46
    • /
    • 2006
  • DVD용 PRML신호를 디코딩할 수 있는 병렬 아날로그 비터비 디코더를 칩으로 제작하고 테스트 결과를 기술하였다. 병렬 아날로그 비터비 디코더는 기존의 디지털 비터비 디코더를 아날로그 병렬처리 회로를 이용하여 구현한 것으로, 전력 소모가 매우 적다는 장점이 있다. 본 연구에서는 제안한 순환형 아날로그 비터비 디코더 회로를 DVD의 PRML 신호 디코딩용으로 설계 제작하였고, 그 상세 설계 내용과 각 회로의 신호 특성을 분석하였으며, 이를 기반으로 향후 개선 사항을 기술하였다. 또한, 칩으로 제작된 회로가 동작하여 PRML용 신호가 잘 디코딩됨을 보였다.

An FPGA Implementation of High-Speed Adaptive Turbo Decoder

  • Kim, Min-Huyk;Jung, Ji-Won;Bae, Jong-Tae;Choi, Seok-Soon;Lee, In-Ki
    • 한국통신학회논문지
    • /
    • 제32권4C호
    • /
    • pp.379-388
    • /
    • 2007
  • In this paper, we propose an adaptive turbo decoding algorithm for high order modulation scheme combined with originally design for a standard rate-1/2 turbo decoder for B/QPSK modulation. A transformation applied to the incoming I-channel and Q-channel symbols allows the use of an off-the-shelf B/QPSK turbo decoder without any modifications. Adaptive turbo decoder process the received symbols recursively to improve the performance. As the number of iterations increase, the execution time and power consumption also increase as well. The source of the latency and power consumption reduction is from the combination of the radix-4, dual-path processing, parallel decoding, and early-stop algorithms. We implemented the proposed scheme on a field-programmable gate array (FPGA) and compared its decoding speed with that of a conventional decoder. From the result of implementation, we confirm that the decoding speed of proposed adaptive decoding is faster than conventional scheme by 6.4 times.

Subsidiary Maximum Likelihood Iterative Decoding Based on Extrinsic Information

  • Yang, Fengfan;Le-Ngoc, Tho
    • Journal of Communications and Networks
    • /
    • 제9권1호
    • /
    • pp.1-10
    • /
    • 2007
  • This paper proposes a multimodal generalized Gaussian distribution (MGGD) to effectively model the varying statistical properties of the extrinsic information. A subsidiary maximum likelihood decoding (MLD) algorithm is subsequently developed to dynamically select the most suitable MGGD parameters to be used in the component maximum a posteriori (MAP) decoders at each decoding iteration to derive the more reliable metrics performance enhancement. Simulation results show that, for a wide range of block lengths, the proposed approach can enhance the overall turbo decoding performance for both parallel and serially concatenated codes in additive white Gaussian noise (AWGN), Rician, and Rayleigh fading channels.

비 압축 블록으로 구성된 제어 헤더 삽입을 통한 압축 해제 호환성 있는 병렬 처리 Deflate 알고리즘 제안 (Proposal for Decoding-Compatible Parallel Deflate Algorithm by Inserting Control Header Composed of Non-Compressed Blocks)

  • 김정훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권5호
    • /
    • pp.207-216
    • /
    • 2023
  • 본 연구에서는 압축 해제 호환성을 갖춘 병렬 처리 Deflate 압축 알고리즘을 구현하기 위하여 병렬 압축 및 압축 해제에 필수적인 정보를 복수의 비 압축 블록(Non-Compression Block)내의 버려지는 영역(Disposed Bit Area)에 저장하는 방식으로 구성한 컨트롤 헤더를 삽입하는 새로운 방식을 제안하였다. 이를 통해 기존 압축 해제 프로그램과 완벽한 호환성을 유지하면서도 병렬 압축 및 병렬 압축 해제가 가능하도록 하였다. 또한 순차 처리방식 대비 압축 시간을 최대 71.2% 절감하였고 병렬 압축해제 시간을 65.7%까지 절감하였다. 특히 Deflate 알고리즘의 구조적 제약으로 인해 병렬 압축 해제는 불가능하다고 알려져 있으나, 제안하는 방식을 탑재한 디코더로 알고리즘 수준에서 고속의 병렬 압축 해제가 가능하고, 호환성을 유지하여 동일한 압축 데이터를 기존의 압축 해제 프로그램으로도 정상적 압축 해제가 가능함을 확인하였다.

The Construction and Viterbi Decoding of New (2k, k, l) Convolutional Codes

  • Peng, Wanquan;Zhang, Chengchang
    • Journal of Information Processing Systems
    • /
    • 제10권1호
    • /
    • pp.69-80
    • /
    • 2014
  • The free distance of (n, k, l) convolutional codes has some connection with the memory length, which depends on not only l but also on k. To efficiently obtain a large memory length, we have constructed a new class of (2k, k, l) convolutional codes by (2k, k) block codes and (2, 1, l) convolutional codes, and its encoder and generation function are also given in this paper. With the help of some matrix modules, we designed a single structure Viterbi decoder with a parallel capability, obtained a unified and efficient decoding model for (2k, k, l) convolutional codes, and then give a description of the decoding process in detail. By observing the survivor path memory in a matrix viewer, and testing the role of the max module, we implemented a simulation with (2k, k, l) convolutional codes. The results show that many of them are better than conventional (2, 1, l) convolutional codes.