• 제목/요약/키워드: Fully-parallel architecture

검색결과 32건 처리시간 0.02초

1.4 Gbps 비이진 LDPC 코드 복호기를 위한 Fully-Parallel 아키텍처 (Fully-Parallel Architecture for 1.4 Gbps Non-Binary LDPC Codes Decoder)

  • 최인준;김지훈
    • 전자공학회논문지
    • /
    • 제53권4호
    • /
    • pp.48-58
    • /
    • 2016
  • 본 논문은 GF(64) (160,80) 정규 (2,4) 비이진 LDPC 코드 복호기를 위한 높은 처리량의 병렬 아키텍처를 제안한다. 복호기의 복잡도를 낮추기 위해 체크 노드와 변수 노드의 차수가 작은 코드를 사용하며 뛰어난 에러 정정 성능을 위해 높은 위수의 유한체에서 정의된 코드를 사용한다. 본 논문은 Fully-parallel 아키텍처를 설계하고 체크 노드와 변수 노드를 interleaving하여 복호기의 데이터 처리량을 향상시켰다. 또한 체크 노드의 초기화 지연을 단축시킬 수 있는 조기 분류 기법을 제안하여 데이터 처리량을 추가로 향상시켰다. 제안된 복호기는 1 iteration에 37사이클이 소요되며 625MHz 동작주파수에서 1402Mbps의 데이터 처리량을 갖는다.

Design and Implementation of 256-Point Radix-4 100 Gbit/s FFT Algorithm into FPGA for High-Speed Applications

  • Polat, Gokhan;Ozturk, Sitki;Yakut, Mehmet
    • ETRI Journal
    • /
    • 제37권4호
    • /
    • pp.667-676
    • /
    • 2015
  • The third-party FFT IP cores available in today's markets do not provide the desired speed demands for optical communication. This study deals with the design and implementation of a 256-point Radix-4 100 Gbit/s FFT, where computational steps are reconsidered and optimized for high-speed applications, such as radar and fiber optics. Alternative methods for FFT implementation are investigated and Radix-4 is decided to be the optimal solution for our fully parallel FPGA application. The algorithms that we will implement during the development phase are to be tested on a Xilinx Virtex-6 FPGA platform. The proposed FFT core has a fully parallel architecture with a latency of nine clocks, and the target clock rate is 312.5 MHz.

Numerical discrepancy between serial and MPI parallel computations

  • Lee, Sang Bong
    • International Journal of Naval Architecture and Ocean Engineering
    • /
    • 제8권5호
    • /
    • pp.434-441
    • /
    • 2016
  • Numerical simulations of 1D Burgers equation and 2D sloshing problem were carried out to study numerical discrepancy between serial and parallel computations. The numerical domain was decomposed into 2 and 4 subdomains for parallel computations with message passing interface. The numerical solution of Burgers equation disclosed that fully explicit boundary conditions used on subdomains of parallel computation was responsible for the numerical discrepancy of transient solution between serial and parallel computations. Two dimensional sloshing problems in a rectangular domain were solved using OpenFOAM. After a lapse of initial transient time sloshing patterns of water were significantly different in serial and parallel computations although the same numerical conditions were given. Based on the histograms of pressure measured at two points near the wall the statistical characteristics of numerical solution was not affected by the number of subdomains as much as the transient solution was dependent on the number of subdomains.

완전 비트 순차 구조에 근거한 2차원 DCT/IDCT VLSI 구현 (Implementation of 2-D DCT/IDCT VLSI based on Fully Bit-Serial Architecture)

  • 임호근;류근장;권용무;김형곤
    • 전자공학회논문지A
    • /
    • 제31A권6호
    • /
    • pp.188-198
    • /
    • 1994
  • The distributed arithmetic approach has been commonly recognized as an efficient method to implement the inner-product type of computation with fixed coefficients such as DCT/IDCT. This paper presents a novel architecture and the implementation of 2-D DCT/IDCT VLSI chip based on distributed arithmetic. The main feature of the proposed architecture is a fully 2-bit serial pipeline and parallel structure with memory-based signal processing circuitry, which is efficient to the implementation of the bit-serial operation of distributed arithmetic. All modules of the proposed architecture are designed with NP-dynamic circuitry to reduce the power consumption and to increase the performance. This chip is applicable in HDTV systems working at video sampling rate up to 75 MHz.

  • PDF

긴 극 부호를 위한 저 면적 부분 병렬 극 부호 부호기 설계 (Area-Efficient Semi-Parallel Encoding Structure for Long Polar Codes)

  • 신예린;최소연;유호영
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1288-1294
    • /
    • 2019
  • Polar code의 채널용량 달성 특성은 polar code를 각광 받는 오류 정정 부호로 만들었다. 하지만 충분한 오류 정정 성능은 부호의 길이가 길어졌을 때 달성되는 점근적 속성을 보인다. 따라서 입력 데이터가 길어지는 경우에 대한 초대규모 집적회로 구현을 실현하기 위하여 효율적인 구조가 필요하게 되었다. 기존의 polar code 부호기 구조 중 가장 기본적인 완전 병렬 구조는 직관적이고 구현이 쉽지만 긴 polar code에 높은 하드웨어 복잡성을 보이므로 부적합하다. 그리고 이를 보완하여 제안된 부분 병렬 구조는 하드웨어 면적 측면에서 큰 성과를 얻었으나 그 방식이 일반화되어 있지 않아 설계자에 따라 구조에 변동이 발생할 수 있다. 본 논문에서는 이를 개선하고자 비트 차원의 치환을 위해 제안된 회로 설계법을 polar code에 적용하는 하드웨어 설계법을 제안한다. 제안하는 방법을 polar code의 부호기에 적용함으로써 완전 병렬 부호기만큼 직관적인 구조를 가짐과 동시에 일반화된 polar code 부분 병렬 부호기를 설계할 수 있다.

영상처리를 위한 Pipelined 병렬처리 시스템 (Pipelined Parallel Processing System for Image Processing)

  • 이형;김종배;최성혁;박종원
    • 전기전자학회논문지
    • /
    • 제4권2호
    • /
    • pp.212-224
    • /
    • 2000
  • 본 논문에서는 영상 응용프로그램의 처리 속도를 향상하기 위한 병렬처리 시스템을 제안한다. 병렬처리 시스템은 Pipelined SIMD 구조를 갖고 있으며, 다수개의 처리기와 다중접근 기억장치로 구성된다. 다중접근 기억장치는 메모리 모듈들과 메모리 제어부로 구성되며, 메모리 제어부는 메모리 모듈 선택 모듈, 데이터 라우팅 모듈, 그리고 주소 계산 및 라우팅 모듈로 구성되어 있으며, 블록, 행, 그리고 열 내의 데이터를 동시에 접근할 수 있는 기능을 제공한다. 제안한 병렬처리 시스템을 검증하기 위해서 형태학적 필터를 적용하여 기능 검증 및 처리속도를 확인하였다.

  • PDF

Novel Parallel Approach for SIFT Algorithm Implementation

  • Le, Tran Su;Lee, Jong-Soo
    • Journal of information and communication convergence engineering
    • /
    • 제11권4호
    • /
    • pp.298-306
    • /
    • 2013
  • The scale invariant feature transform (SIFT) is an effective algorithm used in object recognition, panorama stitching, and image matching. However, due to its complexity, real-time processing is difficult to achieve with current software approaches. The increasing availability of parallel computers makes parallelizing these tasks an attractive approach. This paper proposes a novel parallel approach for SIFT algorithm implementation using a block filtering technique in a Gaussian convolution process on the SIMD Pixel Processor. This implementation fully exposes the available parallelism of the SIFT algorithm process and exploits the processing and input/output capabilities of the processor, which results in a system that can perform real-time image and video compression. We apply this implementation to images and measure the effectiveness of such an approach. Experimental simulation results indicate that the proposed method is capable of real-time applications, and the result of our parallel approach is outstanding in terms of the processing performance.

IP기반 H.264 디코더 설계를 위한 동기식 비선형 및 병렬화 파이프라인 설계 (A design of synchronous nonlinear and parallel for pipeline stage on IP-based H.264 decoder implementation)

  • 고병수;공진흥
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2008년도 하계종합학술대회
    • /
    • pp.409-410
    • /
    • 2008
  • This paper presents nonlinear and parallel design for synchronous pipelining in IP-based H.264 decoder implementation. Since H.264 decoder includes the dataflow of feedback loop, the data dependency requires one NOP stage per pipelining latency to drop the throughput into 1/2. Further, it is found that, in execution time, the stage scheduled for MC is more occupied than that for CAVLD/ITQ/DF. The less efficient stage would be improved by nonlinear scheduling, while the fully-utilized stage could be accelerated by parallel scheduling of IP. The optimization yields 3 nonlinear {CAVLD&ITQ}|3 parallel (MC/IP&Rec.)| 3 nonlinear {DF} pipelined architecture for IP-based H.264 decoder. In experiments, the nonlinear and parallel pipelined H.264 decoder, including existing IPs, could deal with full HD video at 41.86MHz, in real time processing.

  • PDF

파이프라인 재귀적인 기술을 이용한 면적 효율적인 Reed-Solomon 복호기의 설계 (Design of an Area-Efficient Reed-Solomon Decoder using Pipelined Recursive Technique)

  • 이한호
    • 대한전자공학회논문지SD
    • /
    • 제42권7호
    • /
    • pp.27-36
    • /
    • 2005
  • 본 논문은 무선 및 초고속 광통신등 다양한 통신 시스템에서 사용되는 고속 Reed-Solomon (RS) 복호기의 하드웨어 면적을 줄인 새로운 구조를 소개한다. 특히 folding 기술을 이용하여 높은 처리율(throughput)과 적은 하드웨어 복잡도(hardware complexity)를 가지고 있는 새로운 PrME (Pipelined recursive Modified Euclidean) 구조를 제안한다 제안된 PrME 구조는 일반적으로 사용되는 systolic-array 그리고 완전한 병렬(fully-parallel) 구조와 비교하여 하드웨어 복잡도를 약 80$\%$정도 줄일 수 있다. 제안된 RS 복호기는 1.2 V의 공급전압과 0.13-um CMOS 기술을 사용하여 설계하고 구현하였는데, 총 24,600개의 게이트수, 5-Gbit/s의 데이터 처리율과 클락 주파수 625 MHz에서 동작함을 보여준다. 제안된 면적 효율적인 PrME 구조에 기반한 RS 복호기는 초고속 광통신뿐만 아니라 무선통신을 위한 차세대 FEC구조 등에 바로 적용될 수 있을 것이다.

A Parallel Collaborative Sphere Decoder for a MIMO Communication System

  • Koo, Jihun;Kim, Soo-Yong;Kim, Jaeseok
    • Journal of Communications and Networks
    • /
    • 제16권6호
    • /
    • pp.620-626
    • /
    • 2014
  • In this paper, we propose a parallel collaborative sphere decoder with a scalable architecture promising quasi-maximum likelyhood performance with a relatively small amount of computational resources. This design offers a hardware-friendly algorithm using a modified node operation through fixing the variable complexity of the critical path caused by the sequential nature of the conventional sphere decoder (SD). It also reduces the computational complexity compared to the fixed-complexity sphere decoder (FSD) algorithm by tree pruning using collaboratively operated node operators. A Monte Carlo simulation shows that our proposed design can be implemented using only half the parallel operators compared to the approach using an ideal fully parallel scheme such as FSD, with only about a 7% increase of the normalized decoding time for MIMO dimensions of $16{\times}16$ with 16-QAM modulation.