• 제목/요약/키워드: DCT/IDCT Architecture

검색결과 20건 처리시간 0.024초

GP-GPU를 이용한 H.264/AVC 디코더의 IQ/IDCT구현 (Implementation of IQ/IDCT in H.264/AVC Decoder Using GP-GPU)

  • 정준모;이광엽
    • 전기전자학회논문지
    • /
    • 제14권2호
    • /
    • pp.76-81
    • /
    • 2010
  • 모바일 CPU의 성능이 향상됨에 따라 전용 하드웨어의 필요성이 줄어 들고 있다. 그러나 아직까지 모바일 CPU의 성능은 한계가 있다. 이러한 제약 조건을 병렬처리와 실수 연산이 뛰어난 GP-GPU(General-Purpose computing on Graphics Processing Units)를 이용함으로써 다른 전용 하드웨어의 추가 없이 성능을 향상 시킬 수 있다. 본 논문에서는 모바일 환경에 적합하게 설계된 GP-GPU를 이용하여 H.264 디코더의 Inverse Quantization, Inverse DCT, Color Space Conversion 모듈을 구현하였다. G-PGPU를 이용한 전체 시스템 동작 시 40%의 성능 향상이 있었다.

DCT/DST/DHT 하드웨어 구현을 위한 2차원 시스톨릭 어레이 (Two-dimentsional systolic arrays for DCT/DST/DHT hardware implementation)

  • 판성범;박래홍
    • 전자공학회논문지B
    • /
    • 제31B권10호
    • /
    • pp.11-20
    • /
    • 1994
  • We propose two architectures using two dimensional systolic arrays for the DCT/DST/DHT. One decomposes the N-point DCT/DST/DHT into even-and odd-numbered frequency samples, and then computes them independently at the same time. In addition, the proposed architecture can be used for the IDCT/IDST/IDHT. Anogher is the modified version for the DHT/IDHT. Two proposed architectures generate outputs sequentially using real multiplications and additions. As compared to the conventional methods the proposed systolic arrays exhibit many advantages in terms of simplicity of the processing element (PE), latency, and throughput. Teh simulation results using VHDL, international standard language for hardware description, show the effectiveness of the proposed architecture.

  • PDF

변환 영역에서 개선된 DCT를 기반으로 한 움직임 예측 및 보상 (Motion Estimation and Compensation based on Advanced DCT)

  • 장영;조효문;조상복
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2007년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.38-40
    • /
    • 2007
  • In this paper, we propose a novel architecture, which is based on DCT (Discrete Cosine Transform), for ME (Motion Estimation) and MC (Motion Compensation). The traditional algorithms of ME and MC based on DCT did not suffer the advantage of the coarseness of the 2-dimensional DCT (2-D DCT) coefficients to reduce the operational time. Therefore, we derive a recursion equation for transform-domain ME and MC and design the structure by using highly regular, parallel, and pipeline processing elements. The main difference with others is removing the IDCT block by using to transform domain. Therefore, the performance of our algorithm is more efficient in practical image processing such as DVR (Digital Video Recorder) system. We present the simulation result which is compare with the spatial domain methods. it shows reducing the calculation cost. compression ratio. and peak signal to noise ratio (PSNR).

  • PDF

처리율을 개선시킨 분산연산 방식의 IDCT 프로세서 설계 (A Design of high throughput IDCT processor in Distrited Arithmetic Method)

  • 김병민;배현덕;조태원
    • 전자공학회논문지SC
    • /
    • 제40권6호
    • /
    • pp.48-57
    • /
    • 2003
  • 본 논문에서는 가산기 기반 분산연산방식(Adder-Based DA)과 bit-serial방식을 적용한 8×l ID-IDCT프로세서를 제안하였다. 하드웨어 소모를 줄이기 위해 bit-serial 방식을 적용하고 동작 속도의 향상을 위해 분산연산 방식을 적용한다. 또한 계수식의 변환을 통해 하드웨어 구현의 규칙성과 크기를 줄일 수 있으며 동작 클럭수를 줄이기 위해 부호 확장 처리 방식을 제안한다. 합성결과 게이트 수는 총 17,504개가 사용되었고 이중에서 부호 확장처리단은 전체 구조에서 20.6%를 사용하게 된다. 짝수, 홀수 부분에서는 기존의 계수표현에서 non-zero 비트가 130개가되지만, 제안한 방식을 적용한 짝수와 홀수 부분에서의 non-zero 비트는 각각 28개와 32개로 54% 줄일 수 있었다. 또한 부호 확장 처리단의 제안함으로써 처리율은 2배가 향상되었고 설계한 IDCT 프로세서는 100㎒에서 50Mpixels/s의 처리율을 나타내었다.

Discrete Cosine Transformer with Variable-Length Basis Vector for MPEG-4 Video Codec

  • Kuroda, Ryo;Fujita, Gen;Onoye, Takao;Shirakawa, Isao
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 ITC-CSCC -2
    • /
    • pp.811-814
    • /
    • 2000
  • It this paper a VLSI architecture of the Shape-Adaptive Discrete Cosine Transform (SA-DCT) is described, which can be employed dedicatedly for MPEG-4 video codec. Adopting a fast DCT algorithm, the number of multipliers can be reduced by half in comparison with a conventional algorithm. This SA-DCT core with a small additional amount of hardware can perform the SA-Inverse DCT (SA-IDCT) by sharing multipliers and a transportation memory. The proposed SA-DCT core is integrated with 40,000 gates by using 0.35$mu$m triple-metal CMOS technology, which operates at 20 Mhz, and hence enables the realtime codec of CIF ($352{\times}288$ pixels) pictures.

  • PDF

A High Throughput Multiple Transform Architecture for H.264/AVC Fidelity Range Extensions

  • Ma, Yao;Song, Yang;Ikenaga, Takeshi;Goto, Satoshi
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제7권4호
    • /
    • pp.247-253
    • /
    • 2007
  • In this paper, a high throughput multiple transform architecture for H.264 Fidelity Range Extensions (FRExt) is proposed. New techniques are adopted which (1) regularize the $8{\times}8$ integer forward and inverse DCT transform matrices, (2) divide them into four $4{\times}4$ sub-matrices so that simple fast butterfly algorithm can be used, (3) because of the similarity of the sub-matrices, mixed butterflies are proposed that all the sub-matrices of $8{\times}8$ and matrices of $4{\times}4$ forward DCT (FDCT), inverse DCT (IDCT) and Hadamard transform can be merged together. Based on these techniques, a hardware architecture is realized which can achieve throughput of 1.488Gpixel/s when processing either $4{\times}4\;or\;8{\times}8$ transform. With such high throughput, the design can satisfy the critical requirement of the real-time multi-transform processing of High Definition (HD) applications such as High Definition DVD (HD-DVD) ($1920{\times}1080@60Hz$) in H.264/AVC FRExt. This work has been synthesized using Rohm 0.18um library. The design can work on a frequency of 93MHz and throughput of 1.488Gpixel/s with a cost of 56440 gates.

Design of Vector Register Architecture in DSP Processor for Efficient Multimedia Processing

  • Wu, Chou-Pin;Wu, Jen-Ming
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제7권4호
    • /
    • pp.229-234
    • /
    • 2007
  • In this paper, we present an efficient instruction set architecture using vector register file hardware to accelerate operation of general matrix-vector operations in DSP microprocessor. The technique enables in-situ row-access as well as column access to the register files. It can reduce the number of memory access significantly. The technique is especially useful for block-based video signal processing kernels such as FFT/IFFT, DCT/IDCT, and two-dimensional filtering. We have applied the new instruction set architecture to in-loop deblocking filter processing in H.264 decoder. Performance comparisons show that the required load/store operations for the in-loop deblocking filter can be reduced about 42%. The architecture would improve the processing speed, and code density in DSP microprocessor especially for video signal processing substantially.

다중 상수 곱셈을 위한 하드 와이어드 분산 연산 (Hardwired Distributed Arithmetic for Multiple Constant Multiplications and Its Applications for Transformation)

  • 김대원;최준림
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.949-952
    • /
    • 2005
  • We propose the hardwired distributed arithmetic which is applied to multiple constant multiplications and the fixed data path in the inner product of fixed coefficient as a result of variable radix-2 multi-bit coding. Variable radix-2 multi-bit coding is to reduce the partial product in constant multiplication and minimize the number of addition and shifts. At results, this procedure reduces the number of partial products that the required multiplication timing is shortened, whereas the area reduced relative to the DA architecture. Also, this architecture shows the best performance for DCT/IDCT and DWT architecture in the point of area reduction up to 20% from reducing the partial products up to 40% maximally.

  • PDF

모바일 멀티 코어 GP-GPU를 이용한 H.264/AVC 디코더 구현 (Implementation of IQ/IDCT in H.264/AVC Decoder Using Mobile Multi-Core GPGPU)

  • 김동한;이광엽;정준모
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 추계학술대회
    • /
    • pp.321-324
    • /
    • 2010
  • 최근 멀티코어 프로세서의 이용이 증가함에 따라, 멀티코어를 이용한 다양한 병렬화 기법들이 제안되고 있다. 모바일 환경에서도 멀티코어 구조를 적용한 프로세서들이 등장하면서 병렬화 기법들이 연구되고 있다. 하지만, 아직까지 모바일 환경에서의 CPU의 성능은 한계가 있다. 이를 병렬처리와 실수 연산이 뛰어난 GPGPU(General-Purpose computing in Graphics Processing Units)를 멀티코어 구조로 설계함으로써 다른 전용 하드웨어의 추가 없이 성능을 향상 시킬 수 있다. 본 논문에서는 모바일 환경에 적합하게 설계된 멀티코어 GPGPU를 이용하여 H.264 디코더의 Inverse Quantization, Inverse DCT, Color Space Conversion 모듈을 구현하였다. 멀티코어 GPGPU를 이용한 H.264 전체 시스템 동작 시 50%의 성능 향상이 있었다.

  • PDF

H.264/AVC 를 위한 높은 처리량의 2-D $8{\times}8$ integer transforms 병렬 구조 설계 (High Throughput Parallel Design of 2-D $8{\times}8$ Integer Transforms for H.264/AVC)

  • 미투라니 사르마;하니 티와리;조용범
    • 대한전자공학회논문지SD
    • /
    • 제49권8호
    • /
    • pp.27-34
    • /
    • 2012
  • 본 논문에서 H.264표준을 위해 2차원 $8{\times}8$ 순방향/역방향 정수 DCT 변환을 빠르고 효율적으로 계산할 수 있는 알고리즘을 제안한다. 순방향/역방향 변환은 간단한 시프트와 덧셈 동작을 사용하여 계산 복잡도를 줄였으며, DCT 연산에 메모리를 사용하지 않으므로 해서 불필요한 자원소모를 줄였다. 제안된 파이프라인 아키텍처의 최대 동작 주파수는 1.184GHz이며, 합성결과는 44864 게이트가 사용되어 25.27Gpixels/sec의 스루풋을 보여준다. 면적 비율에 비해 높은 스루풋으로 인해, 제안된 설계는 H.264/AVC 고해상도 비디오기술의 실시간 처리에 효율적으로 사용할 수 있다.