Abstract
This paper presents 8x8 two dimensional DCT/IDCT processor of adder-based distributed arithmetic architecture without applying ROM units in conventional memories. To reduce hardware cost in the coefficient matrix of DCT and IDCT, an odd part of the coefficient matrix was shared. The proposed architecture uses only 29 adders to compute coefficient operation in the 2-D DCT/IDCT processor, while 1-D DCT processor consists of 18 adders to compute coefficient operation. This architecture reduced 48.6% more than the number of adders in 8x8 1-D DCT NEDA architecture. Also, this paper proposed a form of new transpose network which is different from the conventional transpose memory block. The proposed transpose network block uses 64 registers with reduction of 18% more than the number of transistors in conventional memory architecture. Also, to improve throughput, eight input data receive eight pixels in every clock cycle and accordingly eight pixels are produced at the outputs.
본 논문은 가산기 기반 DA(Distributed Arithmetic: 분산 산술연산)구조로서 ROM과 같은 일반적인 메모리가 사용되지 않는 8x8의 2차원 DCT(Discrete Cosine Transform)/IDCT(Inverse DCT) 프로세서를 제안 설계하였다. 제안된 논문은 DCT와 IDCT의 계수 행렬에서 하드웨어를 줄이기 위해 계수 행렬의 홀수 부분을 공유하였고, 2차원 DCT/IDCT 프로세서의 계수 연산을 위해 단지 29개의 가산기만을 사용하였다. 이는 8x8 1차원 DCT NEDA(NEw DA)구조에서의 가산기 수 보다 48.6%를 감소 시켰다. 또한, 기존의 전치메모리와는 다른 새로운 전치네트워크 구조를 제안하였다. 제안된 전치네트워크 구조에서는 전치메모리 블록 대신 하드웨어를 줄이기 위해 레지스터 형태의 새로운 레지스터 블록 전치네트워크 형태를 제안하였다. 제안된 전치네트워크 블록은 64개의 레지스터를 사용하며, 이는 일반적인 메모리를 사용하는 기존의 전치메모리 구조에 사용된 트랜지스터 수 보다 18%가 감소하였다. 또한 처리율 향상을 위해 새롭게 적용되고 있는 방식으로, 입력 데이터에 대해 매 클럭 주기마다 8개의 화소데이터를 받아서 8개의 화소데이터를 처리하도록 하여 출력하는 비트 병렬화 구조로 설계하였다.