• 제목/요약/키워드: distributed arithmetic (DA)

검색결과 29건 처리시간 0.026초

다중 상수 곱셈을 위한 하드 와이어드 분산 연산 (Hardwired Distributed Arithmetic for Multiple Constant Multiplications and Its Applications for Transformation)

  • 김대원;최준림
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.949-952
    • /
    • 2005
  • We propose the hardwired distributed arithmetic which is applied to multiple constant multiplications and the fixed data path in the inner product of fixed coefficient as a result of variable radix-2 multi-bit coding. Variable radix-2 multi-bit coding is to reduce the partial product in constant multiplication and minimize the number of addition and shifts. At results, this procedure reduces the number of partial products that the required multiplication timing is shortened, whereas the area reduced relative to the DA architecture. Also, this architecture shows the best performance for DCT/IDCT and DWT architecture in the point of area reduction up to 20% from reducing the partial products up to 40% maximally.

  • PDF

Fast Jacket Transform의 VLSI 아키텍쳐 (VLSI Architecture of Fast Jacket Transform)

  • 유경주;홍선영;이문호;정진균
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.769-772
    • /
    • 2001
  • Waish-Hadamard Transform은 압축, 필터링, 코드 디자인 등 다양한 이미지처리 분야에 응용되어왔다. 이러한 Hadamard Transform을 기본으로 확장한 Jacket Transform은 행렬의 원소에 가중치를 부여함으로써 Weighted Hadamard Matrix라고 한다. Jacket Matrix의 cocyclic한 특성은 암호화, 정보이론, TCM 등 더욱 다양한 응용분야를 가질 수 있고, Space Time Code에서 대역효율, 전력면에서도 효율적인 특성을 나타낸다 [6],[7]. 본 논문에서는 Distributed Arithmetic(DA) 구조를 이용하여 Fast Jacket Transform(FJT)을 구현한다. Distributed Arithmetic은 ROM과 어큐뮬레이터를 이용하고, Jacket Watrix의 행렬을 분할하고 간략화하여 구현함으로써 하드웨어의 복잡도를 줄이고 기존의 시스톨릭한 구조보다 면적의 이득을 얻을 수 있다. 이 방법은 수학적으로 간단할 뿐 만 아니라 행렬의 곱의 형태를 단지 덧셈과 뺄셈의 형태로 나타냄으로써 하드웨어로 쉽게 구현할 수 있다. 이 구조는 입력데이타의 워드길이가 n일 때, O(2n)의 계산 복잡도를 가지므로 기존의 시스톨릭한 구조와 비교하여 더 적은 면적을 필요로 하고 FPGA로의 구현에도 적절하다.

  • PDF

덧셈 프로세서를 사용한 IMT-2000 인터폴레이션 필터의 저전력 설계 및 구현 (Low-power Design and Implementation of IMT-2000 Interpolation Filter using Add/Sub Processor)

  • 장영범;이현정;문종범;이원상
    • 대한전자공학회논문지SP
    • /
    • 제42권1호
    • /
    • pp.79-85
    • /
    • 2005
  • 이 논문에서는 IMT-2000용 인터폴레이션 필터의 저전력 설계 및 구현 방식을 제안하였다. DA(Distributed Arithmetic) 방식의 장점인 프로세서 구조와, CSD(Canonic Signed Digit) 방식의 장점인 덧셈 연산의 최소화 방법을 함께 사용하여 각 구조의 장점을 살린 인터폴레이션 필터 구조를 제안하였다. 필터계수는 CSD형으로 나타낸 후에 4비트씩 가능한 모든 계산을 미리 수행하여 저장하고, MUX와 덧셈 프로세서를 사용하여 곱셈 연산을 수행하도록 설계하였다. 이와 더불어 기존 곱셈기 구조에서 사용되는 출력용 덧셈기와 지연소자는 1개의 덧셈기와 쉬프트 레지스터를 사용하여 효율적으로 구현될 수 있음을 보였다. IMT-2000에서 사용되는 40탭 인터폴레이션 필터에 대하여, 제안된 구조와 기존의 곱셈기를 사용한 구조를 각각 Verilog-HDL 코딩을 통하여 설계하였다. 기존의 곱셈기를 사용한 구조와 게이트 수를 비교한 결과 68.43%의 감소를 달성할 수 있었다.

OFDM FFT용 저전력 Radix-4 나비연산기 구조 (Low-Power Radix-4 butterfly structure for OFDM FFT)

  • 김도한;김비철;허은성;이원상;장영범
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2006년도 하계종합학술대회
    • /
    • pp.13-14
    • /
    • 2006
  • In this paper, an efficient butterfly structure for Radix-4 FFT algorithm using DA(Distributed Arithmetic) is proposed. It is shown that DA can be efficiently used in twiddle factor calculation of the Radix-4 FFT algorithm. The Verilog-HDL coding results for the proposed DA butterfly structure show 61.02% cell area reduction comparison with those of the conventional multiplier butterfly structure. Furthermore, the 64-point Radix-4 pipeline structure using the proposed butterfly and delay commutators is compared with other conventional structures. Implementation coding results show 46.1% cell area reduction.

  • PDF

High-throughput and low-area implementation of orthogonal matching pursuit algorithm for compressive sensing reconstruction

  • Nguyen, Vu Quan;Son, Woo Hyun;Parfieniuk, Marek;Trung, Luong Tran Nhat;Park, Sang Yoon
    • ETRI Journal
    • /
    • 제42권3호
    • /
    • pp.376-387
    • /
    • 2020
  • Massive computation of the reconstruction algorithm for compressive sensing (CS) has been a major concern for its real-time application. In this paper, we propose a novel high-speed architecture for the orthogonal matching pursuit (OMP) algorithm, which is the most frequently used to reconstruct compressively sensed signals. The proposed design offers a very high throughput and includes an innovative pipeline architecture and scheduling algorithm. Least-squares problem solving, which requires a huge amount of computations in the OMP, is implemented by using systolic arrays with four new processing elements. In addition, a distributed-arithmetic-based circuit for matrix multiplication is proposed to counterbalance the area overhead caused by the multi-stage pipelining. The results of logic synthesis show that the proposed design reconstructs signals nearly 19 times faster while occupying an only 1.06 times larger area than the existing designs for N = 256, M = 64, and m = 16, where N is the number of the original samples, M is the length of the measurement vector, and m is the sparsity level of the signal.

이진 자켓 비트열의 VLSI 구조 (A VLSI Architecture for the Binary Jacket Sequence)

  • 박주용;이문호
    • 한국통신학회논문지
    • /
    • 제27권2A호
    • /
    • pp.116-123
    • /
    • 2002
  • 자켓 행렬(Jacket matrix)은 왈쉬 하다마드(Walsh Hadamard) 행렬 구조를 바탕으로 확장한 행렬이다. 왈쉬 하다마드 행렬이 +1, -1을 기본 원소로 하고 있는 반면 자켓 행렬은 $\pm$1과 $\pm$$\omega$($\pm$j, $\pm$$_2$$^{n}$ )를 각각 원소로 가질 수 있다. 이 행렬은 중앙 부근에 무게(weight)를 갖는데, 하다마드 행렬 크기의 1/4 크기로 부호 부분과 무게 부분으로 구성된다. 본 논문에서는 기존에 행렬 중앙에 강제적으로 무게를 할당하여 자켓 행렬을 구성하였으나, 어떠한 크기의 행렬도 크기와 무게만 정해주면 생성해낼 수 있는 이진 인덱스를 이용한 간단한 비트열 형태의 일반식이 제시된다. 무게는 행과 열의 이진 인덱스의 최상위 두 비트를 Exclusive-OR 연산한 결과가 1인 원소에 부여된다. 또한 분산연산(Distributed Arithmetic:DA) 알고리즘을 이용한 고속자켓변환(Fast Jacket Transform)의 VLSI 구조를 제시한다. 자켓 행렬은 cyclic한 특성을 가지고 있어서 암호화, 정보 이론 및 WCDMA의 복소수 확산 QPSK 변조부에 응용될 수 있다.

DCT/DWT 프로세서를 위한 SoC 설계 (The Design of SoC for DCT/DWT Processor)

  • 김영진;이현수
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2006년도 하계종합학술대회
    • /
    • pp.527-528
    • /
    • 2006
  • In this paper, we propose an IP design and implementation of System on a chip(SoC) for Discrete Cosine Transform (DCT) and Discrete Wavelet Transform (DWT) processor using adder-based DA(Adder-based Distributed Arithmetic). To reduced hardware cost and to improve operating speed, the combined DCT/ DWT processor used the bit-serial method and DA module. The transform of coefficient equation result in reduction in hardware cost and has a regularity in implementation. We use Verilog-HDL and Xilinx ISE for simulation and implement FPGA on SoCMaster-3.

  • PDF

A High-Speed Multiplier-Free Realization of IIR Filter Using ROM's

  • Sakunkonch, Thanyapat;Tantaratana, Sawasd
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 ITC-CSCC -2
    • /
    • pp.711-714
    • /
    • 2000
  • In this paper, we propose a high-speed multiplier-free realization using ROM’s to store the results of coefficient scalings in Combination With higher signal rate and pipelined operations. We show that hardware multipliers are not needed. By varying some parameters, the proposed structure provides various combinations of hardware and clock speed (or through-put). An example is given comparing the proposed realization with the distributed arithmetic (DA) realization. Results show that With Proper Choices of the Parameters the proposed structure achieves a faster processing speed with less hardware, as compared to the DA realization.

  • PDF

처리율을 개선시킨 분산연산 방식의 IDCT 프로세서 설계 (A Design of high throughput IDCT processor in Distrited Arithmetic Method)

  • 김병민;배현덕;조태원
    • 전자공학회논문지SC
    • /
    • 제40권6호
    • /
    • pp.48-57
    • /
    • 2003
  • 본 논문에서는 가산기 기반 분산연산방식(Adder-Based DA)과 bit-serial방식을 적용한 8×l ID-IDCT프로세서를 제안하였다. 하드웨어 소모를 줄이기 위해 bit-serial 방식을 적용하고 동작 속도의 향상을 위해 분산연산 방식을 적용한다. 또한 계수식의 변환을 통해 하드웨어 구현의 규칙성과 크기를 줄일 수 있으며 동작 클럭수를 줄이기 위해 부호 확장 처리 방식을 제안한다. 합성결과 게이트 수는 총 17,504개가 사용되었고 이중에서 부호 확장처리단은 전체 구조에서 20.6%를 사용하게 된다. 짝수, 홀수 부분에서는 기존의 계수표현에서 non-zero 비트가 130개가되지만, 제안한 방식을 적용한 짝수와 홀수 부분에서의 non-zero 비트는 각각 28개와 32개로 54% 줄일 수 있었다. 또한 부호 확장 처리단의 제안함으로써 처리율은 2배가 향상되었고 설계한 IDCT 프로세서는 100㎒에서 50Mpixels/s의 처리율을 나타내었다.

DA구조 이용 가산기 수를 감소한 2-D DCT/IDCT 프로세서 설계 (2-D DCT/IDCT Processor Design Reducing Adders in DA Architecture)

  • 정동윤;서해준;배현덕;조태원
    • 대한전자공학회논문지SD
    • /
    • 제43권3호
    • /
    • pp.48-58
    • /
    • 2006
  • 본 논문은 가산기 기반 DA(Distributed Arithmetic: 분산 산술연산)구조로서 ROM과 같은 일반적인 메모리가 사용되지 않는 8x8의 2차원 DCT(Discrete Cosine Transform)/IDCT(Inverse DCT) 프로세서를 제안 설계하였다. 제안된 논문은 DCT와 IDCT의 계수 행렬에서 하드웨어를 줄이기 위해 계수 행렬의 홀수 부분을 공유하였고, 2차원 DCT/IDCT 프로세서의 계수 연산을 위해 단지 29개의 가산기만을 사용하였다. 이는 8x8 1차원 DCT NEDA(NEw DA)구조에서의 가산기 수 보다 48.6%를 감소 시켰다. 또한, 기존의 전치메모리와는 다른 새로운 전치네트워크 구조를 제안하였다. 제안된 전치네트워크 구조에서는 전치메모리 블록 대신 하드웨어를 줄이기 위해 레지스터 형태의 새로운 레지스터 블록 전치네트워크 형태를 제안하였다. 제안된 전치네트워크 블록은 64개의 레지스터를 사용하며, 이는 일반적인 메모리를 사용하는 기존의 전치메모리 구조에 사용된 트랜지스터 수 보다 18%가 감소하였다. 또한 처리율 향상을 위해 새롭게 적용되고 있는 방식으로, 입력 데이터에 대해 매 클럭 주기마다 8개의 화소데이터를 받아서 8개의 화소데이터를 처리하도록 하여 출력하는 비트 병렬화 구조로 설계하였다.