• Title/Summary/Keyword: multiply and accumulate

검색결과 21건 처리시간 0.02초

소비전력 인지형 곱셈 연산 누적기의 설계 및 구현 (Design and Implementation of a Power Aware Scalable Pipelined Booth Multiply & Accumulate Unit)

  • 신민혁;이한호
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2006년도 하계종합학술대회
    • /
    • pp.573-574
    • /
    • 2006
  • A low-power power-aware scalable pipelined Booth recoded multiply & Accumulate unit (PA-MAC) detects the input operands for their dynamic range and accordingly implements a 16-bit, 8-bit or 4-bit multiplication and accumulation operation. The multiplication mode is determined by the dynamic - range detection unit. For the computations, although an area of the proposed PA-MAC is lager than a non-scalable MAC respectively, the proposed PA-MAC proves to be globally more power efficient than a non-scalable MAC.

  • PDF

멀티미디어 처리에 적합한 SIMD 곱셈누적 연산기의 설계 (SIMD Multiply-accumulate Unit Design for Multimedia Data Processing)

  • 홍인표;정재원;정우경;이용석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 추계종합학술대회 논문집(2)
    • /
    • pp.349-352
    • /
    • 2000
  • In this paper, a SIMD 64bit MAC (Multiply -Accumulate) unit is designed. It is composed of two 32bit MAC unit which supports SIMD 16bit operations. As a result, It can process two 32bit MAC operations or four 16bit operations in one cycle. Proposed MAC unit is described in Verilog HDL. After functional verification is performed, MAC unit is synthesized and optimized with 0.35$\mu\textrm{m}$ standard cell library. The synthesis result shows that this MAC unit can operate at 80㎒ of clock frequency in 85$^{\circ}C$, 3.0V, worst case process and 125㎒ of clock frequency at 25$^{\circ}C$, 3.3V, typical case process. It achieves 320Mops of performance, and is suitable for embedded DSP processors.

  • PDF

임베디드 시스템을 위한 저비용 SIMD MAC/MAS 블록 설계 (The Design of low-cost SIMD MAC/MAS for Embedded Systems)

  • 이용주;정진우;이웅석
    • 한국통신학회논문지
    • /
    • 제29권10C호
    • /
    • pp.1460-1468
    • /
    • 2004
  • 본 논문에서는 실생활에 많이 사용되는 멀티미디어의 연산에 꼭 필요한 명령어를 수행할 수 있는 저면적의 저전력 SIMD MAC/MAS(Single Instruction Multiple Data Multiply and ACcumulate/Multiply And Subtract)를 개발하였다. 개발의 목적이 이전에 개발된 64-bit의 고면적, 고성능 MAC/MAS를 저면적, 저비용화하면서 성능 저하를 최소화 하는 것이었기 때문에 이전에 개발된 구조와 비교함으로써 이번 연구의 성과를 판단하였다. 본 논문의 내용은 크게 SIMD MAC의 설계에 대한 내용, 본 설계가 이전의 설계와의 차별성, 그리고 합성 결과 및 결론으로 이루어져 있다. 설계 결과, 이전에 설계되었던 고성능의 64비트 SIMD MAC/班AS에 비해 전체적인 하드웨어의 크기는 32%로 축소되었다. 이는 임베디드 DS(Digital Signal Processor)에 적합하도록 ISA(Instruction Set Architecture)를 개선하였고, 내부 데이터의 대역폭을 32비트로 줄였으며 하드웨어를 보다 최적화하여 설계하였기 때문으로 판단된다.

멀티미디어 데이터 처리에 적합한 SIMD MAC 연산기의 설계 (SIMD MAC Unit Design for Multimedia Data Processing)

  • 홍인표;정우경;정재원;이용석
    • 대한전자공학회논문지SD
    • /
    • 제38권12호
    • /
    • pp.44-55
    • /
    • 2001
  • MAC(Multiply and ACcumulate) 연산은 DSP와 멀티미디어 데이터 처리의 핵심이 되는 연산이다. 기존의 DSP 혹은 내장형 프로세서의 MAC 연산기들은 주로 3사이클의 latency를 가지며, 한번에 하나씩의 데이터를 처리하므로 성능에 한계를 보인다. 따라서 고성능의 범용 프로세서들은 SIMD(Single Instruction Multiple Data) 연산을 지원하는 MAC 연산기를 실행 유닛으로 내장하는 추세이다. 하지만 이러한 고성능의 연산기는 고성능 범용 프로세서의 특성상 다양한 동작 모드를 지원해야 하고 clock 주파수가 높아야 하므로 파이프라인 기법을 사용하고 이에 따른 컨트롤이 복잡하여 하드웨어 설계가 까다롭고 면적이 큰 문제가 있다. 본 논문에서는 내장형 프로세서에 적합한 64비트 폭을 갖는 SIMD MAC 연산기를 설계하였다. 한 사이클에 누적연산까지 모두 완료하도록 하여 파이프라인 제어의 필요성을 없앴고, 기존의 Booth 곱셈기 구조에 기반하여 약간의 회로 추가로 SIMD 연산이 가능하도록 하였다.

  • PDF

고성능 32-bit DSP 코프로세서의 아키텍쳐 개발 (Development of a High-performance DSP Coprocessor Architecture)

  • 윤성철;김상욱;배성일;강성호;김용천;정승재;김상우;문상훈
    • 대한전자공학회논문지SD
    • /
    • 제39권2호
    • /
    • pp.72-81
    • /
    • 2002
  • 이 논문은 저전력 마이크로 컨트롤러의 coprocessor로 동작하는 고성능 DSP의 아키텍쳐 구조를 제안한다. 제안된 DSP 아키텍쳐는 DSP 응용 분야의 기본 수식인 곱의 합을 고속으로 수행할 수 있도록 MAC(Multiply and Accumulate) 유닛 두 개를 갖는 dual MAC 아키텍쳐 구조이면서, 곱셈기와 덧셈기를 병렬적으로 배치시킨 특징을 갖는다. 그리고 한번에 최대 3개의 명령어를 동시에 수행할 수 있으면서도 명령어 길이는 31 비트로 고정된 3웨이 수퍼스칼라 구조를 갖는다. 현재 상용되고 있는 세 개의 DSP들과 의 벤치마크 결과, 제안된 DSP 구조가 가장 좋은 성능을 보여주었다. 또한, 특정 알고리듬에 대해서 성능이 같아도 메모리 사용량에 있어 효율적인 구조라는 것을 보여준다.

저가 microcontoller unit을 이용한 효율적인 다채널 능동 소음 제어기 구현 (The efficient implementation of the multi-channel active noise controller using a low-cost microcontroller unit)

  • 정익주
    • 한국음향학회지
    • /
    • 제38권1호
    • /
    • pp.9-22
    • /
    • 2019
  • 본 논문에서는 저가 MCU(Microcontoller Unit)를 이용하여 다채널 능동 소음 제어기를 효율적으로 구현할 수 있는 방안을 제안하였다. 다채널 능동 소음 제어 알고리즘으로 사용된 정규화된 MFxLMS(Modified Filtered-x Least Mean Square) 알고리즘은 많은 연산량을 요구하며, 저가 MCU로 구현하기에는 어려움이 있었다. 본 연구에서는 MCU의 특성을 잘 활용하여 소프트웨어를 최적화함으로써 효율적으로 다채널 능동 소음 제어기를 구현할 수 있었다. CPU(Central Processing Unit)가 지원하는 단일 싸이클 MAC(Multiply- Accumulate) 연산을 극대화하고, 지연 메모리 연산을 최소화함으로써 3배 이상의 연산 최적화를 달성하였다. 또한 MCU가 지원하는 보조 프로세서를 이용하여 병렬 처리함으로써 4배 이상의 연산 최적화를 이루었다. 더불어 MCU에 내장된 주변 장치를 최대한 활용함으써, 추가적인 부품의 사용을 최소화하였다.

A High-Security RSA Cryptoprocessor Embedded with an Efficient MAC Unit

  • Moon, Sang-Ook
    • Journal of information and communication convergence engineering
    • /
    • 제7권4호
    • /
    • pp.516-520
    • /
    • 2009
  • RSA crypto-processors equipped with more than 1024 bits of key space handle the entire key stream in units of blocks. The RSA processor which will be the target design in this paper defines the length of the basic word as 128 bits, and uses an 256-bits register as the accumulator. For efficient execution of 128-bit multiplication, 32b*32b multiplier was designed and adopted and the results are stored in 8 separate 128-bit registers according to the status flag. In this paper, an efficient method to execute 128-bit MAC (multiplication and accumulation) operation is proposed. The suggested method pre-analyzed the all possible cases so that the MAC unit can remove unnecessary calculations to speed up the execution. The proposed architecture prototype of the MAC unit was automatically synthesized, and successfully operated at 20MHz, which will be the operation frequency in the RSA processor.

3차원 그래픽의 트랜스포메이션을 위한 24-bit 부동 소수점 MAC 연산기의 설계 (A Design of 24-bit Floating Point MAC Unit for Transformation of 3D Graphics)

  • 이정우;김우진;김기철
    • 대한임베디드공학회논문지
    • /
    • 제4권1호
    • /
    • pp.1-8
    • /
    • 2009
  • This paper proposes a 24-bit floating point multiply and accumulate(MAC) unit that can be used in geometry transformation process in 3D graphics. The MAC unit is composed of floating point multiplier and floating point accumulator. When separate multiplier and accumulator are used, matrix calculation, used in the transformation process, can't use continuous accumulation values. In the proposed MAC unit the accumulator can get continuous input from the multiplier and the calculation time is reduced. The MAC unit uses about 4,300 gates and can be operated at 150 MHz frequency.

  • PDF

A DSP Architecture for High-Speed FFT in OFDM Systems

  • Lee, Jae-Sung;Lee, Jeong-Hoo;SunWoo, Myung-H.;Moh, Sang-Man;Oh, Seong-Keun
    • ETRI Journal
    • /
    • 제24권5호
    • /
    • pp.391-397
    • /
    • 2002
  • This paper presents digital signal processor (DSP) instructions and their data processing unit (DPU) architecture for high-speed fast Fourier transforms (FFTs) in orthogonal frequency division multiplexing (OFDM) systems. The proposed instructions jointly perform new operation flows that are more efficient than the operation flow of the multiply and accumulate (MAC) instruction on which existing DSP chips heavily depend. We further propose a DPU architecture that fully supports the instructions and show that the architecture is two times faster than existing DSP chips for FFTs. We simulated the proposed model with a Verilog HDL, performed a logic synthesis using the 0.35 ${\mu}m$ standard cell library, and then verified the functions thoroughly.

  • PDF

효율적인 멀티미디어데이터 처리를 위한 RISC Processor의 설계 (Design of a RISC Processor with an Efficient Processing Unit for Multimedia Data)

  • 조태헌;남기훈;김명환;이광엽
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 II
    • /
    • pp.867-870
    • /
    • 2003
  • 본 논문은 멀티미디어 데이터 처리를 위한 효율적인 RISC 프로세서 유닛의 설계를 목표로 Vector 프로세서의 SIMD(Single Instruction Multiple Data) 개념을 바탕으로 고정된 연산기 데이터 비트 수에 비해 상대적으로 작은 비트수의 데이터 연산의 부분 병렬화를 통하여 멀티미디어 데이터 연산의 기본이 되는 곱셈누적(MAC : Multiply and Accumulate) 연산의 성능을 향상 시킨다. 또한 기존의 MMX나 VIS 등과 같은 범용 프로세서들의 부분 병렬화를 위해 전 처리 과정의 필요충분조건인 데이터의 연속성을 위해 서로 다른 길이의 데이터 흑은 비트 수가 작은 멀티미디어의 데이터를 하나의 데이터로 재처리 하는 재정렬 혹은 Packing/Unpacking 과정이 성능 전체적인 성능 저하에 작용하게 되므로 본 논문에서는 기존의 프로세서의 연산기 구조를 재이용하여 병렬 곱셈을 위한 연산기 구조를 구현하고 이를 위한 데이터 정렬 연산 구조를 제안한다.

  • PDF