• 제목/요약/키워드: Multiplier-Accumulator

검색결과 30건 처리시간 0.02초

3차원 그래픽의 트랜스포메이션을 위한 24-bit 부동 소수점 MAC 연산기의 설계 (A Design of 24-bit Floating Point MAC Unit for Transformation of 3D Graphics)

  • 이정우;김우진;김기철
    • 대한임베디드공학회논문지
    • /
    • 제4권1호
    • /
    • pp.1-8
    • /
    • 2009
  • This paper proposes a 24-bit floating point multiply and accumulate(MAC) unit that can be used in geometry transformation process in 3D graphics. The MAC unit is composed of floating point multiplier and floating point accumulator. When separate multiplier and accumulator are used, matrix calculation, used in the transformation process, can't use continuous accumulation values. In the proposed MAC unit the accumulator can get continuous input from the multiplier and the calculation time is reduced. The MAC unit uses about 4,300 gates and can be operated at 150 MHz frequency.

  • PDF

고속 디지털 신호처리를 위한 MBA기반 병렬 MAC의 효율적인 구조 (A Efficient Architecture of MBA-based Parallel MAC for High-Speed Digital Signal Processing)

  • 서영호;김동욱
    • 대한전자공학회논문지SD
    • /
    • 제41권7호
    • /
    • pp.53-61
    • /
    • 2004
  • 본 논문에서는 고속의 곱셈-누적 연산을 수행할 수 있는 새로운 MAC(Multiplier- Accumulator)의 구조를 제안하였다. 부분 곱의 생성을 위해서 1의 보수 기반의 고속 Booth 알고리즘(Modified Booth Algorithm, MBA)를 이용하였고 다수의 부분 곱을 더하기 위해서 CSA(Carry Save Adder)를 이용하였다. 부분 곱을 더하는 과정에서 Booth 인코딩 시 이용한 1의 보수 체계를 2의 보수 체계로 보상하고 이전 합과 캐리를 누적하는 연산을 수행하여 고속의 누적 연산이 가능한 구조를 제안한다. 또한 부분 곱의 덧셈에서 하위 비트들을 2 비트 CLA(Carry Look-ahead Adder)를 이용하여 연산함으로써 최종 덧셈기의 입력 비트수를 줄임으로써 전체적인 임계경로를 감소시켰다. 제안된 MAC을 JPEG2000을 위한 DWT (Discrete Wavelet Transform) 필터링 연산에 적용하여 고속의 디지털 신호처리가 가능함을 보였고 기존의 연구와 비교하여 향상된 성능을 보이는 것을 확인하였다.

시그모이드 함수의 디지털 구현에 관한 연구 (On the Digital Implementation of the Sigmoid function)

  • 이호선;홍봉화
    • 정보학연구
    • /
    • 제4권3호
    • /
    • pp.155-163
    • /
    • 2001
  • 디지털 신경회로망의 구현에 있어 시그모이드 함수의 구현은 매우 복잡하고 구현하기 어렵다. 따라서, 본 논문에서는 디지털 신경회로망 구현에 문제가 되는 시그모이드 함수처리를 위한 설계 방법을 제안하였다. 제안된 방법은 잉여수계를 이용하여 MAC(Multiplier and Accumulator) 연산 시, 캐리 전파 없이 고속의 연산을 수행할 수 있고 시그모이드 함수처리를 고속으로 수행할 수 있다. 모의실험결과, 각각의 신경 프로세스에 있어서 4.6nsec 이상의 속도를 보임으로써 고속디지털 신경회로망 구현에 적용될 수 있을 것으로 기대된다.

  • PDF

Radix-2 MBA 기반 병렬 MAC의 VLSI 구조 (New VLSI Architecture of Parallel Multiplier-Accumulator Based on Radix-2 Modified Booth Algorithm)

  • 서영호;김동욱
    • 대한전자공학회논문지SD
    • /
    • 제45권4호
    • /
    • pp.94-104
    • /
    • 2008
  • 본 논문에서는 고속의 곱셈-누적 연산을 수행할 수 있는 새로운 MAC의 구조를 제안한다. 곱셈과 누적 덧셈 연산을 통합하고 하이브리드 형태의 CSA 구조를 고안하여 임계경로를 감소시키고 출력율을 개선하였다. 즉, 가장 큰 지연시간을 갖는 누적기 자체를 제거하고 누적기의 기능을 CSA에 포함시킴으로써 전체적인 성능을 향상시킨다. 제안된 CSA 트리는 1의 보수 기반의 MBA 알고리즘을 이용하고, 연산자의 밀도를 높이고자 부호비트를 위한 수정된 배열형태를 갖는다. 또한 최종 덧셈기의 비트수를 줄이기 위해서 CSA 트리 내에 2비트 CLA를 사용하여 하위 비트의 캐리를 전파하고 하위 비트들에 대한 출력을 미리 생성한다. 또한 파이프라인의 효율을 최적화시켜 출력율을 증가시키고자 최종 덧셈기의 출력이 아닌 합과 캐리 형태의 중간 연산결과들을 누적시킨다. 제안한 하드웨어를 설계한 후에 $250{\mu}m,\;180{\mu}m,\;130{\mu}m$, 그리고 90nm CMOS 라이브러리를 이용하여 합성하였다. 이론 및 실험적인 결과를 토대로 제안한 MAC의 하드웨어 자원, 지연시간, 그리고 파이프라인 등의 결과에 대해 분석하였다. 지연시간은 수정된 Sakurai의 alpha power low를 이용하였다. 결과를 살펴보면 제안한 MAC은 표준 설계에 대해서는 여러 측면에서 매우 우수한 특성을 보였고, 최근 연구와 비교할 때 클록속도는 거의 유사하면서 성능은 두 배로 우수하였다.

RSA 암호화 프로세서에 최적화한 32비트 곱셈기 설계 (Design of an Optimized 32-bit Multiplier for RSA Cryptoprocessors)

  • 문상국
    • 한국정보통신학회논문지
    • /
    • 제13권1호
    • /
    • pp.75-80
    • /
    • 2009
  • 1024비트 이상의 고비도 RSA 프로세서에서는 몽고메리 알고리즘을 효율적으로 처리하기 위하여 전체 키 스트림을 정해진 블록 단위로 처리한다. 본 논문에서는 기본 워드를 128비트로 하고 곱셈 결과의 누적기로는 256비트의 레지스터를 사용하는 타겟 RSA 프로세서에서, 128 비트 곱셈을 효율적으로 수행하기 위하여 실험을 통하여 최적화한 32비트 *32비트 곱셈기를 설계하고 검증하였다. 본 논문에서 설계한 곱셈기는 128비트 곱셈에 필요한 누적곱셈을 효율적으로 구현하는 데 필수적인 연산모듈이 된다. 구현된 곱셈기는 자동으로 합성 하였고, 기준이 되는 RSA 프로세서의 동작 주파수에서 정상적으로 동작하였다.

재구성 가능한 암호화 프로세서에 적합한 32비트 곱셈기의 연구 (Study of a 32-bit Multiplier Suitable for Reconfigurable Cryptography Processor)

  • 문상국
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 추계종합학술대회 B
    • /
    • pp.740-743
    • /
    • 2008
  • 본 논문에서는 기본 워드를 128비트로 하고 곱셈 결과의 누적기로는 256비트의 레지스터를 사용하는 RSA 프로세서에서, 128 비트 곱셈을 효율적으로 수행하기 위하여 실험을 통하여 최적화한 32비트 $^*$ 32비트 곱셈기에 대한 연구를 수행하였다. $1024{\sim}2048$ 비트까지 재구성이 가능한 고비도 타겟 RSA 프로세서에서는 몽고메리 알고리즘을 효율적으로 처리하기 위하여 전체 키 스트림을 정해진 블록 단위로 처리한다. 본 논문에서 연구한 곱셈기는 128비트 곱셈에 필요한 누적곱셈 (MAC; multiply-and-aCcumultaion)을 효율적으로 구현하는 데 필수적인 연산모듈이 될 수 있다. 구현된 곱셈기는 시뮬레이션을 통하여 검증하였고, 자동 합성한 곱셈기 회로는 기준이 되는 RSA 프로세서의 동작 주파수에서 정상적으로 동작하였다.

  • PDF

32비트 3단 파이프라인을 가진 RISC 프로세서에 최적화된 Multiplier 구조에 관한 연구 (A Study on Multiplier Architectures Optimized for 32-bit RISC Processor with 3-Stage Pipeline)

  • 정근영;박주성;김석찬
    • 대한전자공학회논문지SD
    • /
    • 제41권11호
    • /
    • pp.123-130
    • /
    • 2004
  • 본 논문에서는 32비트 3단 파이프라인을 가진 RISC 프로세서에 최적화된 곱셈기 구조의 연구에 대해 다룬다. 대상 프로세서인 ARM7은 3단의 파이프라인 구조로 되어 있으며 이 프로세서의 곱셈기는 파이프라인 상의 실행 단계에서 최대 7사이클이 소요된다. 내장된 곱셈기는 기능적으로 부스 알고리즘을 적용하여 32×32 곱셈 연산과 덧셈 연산을 하여 64비트 결과를 낼 수 있는 MAC(Multiplier-Accumulator) 구조로 되어 있으며 6가지 세부 명령어를 실행할 수 있다. ARM7의 파이프라인 및 ALU와 shifter 구조에 적합한 radix4-32×8 및 radix4-32×16 과 radix8-32×32의 곱셈기 구조를 비교 분석하였으며 면적, 사이클 지연시간, 수행 사이클 수를 성능 기준으로 최적화된 곱셈기를 결정하여 설계하였다. 프로세서 코어에 내장된 곱셈기의 동작을 검증하기 위해 다양한 오디오 알고리즘을 이용하여 시뮬레이션을 수행하였다.

디지탈 뉴런프로세서의 구현에 관한 연구 (On the Implementation of the Digital Neuron Processor)

  • 홍봉화;이지영
    • 한국컴퓨터정보학회논문지
    • /
    • 제4권2호
    • /
    • pp.27-38
    • /
    • 1999
  • 본 논문에서는 캐리 전파가 없어 고속 연산이 가능한 잉여수체계(Residue Number System)를 이용하여 고속의 디지털 뉴런 프로세서를 제안하였다. 제안된 뉴런프로세서는 MAC (Multiply And Accumulator) 연산부, 몫연산부, 시그모이드(Sigmoid)함수 연산부로 구성되며, 0.8$\mu$m CMOS공정으로 설계되었다 실험결과, 본 논문에서 구현한 디지털 뉴런프로세서는 19.2nsec의 속도를 보였으며, 실수연산기로 구현한 뉴런프로세서에 비하여 약1/2정도 하드웨어 크기를 줄일 수 있었다.

  • PDF

2차원 이산 웨이블릿 변환을 이용한 실시간 영상압축 코덱의 FPGA 구현 (FPGA Implementation of Real Time Image Compression CODEC Using Wavelet Transform)

  • 서영호;김왕현;김종현;김동욱
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(4)
    • /
    • pp.49-52
    • /
    • 2001
  • This paper presents a FPGA Implementation of wavelet-based CODEC, which can compress 2-dimensional image. For real-time processing, a scheduling method of input image data is proposed and a new structure of MAC(multiplier-accumulator) is proposed for wavelet transforms. Also this study proposes global pipelining structure of wavelet CODEC and efficient buffering method at interfaces between each module with different clock frequency.

  • PDF

Audio Sampling Rate Conversion Block의 설계 (Design of Audio Sampling Rate Conversion Block)

  • 정혜진;심윤정;이승준
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 II
    • /
    • pp.827-830
    • /
    • 2003
  • This paper proposes an area-efficient FIR filter architecture for sampling rate conversion of hi-fi audio data. Sampling rate conversion(SRC) block converts audio data sampled at 96KHz down to 48KHz sampled data and vice versa. 63-tap FIR filter coefficients have been synthesized that gives 100dB stop band attenuation and 5.2KHz transition bandwidth. Time-shared filter architecture requires only one multiplier and accumulator for 63-tap filter operation. This results in huge hardware saving of up to 10~19 times smaller compared with traditional FIR structure.

  • PDF