• 제목/요약/키워드: Multiplier-Accumulator

검색결과 30건 처리시간 0.021초

3차원 그래픽의 트랜스포메이션을 위한 24-bit 부동 소수점 MAC 연산기의 설계 (A Design of 24-bit Floating Point MAC Unit for Transformation of 3D Graphics)

  • 이정우;김우진;김기철
    • 대한임베디드공학회논문지
    • /
    • 제4권1호
    • /
    • pp.1-8
    • /
    • 2009
  • This paper proposes a 24-bit floating point multiply and accumulate(MAC) unit that can be used in geometry transformation process in 3D graphics. The MAC unit is composed of floating point multiplier and floating point accumulator. When separate multiplier and accumulator are used, matrix calculation, used in the transformation process, can't use continuous accumulation values. In the proposed MAC unit the accumulator can get continuous input from the multiplier and the calculation time is reduced. The MAC unit uses about 4,300 gates and can be operated at 150 MHz frequency.

  • PDF

고속 디지털 신호처리를 위한 MBA기반 병렬 MAC의 효율적인 구조 (A Efficient Architecture of MBA-based Parallel MAC for High-Speed Digital Signal Processing)

  • 서영호;김동욱
    • 대한전자공학회논문지SD
    • /
    • 제41권7호
    • /
    • pp.53-61
    • /
    • 2004
  • 본 논문에서는 고속의 곱셈-누적 연산을 수행할 수 있는 새로운 MAC(Multiplier- Accumulator)의 구조를 제안하였다. 부분 곱의 생성을 위해서 1의 보수 기반의 고속 Booth 알고리즘(Modified Booth Algorithm, MBA)를 이용하였고 다수의 부분 곱을 더하기 위해서 CSA(Carry Save Adder)를 이용하였다. 부분 곱을 더하는 과정에서 Booth 인코딩 시 이용한 1의 보수 체계를 2의 보수 체계로 보상하고 이전 합과 캐리를 누적하는 연산을 수행하여 고속의 누적 연산이 가능한 구조를 제안한다. 또한 부분 곱의 덧셈에서 하위 비트들을 2 비트 CLA(Carry Look-ahead Adder)를 이용하여 연산함으로써 최종 덧셈기의 입력 비트수를 줄임으로써 전체적인 임계경로를 감소시켰다. 제안된 MAC을 JPEG2000을 위한 DWT (Discrete Wavelet Transform) 필터링 연산에 적용하여 고속의 디지털 신호처리가 가능함을 보였고 기존의 연구와 비교하여 향상된 성능을 보이는 것을 확인하였다.

시그모이드 함수의 디지털 구현에 관한 연구 (On the Digital Implementation of the Sigmoid function)

  • 이호선;홍봉화
    • 정보학연구
    • /
    • 제4권3호
    • /
    • pp.155-163
    • /
    • 2001
  • 디지털 신경회로망의 구현에 있어 시그모이드 함수의 구현은 매우 복잡하고 구현하기 어렵다. 따라서, 본 논문에서는 디지털 신경회로망 구현에 문제가 되는 시그모이드 함수처리를 위한 설계 방법을 제안하였다. 제안된 방법은 잉여수계를 이용하여 MAC(Multiplier and Accumulator) 연산 시, 캐리 전파 없이 고속의 연산을 수행할 수 있고 시그모이드 함수처리를 고속으로 수행할 수 있다. 모의실험결과, 각각의 신경 프로세스에 있어서 4.6nsec 이상의 속도를 보임으로써 고속디지털 신경회로망 구현에 적용될 수 있을 것으로 기대된다.

  • PDF

Radix-2 MBA 기반 병렬 MAC의 VLSI 구조 (New VLSI Architecture of Parallel Multiplier-Accumulator Based on Radix-2 Modified Booth Algorithm)

  • 서영호;김동욱
    • 대한전자공학회논문지SD
    • /
    • 제45권4호
    • /
    • pp.94-104
    • /
    • 2008
  • 본 논문에서는 고속의 곱셈-누적 연산을 수행할 수 있는 새로운 MAC의 구조를 제안한다. 곱셈과 누적 덧셈 연산을 통합하고 하이브리드 형태의 CSA 구조를 고안하여 임계경로를 감소시키고 출력율을 개선하였다. 즉, 가장 큰 지연시간을 갖는 누적기 자체를 제거하고 누적기의 기능을 CSA에 포함시킴으로써 전체적인 성능을 향상시킨다. 제안된 CSA 트리는 1의 보수 기반의 MBA 알고리즘을 이용하고, 연산자의 밀도를 높이고자 부호비트를 위한 수정된 배열형태를 갖는다. 또한 최종 덧셈기의 비트수를 줄이기 위해서 CSA 트리 내에 2비트 CLA를 사용하여 하위 비트의 캐리를 전파하고 하위 비트들에 대한 출력을 미리 생성한다. 또한 파이프라인의 효율을 최적화시켜 출력율을 증가시키고자 최종 덧셈기의 출력이 아닌 합과 캐리 형태의 중간 연산결과들을 누적시킨다. 제안한 하드웨어를 설계한 후에 $250{\mu}m,\;180{\mu}m,\;130{\mu}m$, 그리고 90nm CMOS 라이브러리를 이용하여 합성하였다. 이론 및 실험적인 결과를 토대로 제안한 MAC의 하드웨어 자원, 지연시간, 그리고 파이프라인 등의 결과에 대해 분석하였다. 지연시간은 수정된 Sakurai의 alpha power low를 이용하였다. 결과를 살펴보면 제안한 MAC은 표준 설계에 대해서는 여러 측면에서 매우 우수한 특성을 보였고, 최근 연구와 비교할 때 클록속도는 거의 유사하면서 성능은 두 배로 우수하였다.

RSA 암호화 프로세서에 최적화한 32비트 곱셈기 설계 (Design of an Optimized 32-bit Multiplier for RSA Cryptoprocessors)

  • 문상국
    • 한국정보통신학회논문지
    • /
    • 제13권1호
    • /
    • pp.75-80
    • /
    • 2009
  • 1024비트 이상의 고비도 RSA 프로세서에서는 몽고메리 알고리즘을 효율적으로 처리하기 위하여 전체 키 스트림을 정해진 블록 단위로 처리한다. 본 논문에서는 기본 워드를 128비트로 하고 곱셈 결과의 누적기로는 256비트의 레지스터를 사용하는 타겟 RSA 프로세서에서, 128 비트 곱셈을 효율적으로 수행하기 위하여 실험을 통하여 최적화한 32비트 *32비트 곱셈기를 설계하고 검증하였다. 본 논문에서 설계한 곱셈기는 128비트 곱셈에 필요한 누적곱셈을 효율적으로 구현하는 데 필수적인 연산모듈이 된다. 구현된 곱셈기는 자동으로 합성 하였고, 기준이 되는 RSA 프로세서의 동작 주파수에서 정상적으로 동작하였다.

재구성 가능한 암호화 프로세서에 적합한 32비트 곱셈기의 연구 (Study of a 32-bit Multiplier Suitable for Reconfigurable Cryptography Processor)

  • 문상국
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 추계종합학술대회 B
    • /
    • pp.740-743
    • /
    • 2008
  • 본 논문에서는 기본 워드를 128비트로 하고 곱셈 결과의 누적기로는 256비트의 레지스터를 사용하는 RSA 프로세서에서, 128 비트 곱셈을 효율적으로 수행하기 위하여 실험을 통하여 최적화한 32비트 $^*$ 32비트 곱셈기에 대한 연구를 수행하였다. $1024{\sim}2048$ 비트까지 재구성이 가능한 고비도 타겟 RSA 프로세서에서는 몽고메리 알고리즘을 효율적으로 처리하기 위하여 전체 키 스트림을 정해진 블록 단위로 처리한다. 본 논문에서 연구한 곱셈기는 128비트 곱셈에 필요한 누적곱셈 (MAC; multiply-and-aCcumultaion)을 효율적으로 구현하는 데 필수적인 연산모듈이 될 수 있다. 구현된 곱셈기는 시뮬레이션을 통하여 검증하였고, 자동 합성한 곱셈기 회로는 기준이 되는 RSA 프로세서의 동작 주파수에서 정상적으로 동작하였다.

  • PDF

32비트 3단 파이프라인을 가진 RISC 프로세서에 최적화된 Multiplier 구조에 관한 연구 (A Study on Multiplier Architectures Optimized for 32-bit RISC Processor with 3-Stage Pipeline)

  • 정근영;박주성;김석찬
    • 대한전자공학회논문지SD
    • /
    • 제41권11호
    • /
    • pp.123-130
    • /
    • 2004
  • 본 논문에서는 32비트 3단 파이프라인을 가진 RISC 프로세서에 최적화된 곱셈기 구조의 연구에 대해 다룬다. 대상 프로세서인 ARM7은 3단의 파이프라인 구조로 되어 있으며 이 프로세서의 곱셈기는 파이프라인 상의 실행 단계에서 최대 7사이클이 소요된다. 내장된 곱셈기는 기능적으로 부스 알고리즘을 적용하여 32×32 곱셈 연산과 덧셈 연산을 하여 64비트 결과를 낼 수 있는 MAC(Multiplier-Accumulator) 구조로 되어 있으며 6가지 세부 명령어를 실행할 수 있다. ARM7의 파이프라인 및 ALU와 shifter 구조에 적합한 radix4-32×8 및 radix4-32×16 과 radix8-32×32의 곱셈기 구조를 비교 분석하였으며 면적, 사이클 지연시간, 수행 사이클 수를 성능 기준으로 최적화된 곱셈기를 결정하여 설계하였다. 프로세서 코어에 내장된 곱셈기의 동작을 검증하기 위해 다양한 오디오 알고리즘을 이용하여 시뮬레이션을 수행하였다.

디지탈 뉴런프로세서의 구현에 관한 연구 (On the Implementation of the Digital Neuron Processor)

  • 홍봉화;이지영
    • 한국컴퓨터정보학회논문지
    • /
    • 제4권2호
    • /
    • pp.27-38
    • /
    • 1999
  • 본 논문에서는 캐리 전파가 없어 고속 연산이 가능한 잉여수체계(Residue Number System)를 이용하여 고속의 디지털 뉴런 프로세서를 제안하였다. 제안된 뉴런프로세서는 MAC (Multiply And Accumulator) 연산부, 몫연산부, 시그모이드(Sigmoid)함수 연산부로 구성되며, 0.8$\mu$m CMOS공정으로 설계되었다 실험결과, 본 논문에서 구현한 디지털 뉴런프로세서는 19.2nsec의 속도를 보였으며, 실수연산기로 구현한 뉴런프로세서에 비하여 약1/2정도 하드웨어 크기를 줄일 수 있었다.

  • PDF

최적화된 4진18진 혼합 MAC 설계 (An Optimized Hybrid Radix MAC Design)

  • 정진우;김승철;이용주;이용석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(2)
    • /
    • pp.173-176
    • /
    • 2002
  • This paper is about a high-speed MAC (multiplier and accumulator) design applying radix-4 and radix-8 Booth's algorithm at the same time. The optimized hybrid radix design for high speed MAC has taken advantage of both a radix-4 and a radix-8 architectures. A radix-4 architecture meets high-speed, but it takes much more power and chip area than a radix-8 architecture. A radix-8 architecture needs less power and chip area than the other, but it has a bottleneck of generating three times the multiplicand problem. An optimized hybrid architecture performs the radix-4 multiplication partially in parallel with the generation of three times the multiplicand for use of the radix-8 multiplication. It reduces the concerned bit width of multiplier in radix-8 multiplication.

  • PDF

최적화된 4진/8진 혼합 MAC 설계 (An Optimized Hybrid Radix MAC Design)

  • 정진우;김승철;이용주;이용석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(1)
    • /
    • pp.125-128
    • /
    • 2002
  • This paper is about a high-speed MAC (multiplier and accumulator) design applying radix-4 and radix-8 Booth's algorithm at the same time. The optimized hybrid radix design for high speed MAC has taken advantage of both a radix-4 and a radix-8 architectures. A radix-4 architecture meets high-speed, but it takes much more power and chip area than a radix-8 architecture. A radix-8 architecture needs less power and chip area than the other, but it has a bottleneck of generating three times the multiplicand problem. An optimized hybrid architecture performs tile radix-4 multiplication partially in parallel with the generation of three times the multiplicand for use of tile radix-8 multiplication. It reduces the concerned bit width of multiplier in radix-8 multiplication.

  • PDF