• 제목/요약/키워드: Multiplier-Accumulator

검색결과 30건 처리시간 0.026초

효율적인 실시간 영상처리용 2-D 컨볼루션 필터 칩 (An Efficient 2-D Conveolver Chip for Real-Time Image Processing)

  • 은세영;선우명
    • 전자공학회논문지C
    • /
    • 제34C권10호
    • /
    • pp.1-7
    • /
    • 1997
  • This paper proposes a new real-time 2-D convolver filter architecture wihtout using any multiplier. To meet the massive amount of computations for real-time image processing, several commercial 2-D convolver chips have many multipliers occupying large VLSI area. Te proposed architecture using only one shift-and-accumulator can reduce the chip size by more than 70% of commercial 2-D convolver filter chips and can meet the real-time image processing srequirement, i.e., the standard of CCIR601. In addition, the proposed chip can be used for not only 2-D image processing but also 1-D signal processing and has bood scalability for higher speed applications. We have simulated the architecture by using VHDL models and have performed logic synthesis. We used the samsung SOG cell library (KG60K) and verified completely function and timing simulations. The implemented filter chip consists of only 3,893 gates, operates at 125 MHz and can meet the real-time image processing requirement, that is, 720*480 pixels per frame and 30 frames per second (10.4 mpixels/second).

  • PDF

고속 디지탈 퍼지 추론회로 개발과 산업용 프로그래머블 콘트롤러에의 응용

  • 최성국;김영준;박희재;고덕용;김재옥
    • 한국정밀공학회:학술대회논문집
    • /
    • 한국정밀공학회 1992년도 춘계학술대회 논문집
    • /
    • pp.354-358
    • /
    • 1992
  • This paper describes a development of high speed fuzzy inference circuit for the industrialprocesses. The hardware fuzzy inference circuit is developed utilizing a hardware fuzzy inference circuit is developed utilizing a DSP and a multiplier and accumulator chip. To enhance the inference speed, the pipeline disign is adopted at the bottleneck and the general Max-Min inference method is slightly modified as Max-max method. As a results, the inference speed is evaluated to be 100 KFLIPS. Owing to this high speed feature, satisfactory application can be attained for complex high speed motion control as well as the control of multi-input multi-output nonlinear system. As an application, the developed fuzzy inference circuit is embedded to a PLC (Porgrammable Logic Controller) for industrial process control. For the fuzzy PLC system, to fascilitate the design of the fuzzy control knowledge such as membership functions, rules, etc., a MS-Windows based GUI (Graphical User Interface) software is developed.

디지털 뉴런프로세서의 설계에 관한 연구 (Design of the Digital Neuron Processor)

  • 홍봉화;이호선;박화세
    • 전자공학회논문지 IE
    • /
    • 제44권3호
    • /
    • pp.12-22
    • /
    • 2007
  • 본 논문에서는 잉여수체계(Residue Number System)를 이용하여 고속의 디지털 신경회로망을 제안하고 이를 구현하기 위한 중요연산부인 고속의 디지털 뉴런프로세서를 설계하였다. 설계된 디지털 뉴런프로세서는 잉여수계를 이용한 MAC 연산기와 혼합계수 변환을 이용한 시그모이드 함수 연산 부로 구성되며, 설계된 회로는 VHDL로 기술하였고 Compass 툴로 합성하였다. 실험결과, 본 논문에서 설계한 디지털 뉴런프로세서는 19.2nsec의 속도를 보였으며, 실수연산기로 설계한 뉴런프로세서에 비하여 약 50%정도 하드웨어 크기를 줄일 수 있었다. 본 논문에서 설계한 뉴런프로세서는 실시간 처리를 요하는 병렬분산처리 시스템에 적용될 수 있을 것으로 기대된다.

DSSS 동기탐색을 위한 이중 데이터 흐름 경로를 갖는 정합필터 (A Matched Filter with Two Data Flow Paths for Searching Sychronization in DSSS)

  • 송명렬
    • 한국통신학회논문지
    • /
    • 제29권1A호
    • /
    • pp.99-106
    • /
    • 2004
  • 본 논문에서는 DSSS (Direct Sequence Spread Spectrum) 수신기에서 초기동기 탐색에 사용될 수 있는 정합필터에 대해서 연구하였다. 하드웨어기술언어 (HDL)로 표현될 수 있는 단일 데이터 흐름 경로를 갖는 정합필터가 설명되었다. 필터 연산의 처리시간을 개선하기 위해 데이터의 흐름이 이중으로 표현될 수 있도록 식이 정리되고 이와 연관된 하드웨어 모델이 제시되었다. 제안된 모델은 고속 처리를 위해 병렬처리와 파이프라인을 기반으로 하고 일련의 메모리, 곱셈기, 누산기로 구성된 두 개의 데이터 흐름 경로가 평행하게 배열된 구조이다. 제안된 모델에 대해 성능을 분석하였고 단인 데이터 흐름 경로 구조의 정합필터와 비교하였다.

Application of Constraint Algorithm for High Speed A/D Converters

  • ;여수아;김만호;김종수
    • 융합신호처리학회논문지
    • /
    • 제9권3호
    • /
    • pp.224-229
    • /
    • 2008
  • In the paper, a new Constraint algorithm is proposed to solve the fan-in problem occurred in the encoding circuitry of an ADC. The Flash ADC architecture uses a Double-Base Number System(DBNS). The DBNS has been known to represent the Multidimensional Logarithmic Number System (MDLNS) used for implementing the multiplier accumulator architecture of FIR filter in Digital Signal Processing (DSP) applications. The authors use the DBNS with the base 2 and 3 in designing ADC encoder circuits, which is called as Double Base Integer Encoder(DBIE). A symmetric map is analyzed first, and then asymmetric map is followed to provide addition ready DBNS for DSP circuitry. The simulation results of the DBIE circuits in 6-bit and 8-bit ADC show the effectiveness of the Constraint algorithm with $0.18{\mu}m$ CMOS technology. The DBIE yields faster processing speed compared to the speed of Fat Tree Encoder (FAT) circuits by 17% at more power consumption by 39%.

  • PDF

혼성신호 컨볼루션 뉴럴 네트워크 가속기를 위한 저전력 ADC설계 (Low Power ADC Design for Mixed Signal Convolutional Neural Network Accelerator)

  • 이중연;말릭 수메르;사아드 아슬란;김형원
    • 한국정보통신학회논문지
    • /
    • 제25권11호
    • /
    • pp.1627-1634
    • /
    • 2021
  • 본 논문은 저전력 뉴럴 네트워크 가속기 SOC를 위한 아날로그 Convolution Filter용 저전력 초소형 ADC 회로 및 칩 설계 기술을 소개한다. 대부분의 딥러닝의 학습과 추론을 할 수 있는 Convolution neural network accelerator는 디지털회로로 구현되고 있다. 이들은 수많은 곱셈기 및 덧셈기를 병렬 구조로 구현하며, 기존의 복잡한 곱셉기와 덧셈기의 디지털 구현 방식은 높은 전력소모와 큰 면적을 요구하는 문제점을 가지고 있다. 이 한계점을 극복하고자 본 연구는 디지털 Convolution filter circuit을 Analog multiplier와 Accumulator, ADC로 구성된 Analog Convolution Filter로 대체한다. 본 논문에서는 최소의 칩면적와 전력소모로 Analog Accumulator의 아날로그 결과 신호를 디지털 Feature 데이터로 변환하는 8-bit SAR ADC를 제안한다. 제안하는 ADC는 Capacitor Array의 모든 Capacitor branch에 Split capacitor를 삽입하여 모든 branch의 Capacitor 크기가 균등하게 Unit capacitor가 되도록 설계하여 칩면적을 최소화 한다. 또한 초소형 unit capacitor의 Voltage-dependent capacitance variation 문제점을 제거하기 Flipped Dual-Capacitor 회로를 제안한다. 제안하는 ADC를 TSMC CMOS 65nm 공정을 이용하여 설계하였으며, 전체 chip size는 1355.7㎛2, Power consumption은 2.6㎼, SNDR은 44.19dB, ENOB는 7.04bit의 성능을 달성하였다.

고비도 RSA 프로세서에 적용 가능한 효율적인 누적곱셈 연산기 (An Efficient MAC Unit for High-Security RSA Cryptoprocessors)

  • 문상국
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 춘계종합학술대회
    • /
    • pp.778-781
    • /
    • 2007
  • 1024비트 이상의 고비도 RSA 프로세서에서는 몽고메리 알고리즘을 효율적으로 처리하기 위하여 전체 키 스트림을 정해진 블록 단위로 처리한다. 본 논문에서 기본으로 하는 RSA 프로세서는 기본 워드를 128비트로 하고 곱셈 결과의 누적기로는 256비트의 레지스터를 사용한다. 128 비트 곱셈을 효율적으로 수행하기 위하여 32비트 * 32비트 곱셈기를 사용하며 각 연산 결과는 128비트 크기의 8개 레지스터에 필요에 따라 저장되어 몽고메리 알고리즘을 수행하는데 사용된다. 본 논문에서는 128 비트 곱셈에 필요한 누적곱셈 (MAC; multiply-and-aCcumultaion)을 효율적으로 계산하기 위하여 모든 연산 단계를 미리 분석하여 불필요한 연산단계를 수행하지 않고 곱셈 횟수를 줄여 효율적인 누적곱셈 연산기를 구현하였다. 구현된 누적곱셈 연산기는 자동으로 합성하였고, 본 논문 작성에서 기준이 되는 RSA 프로세서의 동작 주파수인 20MHz에서 정상적으로 동작하였다.

  • PDF

생산자동화 시스템에서 실시간 물체인식을 위한 디지털 뉴런프로세서의 설계 및 구현 (Design and Implementation of the Digital Neuron Processor for the real time object recognition in the making Automatic system)

  • 홍봉화;주해종
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권3호
    • /
    • pp.37-50
    • /
    • 2007
  • 본 논문에서는 캐리전파가 없어 고속연산이 가능한 잉여 수 체계(Residue Number System)를 이용하여 생산자동화 시스템에서 실시간 물체인식을 위한 고속의 디지털 뉴런 프로세서를 제안하고 이를 구현하기 위한 중요연산부인 PE를 설계 및 구현하였다. 설계된 디지털 뉴런프로세서는 잉여수계를 이용한 MAC(Multiplier and Accumulator)연산기와 혼합계수 변환을 이용한 시그모이드 함수 연산부로 구성된다. 설계된 회로는 C언어 및 VHDL로 기술하였고 Compass툴로 합성하였으며 LG $0.8{\mu}m$ CMOS공정으로 설계되었다. 실험결과 본 논문에서 설계 및 구현한 디지털 뉴런프로세서는 기존 방식의 잉여수계를 이용한 연산기 및 실수연산기로 구현한 뉴런프로세서에 비하여 3배 이상의 연산속도와 약 50%정도 하드웨어 크기를 줄일 수 있었다. 본 논문에서 설계 및 구현한 디지털 뉴런프로세서는 실시간 처리를 요하는 생산자동화 시스템의 물체인식 시스템에 적용될 수 있을 것으로 기대된다.

  • PDF

RSA 암호화 프로세서에 적용 가능한 효율적인 누적곱셈 연산기 설계 (Design of an Efficient MAC Unit for RSA Cryptoprocessors)

  • 문상국
    • 한국정보통신학회논문지
    • /
    • 제12권1호
    • /
    • pp.65-70
    • /
    • 2008
  • 1024비트 이상의 고비도 RSA 프로세서에서는 몽고메리 알고리즘을 효율적으로 처리하기 위하여 전체 키 스트림을 정해진 블록 단위로 처리한다. 본 논문에서 기본으로 하는 RSA프로세서는 기본 워드를 128비트로 하고 곱셈 곁과의 누적기로는 256비트의 레지스터를 사용한다. 128 비트 곱셈을 효율적으로 수행하기 위하여 32비트${\times}$32비트 곱셈기를 사용하며 각 연산 결과는 128비트 크기의 8개 레지스터에 필요에 따라 저장되어 몽고메리 알고리즘을 수행하는데 사용된다. 본 논문에서는 128비트 곱셈에 필요한 누적곱셈 (MAC; multiply-and-aCcumultaion)을 효율적으로 계산하기 위하여 모든 연산 단계를 미리 분석하여 불필요한 연산단계를 수행하지 않고 곱셈 횟수를 줄여 효율적인 누적 곱셈 연산기를 구현하였다. 구현된 누적 곱셈 연산기는 자동으로 합성하였고, 본 논문 작성에서 기준이 되는 RSA프로세서의 동작 주파수인 20MHz에서 정상적으로 동작하였다

다중 피연산자 십진 CSA와 개선된 십진 CLA를 이용한 부분곱 누산기 설계 (Design of Partial Product Accumulator using Multi-Operand Decimal CSA and Improved Decimal CLA)

  • 이양;박태신;김강희;최상방
    • 전자공학회논문지
    • /
    • 제53권11호
    • /
    • pp.56-65
    • /
    • 2016
  • 본 논문에선 병렬 십진 곱셈기의 축약 단계의 면적과 지연시간을 감소시켜 성능을 향상시키기 위해 다중 피연산자 십진 CSA과 개선된 십진 CLA를 이용한 트리 구조를 제안한다. 제안한 부분곱 축약 트리는 십진수 부분곱에 대해 다중 피연산자 십진 CSA를 사용하여 빠르게 부분곱을 축약한다. 각 CSA에서는 리코딩에 입력의 범위를 제한함으로써 가장 간단한 리코더 로직을 얻는다. 그리고 각 CSA는 특정한 아키텍처 트리의 특정한 위치에서 범위가 제한된 십진수를 더하기 때문에 부분곱 축약 단계의 연산을 효율적으로 수행할 수 있다. 또한, 사용되는 십진 CLA의 로직을 개선하여 BCD 결과를 빠르게 얻을 수 있다. 제안한 십진 부분곱 축약 단계의 성능의 평가를 위해 Design Compiler를 통해 SMIC사의 180nm CMOS 공정 라이브러리를 이용하여 합성하였다. 일반 방법을 이용하는 축약 단계에 비해 제안한 부분곱 축약 단계의 지연시간은 약 15.6% 감소하였고 면적은 약 16.2% 감소하였다. 또한 십진 CLA의 지연시간과 면적이 증가가 있음에도 불구하고 전체 지연시간과 전체 면적이 감소함을 확인하였다.