• 제목/요약/키워드: Pipelined arithmetic unit

검색결과 11건 처리시간 0.03초

파이프라인 구조 연산회로를 위한 AMBA AXI Slave 설계 (Design of AMBA AX I Slave Unit for Pipelined Arithmetic Unit)

  • 최병윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2011년도 춘계학술대회
    • /
    • pp.712-713
    • /
    • 2011
  • 본 논문에서는 파이프라인 구조의 연산회로를 효율적으로 검증하기 위한 AMBA AXI Slave 하드웨어 구조를 제안하고, 설계 예로 파이프라인 곱셈기를 내장한 구조를 제시하였다. 제안한 AXI Slave 회로는 입출력 버퍼 블록 메모리, 제어용 레지스터, 파이프라인 구조 연산 회로, 파이프라인 제어회로, AXI 버스 슬레이브 인터페이스로 구성된다. 주요 동작 과정은 입력 버퍼 메모리와 외부 마스터 사이의 버스트 데이터 전송, 제어 레지스터에 동작 모드 설정, 입력 버퍼 메모리에 담긴 데이터에 대한 반복적인 파이프라인 연산회로 동작, 출력 버퍼 메모리에 담긴 출력 데이터와 외부 마스터 사이의 버스트 데이터 전송으로 나누어진다. 제안한 AXI slave 구조는 범용 인터페이스 구조를 갖고 있으므로 파이프라인 구조 구조의 연산회로를 내장한 AMBA AHB와 AXI slave에 응용이 가능하다.

  • PDF

수퍼스칼라 마이크로프로세서용 부동 소수점 연산회로의 설계 (A design of floating-point arithmetic unit for superscalar microprocessor)

  • 최병윤;손승일;이문기
    • 한국통신학회논문지
    • /
    • 제21권5호
    • /
    • pp.1345-1359
    • /
    • 1996
  • This paper presents a floating point arithmetic unit (FPAU) for supescalar microprocessor that executes fifteen operations such as addition, subtraction, data format converting, and compare operation using two pipelined arithmetic paths and new rounding and normalization scheme. By using two pipelined arithmetic paths, each aritchmetic operation can be assigned into appropriate arithmetic path which high speed operation is possible. The proposed normalization an rouding scheme enables the FPAU to execute roundig operation in parallel with normalization and to reduce timing delay of post-normalization. And by predicting leading one position of results using input operands, leading one detection(LOD) operation to normalize results in the conventional arithmetic unit can be eliminated. Because the FPAU can execuate fifteen single-precision or double-precision floating-point arithmetic operations through three-stage pipelined datapath and support IEEE standard 754, it has appropriate structure which can be ingegrated into superscalar microprocessor.

  • PDF

Design of Pipelined Floating-Point Arithmetic Unit for Mobile 3D Graphics Applications

  • Choi, Byeong-Yoon;Ha, Chang-Soo;Lee, Jong-Hyoung;Salclc, Zoran;Lee, Duck-Myung
    • 한국멀티미디어학회논문지
    • /
    • 제11권6호
    • /
    • pp.816-827
    • /
    • 2008
  • In this paper, two-stage pipelined floating-point arithmetic unit (FP-AU) is designed. The FP-AU processor supports seventeen operations to apply 3D graphics processor and has area-efficient and low-latency architecture that makes use of modified dual-path computation scheme, new normalization circuit, and modified compound adder based on flagged prefix adder. The FP-AU has about 4-ns delay time at logic synthesis condition using $0.18{\mu}m$ CMOS standard cell library and consists of about 5,930 gates. Because it has 250 MFLOPS execution rate and supports saturated arithmetic including a number of graphics-oriented operations, it is applicable to mobile 3D graphics accelerator efficiently.

  • PDF

초전도 Pipelined Multi-Bit ALU에 대한 연구 (Study of the Superconductive Pipelined Multi-Bit ALU)

  • 김진영;고지훈;강준희
    • Progress in Superconductivity
    • /
    • 제7권2호
    • /
    • pp.109-113
    • /
    • 2006
  • The Arithmetic Logic Unit (ALU) is a core element of a computer processor that performs arithmetic and logic operations on the operands in computer instruction words. We have developed and tested an RSFQ multi-bit ALU constructed with half adder unit cells. To reduce the complexity of the ALU, We used half adder unit cells. The unit cells were constructed of one half adder and three de switches. The timing problem in the complex circuits has been a very important issue. We have calculated the delay time of all components in the circuit by using Josephson circuit simulation tools of XIC, $WRspice^{TM}$, and Julia. To make the circuit work faster, we used a forward clocking scheme. This required a careful design of timing between clock and data pulses in ALU. The designed ALU had limited operation functions of OR, AND, XOR, and ADD. It had a pipeline structure. The fabricated 1-bit, 2-bit, and 4-bit ALU circuits were tested at a few kilo-hertz clock frequency as well as a few tens giga-hertz clock frequency, respectively. For high-speed tests, we used an eye-diagram technique. Our 4-bit ALU operated correctly at up to 5 GHz clock frequency.

  • PDF

복소수 데이터 처리가 가능한 멀티미디어 프로세서용 고성능 연산회로의 하드웨어 설계 (Hardware Design of High Performance Arithmetic Unit with Processing of Complex Data for Multimedia Processor)

  • 최병윤
    • 한국정보통신학회논문지
    • /
    • 제20권1호
    • /
    • pp.123-130
    • /
    • 2016
  • 본 논문에서는 멀티미디어용 알고리즘을 고속으로 처리하기 위한 고성능 연산 회로를 설계하였다. 3단 파이프라인 구조로 동작하는 연산회로는 4개의 16-비트${\times}$16-비트 곱셈기의 효율적인 구성, 캐리 보존 형식 데이터에 대한 새로운 부호 확장 기법과 다수 개의 부분 곱셈 결과의 통합과정에 부호 확장을 제거하는 교정 상수 기법을 사용하여 복소수 데이터와 가변 길이 고정 소수점 데이터에 대한 38개의 연산을 처리할 수 있다. 설계한 프로세서는 45nm CMOS 공정에서 최대 동작 속도는 300 MHz이며 약 37,000 게이트로 구성되며 300 MCOPS의 연산 성능을 갖는다. 연산 프로세서는 높은 연산 속도와 응용 분야에 특화된 다양한 연산 지원으로 멀티미디어 프로세서에 효율적으로 응용 가능하다.

모바일 그래픽 응용을 위한 파이프라인 구조 특수 목적 연산회로의 하드웨어 설계 (Hardware Design of Pipelined Special Function Arithmetic Unit for Mobile Graphics Application)

  • 최병윤
    • 한국정보통신학회논문지
    • /
    • 제17권8호
    • /
    • pp.1891-1898
    • /
    • 2013
  • 3차원 그래픽 API인 OpenGL과 Direct3D를 효율적으로 처리하기 위해 sine, cosine, 역수, 역제곱근, 지수 및 로그 연산을 처리하는 부동소수점 연산회로를 설계하였다. 고속 연산과 2 ulp 보다 작은 오차를 만족시키기 위해 2차 최대최소 근사 방식과 테이블 룩업 방식을 사용하였다. 설계된 회로는 65nm CMOS 표준 셀 조건에서 2.3-ns의 최대 지연시간을 갖고 있으며, 약 23,300 게이트로 구성된다. 최대 400 MFLOPS의 연산 성능과 높은 정밀도로, 설계한 연산회로는 3차원 모바일 그래픽 분야에 효율적으로 적용 가능하다.

작은 룩업테이블을 가지는 새로운 파이프라인 나눗셈기 (A New Pipelined Divider with a Small Lookup Table)

  • 정웅;박우찬;곽승호;양훈모;정철호;한탁돈;이문기
    • 대한전자공학회논문지SD
    • /
    • 제40권9호
    • /
    • pp.724-733
    • /
    • 2003
  • 기존의 나눗셈 연산기들은 대부분 반복적인 방식으로 연산을 수행하여 왔으나, 최근에는 파이프라인드 나눗셈 연산기에 대한 연구가 시도되고 있다. 현재 발표된 파이프라인 나눗셈 연산기는 큰 사이즈의 룩업테이블을 필요로 하기 때문에 면적을 크게 차지한다는 단점이 있다. 본 논문에서는 기존의 파이프라인드 나눗셈 연산기에 비해 룩업테이블을 크게 줄여, 비용에 효과적인 파이프라인 나눗셈 연산기를 제안한다. 제안하는 나눗셈 연산기는 단정밀도에서 3 사이클의 지연시간를 가지며, P. Hung의 방식에 비하여 약 30퍼센트 정도의 면적을 줄일 수 있다.

초전도 논리연산자의 개발 (Development of Superconductive Arithmetic and Logic Devices)

  • 강준희
    • Progress in Superconductivity
    • /
    • 제6권1호
    • /
    • pp.7-12
    • /
    • 2004
  • Due to the very fast switching speed of Josephson junctions, superconductive digital circuit has been a very good candidate fur future electronic devices. High-speed and Low-power microprocessor can be developed with Josephson junctions. As a part of an effort to develop superconductive microprocessor, we have designed an RSFQ 4-bit ALU (Arithmetic Logic Unit) in a pipelined structure. To make the circuit work faster, we used a forward clocking scheme. This required a careful design of timing between clock and data pulses in ALU. The RSFQ 1-bit block of ALU used in this work consisted of three DC current driven SFQ switches and a half-adder. We successfully tested the half adder cell at clock frequency up to 20 GHz. The switches were commutating output ports of the half adder to produce AND, OR, XOR, or ADD functions. For a high-speed test, we attached switches at the input ports to control the high-speed input data by low-frequency pattern generators. The output in this measurement was an eye-diagram. Using this setup, 1-bit block of ALU was successfully tested up to 40 GHz. An RSFQ 4-bit ALU was fabricated and tested. The circuit worked at 5 GHz. The circuit size of the 4-bit ALU was 3 mm ${\times}$ 1.5 mm, fitting in a 5 mm ${\times}$ 5 mm chip.

  • PDF

초전도 마이크로 프로세서개발을 위한 RSFQ ALU 회로의 타이밍 분석 (Timing analysis of RSFQ ALU circuit for the development of superconductive microprocessor)

  • 김진영;백승헌;김세훈;강준희
    • 한국초전도ㆍ저온공학회논문지
    • /
    • 제7권1호
    • /
    • pp.9-12
    • /
    • 2005
  • We have constructed an RSFQ 4-bit Arithmetic Logic Unit (ALU) in a pipelined structure. An ALU is a core element of a computer processor that performs arithmetic and logic operation on the operands in computer instruction words. We have simulated the circuit by using Josephson circuit simulation tools. We used simulation tools of XIC, $WRspice^{TM}$, and Julia. To make the circuit work faster, we used a forward clocking scheme. This required a careful design of timing between clock and data pulses in ALU. The RSFQ 1-bit block of ALU used in constructing the 4-bit ALU was consisted of three DC current driven SFQ switches and a half-adder. By commutating output ports of the half adder, we could produce AND, OR, XOR, or ADD functions. The circuit size of the 4-bit ALU when fabricated was 3 mm x 1.5 mm, fitting in a 5 mm x 5mm chip. The fabricated 4-bit ALU operated correctly at 5 GHz clock frequency. The chip was tested at the liquid-helium temperature.

이동 보상과 분류 벡터 양자화기를 이용한 영상 부호화에 관한 연구 (Ⅱ: 하드웨어 실현) (A Study on the Interframe Image Coding Using Motion Compensated and Classified Vector Quantizer (Ⅱ : Hardware Implementation))

  • 전중남;신태민;최성남;박규태
    • 대한전자공학회논문지
    • /
    • 제27권3호
    • /
    • pp.21-30
    • /
    • 1990
  • 본 논문은 MC-CVQ(motion compensated and classified vector quantization) 알고리듬의 하드웨어 실현에 관한 것으로, $128{\times}128$화소로 구성된 흑백영상을 64Kbps채널로 1초에 약 10장의 화면을 전송할 수 있는 화면간 부호화장치의 제작에 대하여 설명하였다. 위의 조건하에서 보호화를 수행하기 위하여, 시스템을 MC부, CVQ부, 보호화부로 구분하여 마이크로프로그램 제어에 의한 멀티프로세서 구조로 구성하였다. 그리고 MC부와 CVQ부에서 최소 거리 오차를 효율적으로 계산하기 위하여 연산부에는 3~단 파이프라인 구조를 채택하였다. 시스템 제작 후 성능을 평가한 결과, 본 시스템의 화면전송율은 영상신호의 상대적 이동량에 따라 1초에 6~15장 정도임을 확인하였다.

  • PDF