• 제목/요약/키워드: radix-4 algorithm

검색결과 89건 처리시간 0.019초

A Low-area and Low-power 512-point Pipelined FFT Design Using Radix-24-23 for OFDM Applications

  • Yu, Jian;Cho, Kyung-Ju
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권5호
    • /
    • pp.475-480
    • /
    • 2018
  • In OFDM-based systems, FFT is a critical component since it occupies large area and consumes more power. In this paper, we present a low hardware-cost and low power 512-point pipelined FFT design method for OFDM applications. To reduce the number of twiddle factors and to choose simple design architecture, the radix-$2^4-2^3$ algorithm are exploited. For twiddle factor multiplication, we propose a new canonical signed digit (CSD) complex multiplier design method to minimize the hardware-cost. In hardware implementation with Intel FPGA, the proposed FFT design achieves more than about 28% reduction in gate count and 18% reduction in power consumption compared to the previous approaches.

Vector-radix 2차원 고속 DCT의 VLSI 구현을 위한 효율적인 어레이 알고리듬 (An Efficient Array Algorithm for VLSI Implementation of Vector-radix 2-D Fast Discrete Cosine Transform)

  • 신경욱;전흥우;강용섬
    • 한국통신학회논문지
    • /
    • 제18권12호
    • /
    • pp.1970-1982
    • /
    • 1993
  • 본 논문에서는 vector-radix 2차원 고속 DCT(VR-FCT)를 VLSI 병렬계산하기 위한 효율적인 어레이 알고리듬을 제안하고, 이를 집적회로로 구현하기 위한 회로를 설계하였다. VR-FCT 알고리듬의 버터플라이 연산부분을 2차원 어레이에 매핑하여 이를 병렬 및 파이프라인 처리함을써 VR-FCT 알고리듬의 고속성과 2차원 어레이의 병렬성 및 국부통신 특성을 동시에 이용할 수 있다는 특징을 갖는다. 제안된 구현방식은 RCA 방식과는 달리 transposition 메모리가 필요치 않으며, 2차원 어레이의 구조적인 규칙성, 모듈성 및 국부연결성 등에 의해 회로설계 시간의 단축, 설계검증 및 설계변경등이 용이하여 VLSI 구현에 매우 적합하다. 연산회로는 곱셈기를 사용하기않고 가산기만으로 설계하였으며, 2의 보수연산 대신에 Canonic-Signed Didit(CSD) 코드를 사용함으로써 약 30%의 가산횟수를 줄일 수 있었다. 제안된 방법의 DCT 연산과정을 C언어로 모델링하여 회로의 유한 레지스터 길이에 대한 연산정밀도를 분석하였다. 제안된 어레이 알고리듬의 시간성능은 (N*N) 2차원 DCT에 대해 O(N+Nnzd-log2N)의 시간 복잡도를 갖는다. 시뮬레이션 결과고부터 Nnzp=4이고 50MHz 클럭이 사용되는 경우, (8*8) DCT계산에 약 0.88 sec가 소요괴며, 약 72*10 pixels/sec의 연산성능이 예상된다.

  • PDF

OFDM 모뎀용 FFT/IFFT IP 자동 생성기 (FFT/IFFT IP Generator for OFDM Modems)

  • 이진우;신경욱;김종환;백영석;어익수
    • 한국통신학회논문지
    • /
    • 제31권3A호
    • /
    • pp.368-376
    • /
    • 2006
  • 본 논문은 OFDM 변복조 모뎀 설계에 핵심 IP로 사용될 수 있는 파라메터화된 FFT/IFFT 코어 생성기 FCore_GenSim(Parameterized FFT Core Generation & Simulation Program)에 대해 기술한다. Fcore_GenSim은 FFT 코어의 Verilog-HDL 모델을 생성하는 parameterized 코어 생성기(PFFT_CoreGen)와 생성된 코어의 연산 정밀도를 분석해주는 fixed-point 시뮬레이터(FXP_FFTSim)로 구성된다. PFFT_CoreGen은 FFT 길이(64점 ~2048점 범위)와 입력/출력/중간결과/격자계수의 word-length(8-b~24-b 범위, 2-b 단위)를 지정하면, 지정된 사양을 갖는 FFT 코어의 Verilog-HDL 모델을 생성하며, 총 43,659 종류의 코어를 생성할 수 있다. 또한, 사용자의 필요에 따라 CBFP(Convergent Block Floating Point) 스케일링의 적용 여부를 지정할 수 있다. 생성되는 코어의 내부 구조는 FFT 길이에 따라 radix-2, radix-2/4, radix-2/4/8 알고리듬의 혼합구조가 적용되도록 하였으며, 또한 CBFP 스케일링의 적용 여부에 따라서도 R2SDF 단일구조 또는 R2SDF/R2SDC 복합구조가 적용되도록 함으로써 생성되는 코어의 회로 복잡도와 성능이 최적화되도록 하였다.

마이크로파이프라인 구조의 16bit 비동기 곱셈기 (Asynchronous 16bit Multiplier with micropipelined structure)

  • 장미숙;이유진;김학윤;이우석;최호용
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 하계종합학술대회 논문집(2)
    • /
    • pp.145-148
    • /
    • 2000
  • A 16bit asynchronous multiplier has been designed using micropipelind structure with 2 phase and data bundling. And 4-radix modified Booth algorithm, CPlatch(Cature-Pass latch) and modified 4-2 counters have adopted in this design. It is implemented in 0.65$\mu\textrm{m}$ double-poly/double-metal CMOS technology by using 12,074 transistors with core size of 1.4${\times}$1.8$\textrm{mm}^2$. And our design results in a computation rate 55MHz a supply voltage of 3.3V.

  • PDF

MPEG-2 AAC 복호기를 위한 부동소수점유닛 설계에 관한 연구 (A Study On the Design of a Floating Point Unit for MPEG-2 AAC Decoder)

  • 구대성;김필중;김종빈
    • 대한전자공학회논문지TE
    • /
    • 제39권4호
    • /
    • pp.355-355
    • /
    • 2002
  • 본 논문에서는 디지털 오디오의 하드웨어 설계 시 가장 중요하고 고집적도를 요구하는 부동소수점 유닛을 설계하였다. 대부분의 모든 오디오 시스템이 다채널을 지원하고 고음질을 요구한다. 하드웨어로 구현한 부동소수점 연산기는 MPEG-2 AAC 복호기를 DSP로 구현 시 실시간 디코딩이 가능하도록 설계하였다. 그 이유는 오디오 분야에서 MPEG-2 AAC는 MPEG-4 이후 오디오와 상호 호환성을 갖기 때문이다. MPEG-2 AAC 디코더에서 가장 많은 연산부분을 차지하는 부동소수점유닛의 속도향상을 위하여 하드웨어로 설계하였다. FPU는 승산기와 가산기로 구성되어있다. 승산기는 Radix-4 Booth알고리즘을 사용하였고 가산기는 속도향상을 위하여 1의 보수 방식을 채택하였다. 부동소수점 형식은 지수부에 8bit 가수부에 24bit를 사용한다. IEEE 단정도 포맷과 호환되도록 설계하였으며, 연산기의 속도를 향상시키기 위하여 파이프라인 구조를 채택하였다. 모든 세부블록들은 ISO/IEC 13818-7 표준에 의거하여 구현하였다. 알고리즘 테스트는 C언어를 사용하였고, 설계는 VHDL(VHSIC Hardware Description Language)을 사용하였다. 최대동작속도는 23.2MHz이고, 안정상태의 동작속도는 약 19MHz이다.

OFDM 기반 통신 시스템용 단일 메모리 구조의 64~8,192점 FFI/IFFFT 코어 생성기 (A Generator of 64~8,192-point FFT/IFFT Cores with Single-memory Architecture for OFDM-based Communication Systems)

  • 임창완;전흥우;신경욱
    • 한국정보통신학회논문지
    • /
    • 제14권1호
    • /
    • pp.205-212
    • /
    • 2010
  • 본 논문에서는 OFDM 기반의 통신 시스템용 FFT/IFFT 코어 생성기 (FCore_Gen)를 구현하였다. FCore_Gen은 FFT 길이, 입력 비트수, 내부 중간 결과 값의 비트수, 격자계수 비트수 등의 선택에 따라 총 640가지 의 FFT/IFFT 코어를 Verilog-HDL 코드로 생성한다. 생성되는 FFT/IFFT 코어는 in-place 방식의 단일 메모리 구조를 기반으로 하며, FFT 길이에 따라 radix-4, radix-2 알고리듬의 혼합 구조가 적용된다. 또한, 메모리 감소와 연산 정밀도 향상을 위하여 중간 결과 값의 크기에 따른 조건적 스케일링이 연산 stage 단위로 적용되도록 하였다. 생성되는 코어를 $0.35-{\mu}m$ CMOS 표준 셀로 합성 한 결과 75-MHz@3.3-V의 속도로 동작 가능하여 64점 FFT 연산에 $2.55-{\mu}s$가 소요되고, 8192 점 FFT 연산에 $762.7-{\mu}s$가 소요되어 OFDM기반의 무선 랜, DMB, DVB 시스템의 요구조건을 만족한다.

순차적 데이터 처리방식을 이용한 디지틀 오디오 방송용 2048 Point FFT/IFFT의 VLSI 설계 (VLSI Design of a 2048 Point FFT/IFFT by Sequential Data Processing for Digital Audio Broadcasting System)

  • 최준림
    • 대한전자공학회논문지SD
    • /
    • 제39권5호
    • /
    • pp.65-73
    • /
    • 2002
  • 본 논문에서는 순차적 입력 데이터 처리방식을 이용하여 2048 point FFT/IFFT를 단일 칩으로 구현하는 방법을 제안하고 검증하였다. 순차적으로 입력되는 2028개의 복소 데이터를 처리하기 위해서는 입력 데이터를 저장하는 버퍼가 필요하고 이 입력 버퍼로는 DRAM 회로를 이용한 지연 변환기 (delay commutator)를 사용하여 전체 칩 면적을 35% 이상 줄일 수 있었다. 전체 FFT/IFFT는 16 point FFT를 기본 블록으로 사용하며, radix-4 구조를 가지는 다섯 단계와 radix-2 구조를 가지는 하나의 단계로 이루어져 있다. 각 단계마다 연산을 수행하면서 증가되는 결과 S/N 비를 유지하면서 비트 라운딩을 하기 위해 convergent block floating point (CBFP) 알고리즘을 적용하여 digital audio broadcasting(DAB)을 위한 단일 칩 설계에 기여하였다.

IEEE 754-1985 단정도 부동 소수점 연산용 나눗셈기 설계 (Design of a Floating-Point Divider for IEEE 754-1985 Single-Precision Operations)

  • 박안수;정태상
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2001년도 합동 추계학술대회 논문집 정보 및 제어부문
    • /
    • pp.165-168
    • /
    • 2001
  • This paper presents a design of a divide unit supporting IEEE-754 floating point standard single-precision with 32-bit word length. Its functions have been verified with ALTERA MAX PLUS II tool. For a high-speed division operation, the radix-4 non-restoring algorithm has been applied and CLA(carry-look -ahead) adders has been used in order to improve the area efficiency and the speed of performance for the fraction division part. The prevention of the speed decrement of operations due to clocking has been achieved by taking advantage of combinational logic. A quotient select block which is very complicated and significant in the high-radix part was designed by using P-D plot in order to select the fast and accurate quotient. Also, we designed all division steps with Gate-level which visualize the operations and delay time.

  • PDF

OFDM시스템에 적합한 Serial Pipeline 방식의 SRFFT 설계 (Design of serial pipeline SRFFT for OFDM system)

  • 정진일;임재형;조용범
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(2)
    • /
    • pp.153-156
    • /
    • 2002
  • FFT/IFFT block is very important module to determine the performance of OFDM system. This block has been implemented using several FFT algorithms such as radix-2, radix-4 etc. However SRFFT algorithm has not been implemented because of the complexity for implementation. This paper proposes a serial-pipeline SRFfT for OFDM system. The serial-pipeline SRFFT is optimized to use a serial input and serial output. We have implemented the SRFFT block using anam 0.25 Um five-metal process. The simulation show that the SRFFT block can operate about 200MHz. This architecture could be adapted to IEEE 802.lla wireless LAN standard.

  • PDF

NPU 반도체를 위한 저정밀도 데이터 타입 개발 동향 (Trends of Low-Precision Processing for AI Processor)

  • 김혜지;한진호;권영수
    • 전자통신동향분석
    • /
    • 제37권1호
    • /
    • pp.53-62
    • /
    • 2022
  • With increasing size of transformer-based neural networks, a light-weight algorithm and efficient AI accelerator has been developed to train these huge networks in practical design time. In this article, we present a survey of state-of-the-art research on the low-precision computational algorithms especially for floating-point formats and their hardware accelerator. We describe the trends by focusing on the work of two leading research groups-IBM and Seoul National University-which have deep knowledge in both AI algorithm and hardware architecture. For the low-precision algorithm, we summarize two efficient floating-point formats (hybrid FP8 and radix-4 FP4) with accuracy-preserving algorithms for training on the main research stream. Moreover, we describe the AI processor architecture supporting the low-bit mixed precision computing unit including the integer engine.