초록
본 논문은 알고리즘 레벨에서 FPGA를 이용하여 에너지 효율이 높은 기법을 제안한다. 제안한 기법을 기반으로 FPGA와 행렬곱셈용 신호처리응용을 위한 고효율 설계 기술을 제안한다. 또한 이러한 신호처리응용 수행시 지연시간과 에너지 효율 측면에서의 FPGA 성능을 분석한다. Xilinx Virtex-II를 대상으로 Virtex-II Pro와 Texas Instrument TMS320C6415에 내장되는 Power PC 코어에서 구동되는 Xilinx library와 기존 알고리즘을 본 논문 기법과의 성능 비교를 수행한다. 성능 비교는 high-level에서 에너지와 지연 시간에 대한 유도 공식을 통한 추정치와 low-level 시뮬레이션을 통해 평가하였다. FFT에 대해 본 논문에서 제안한 기법은 Xilinx library와 DSP에 비해 각각 $60\%,\;56\%$ 적은 에너지를 소모한다는 결과를 얻었다. 또한 임베디드 프로세서와 비교해 EAT지수에서 10배의 개선을 보여준다. 위와 같은 결과는 FPGA가 DSP나 임베디드 프로세서에 비해 월등한 성능을 보여준다는 견해에 결정적인 단서가 된다 또한, 이는 FPGA가 앞의 두 종류의 디바이스에 비해 더 적은 전력을 소모하면서 동시에 더 나은 성능을 보인다는 사실을 보여준다.
In this paper, we present algorithm-level techniques for energy-efficient design at the algorithm level using FPGAs. We then use these techniques to create energy-efficient designs for two signal processing kernel applications: fast Fourier transform(FFT) and matrix multiplication. We evaluate the performance, in terms of both latency and energy efficiency, of FPGAs in performing these tasks. Using a Xilinx Virtex-II as the target FPGA, we compare the performance of our designs to those from the Xilinx library as well as to conventional algorithms run on the PowerPC core embedded in the Virtex-II Pro and the Texas Instruments TMS320C6415. Our evaluations are done both through estimation based on energy and latency equations on high-level and through low-level simulation. For FFT, our designs dissipated an average of $50\%$ less energy than the design from the Xilinx library and $56\%$ less than the DSP. Our designs showed an EAT factor of 10 times improvement over the embedded processor. These results provide a concrete evidence to substantiate the idea that FPGAs can outperform DSPs and embedded processors in signal processing. Further, they show that PFGAs can achieve this performance while still dissipating less energy than the other two types of devices.