• 제목/요약/키워드: 하드웨어 가속기

Search Result 125, Processing Time 0.029 seconds

휴대용 실시간 MP 오디오 부호화기를 위한 하드웨어 가속기 설계 (Design of Hardware Accelerator for Portable Real-time MP3 Audio Encoder)

  • 여창훈;방경호;이근섭;박영철;윤대희
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅳ
    • /
    • pp.2132-2135
    • /
    • 2003
  • 본 논문에서는 고정소수점 DSP로 구현한 실시간 MP3 오디오 부호화기에 사용되는 초월함수용 하드웨어 가속기 구조를 제안한다. 구현된 하드웨어 가속기는 MP3 부호화 성능을 저하시키는 초월함수 연산오차에 강인하도록 설계되었다. 제안된 가속기의 연산오차는 Q1.23 고정소수점 출력에서 2비트, 즉 2/sup -21/ 까지의 연산오차를 가진다. LAME 부호화기[5]심리음향 모델의 SMR 오차는 테이블 보간법[4]을 사용할 경우에 비해 4dB이상 향상되었으며, 연산량은 총 4 MIPS 감소하였다. 제안한 하드웨어 가속기는 Verilog HDL로 기술되었으며, SYNOPSYS에서 0.18㎛ CMOS 표준 셀 라이브러리 공정으로 합성되었다. 합성 면적은 7514 게이트이며 초월함수 연산에 대한 동작속도는 3 사이클이다.

  • PDF

에너지 효율적인 FPGA 가속기 설계를 위한 하드웨어 및 소프트웨어 공동 설계 플랫폼 (Hardware and Software Co-Design Platform for Energy-Efficient FPGA Accelerator Design)

  • 이동규;박대진
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.20-26
    • /
    • 2021
  • 오늘날의 시스템들은 더 빠른 실행 속도와 더 적은 전력 소모를 위해 하드웨어와 소프트웨어 요소를 함께 포함하고 있다. 기존 하드웨어 및 소프트웨어 공동 설계에서 소프트웨어와 하드웨어의 비율은 설계자의 경험적 지식에 의해 나뉘었다. 설계자들은 반복적으로 가속기와 응용 프로그램을 재구성하고 시뮬레이션하며 최적의 결과를 찾는다. 설계를 변경하며 반복적으로 시뮬레이션하는 것은 시간이 많이 소모되는 일이다. 본 논문에서는 에너지 효율적인 FPGA 가속기 설계를 위한 하드웨어 및 소프트웨어 공동 설계 플랫폼을 제안한다. 제안하는 플랫폼은 가속기를 구성하는 주요 성분을 변수화해 응용 프로그램 코드와 하드웨어 코드를 자동으로 생성하여 설계자가 적절한 하드웨어 비율을 쉽게 찾을 수 있도록 한다. 공동 설계 플랫폼은 Xilinx Alveo U200 FPGA가 탑재된 서버에서 Vitis 플랫폼을 기반으로 동작한다. 공동 설계 플랫폼을 통해 1000개의 행을 가지는 두 행렬의 곱셈 연산 가속기를 최적화한 결과 응용프로그램보다 실행 시간이 90.7%, 전력 소모가 56.3% 감소하였다.

IPsec 구현 방법 및 SoC 소개

  • 김종혁;정영조;조인현;김현철
    • 정보보호학회지
    • /
    • 제16권3호
    • /
    • pp.41-48
    • /
    • 2006
  • IP 네트워크의 보안으로 가장 널리 사용되고 있는 표준은 IPsec 방식이다. 일반적으로 IPsec의 구현은 통신 장비 내에 소프트웨어 방법을 사용하거나, 하드웨어 암호가속기를 사용하여 구현한다. 소프트웨어 방식의 구현은 저속의 통신에서 주로 이용되며, 고속의 경우 하드웨어 암호가속기를 사용하고 있다. 하드웨어 암호가속기를 사용하는 경우에도 시스템의 구조에 따라 암호가속기의 성능을 충분히 발휘하지 못하는 경우가 대부분이다. 본 논문에서는 CPU와 IPsec 엔진을 하나로 통합해 최적의 성능 (Wire-speed)을 발휘하도록 구현한 SoC인 FSC2003을 소개한다.

OpenCL 기반의 상위 수준 합성 기술을 이용한 고성능 안개 제거 시스템의 소프트웨어-하드웨어 통합 설계 (SW-HW Co-design of a High-performance Dehazing System Using OpenCL-based High-level Synthesis Technique)

  • 박용민;김민상;김병오;김태환
    • 전자공학회논문지
    • /
    • 제54권8호
    • /
    • pp.45-52
    • /
    • 2017
  • 본 논문은 안개 제거 처리를 위한 전용의 하드웨어 가속기를 내장하는 고성능의 소프트웨어-하드웨어 통합 안개 제거 시스템의 설계 및 구현을 제시한다. 제시된 안개 제거 시스템에서 다크 채널 프라이어 기반의 안개 제거 처리는 전용의 하드웨어 가속기를 통해 처리되며, 영상의 입출력 및 가속기의 제어는 소프트웨어에 의해서 처리된다. 이를 위해 안개 제거 알고리즘에 내재된 병렬성을 발견하여 OpenCL 커널로 기술하고, 상위 수준 합성 기술을 이용해 하드웨어 가속기를 구현하였다. 기존의 소프트웨어 기반의 안개 제거 시스템과 제안하는 시스템의 성능을 비교한 결과, 동등한 안개 제거 품질을 보이면서도 전체 시스템 수행 시간이 최대 96.3% 단축되었다.

Resolving Memory Bottlenecks in Hardware Accelerators with Data Prefetch

  • Hyein Lee;Jinoo Joung
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권6호
    • /
    • pp.1-12
    • /
    • 2024
  • 최근 다양한 분야에서 딥러닝이 사용되면서, 더 빠르고 정확한 결과를 내는 딥러닝이 더욱 중요해졌다. 이를 위해서는 많은 양의 저장 공간이 필요하고, 대용량 연산을 진행해야 한다. 이에 따라 여러 연구는 빠르고 정확하게 연산 처리가 가능한 하드웨어 가속기를 이용한다. 하지만 하드웨어 가속기는 CPU와 하드웨어 사이를 이동하면서 병목현상이 발생하게 된다. 따라서 본 논문에서는 하드웨어 가속기의 병목현상을 효율적으로 줄일 수 있는 데이터 프리패치 전략을 제안한다. 데이터 프리패치 전략의 핵심 아이디어는 Matrix Multiplication Unit(MMU)가 연산을 진행하는 동안 다음 연산에 필요한 데이터를 예측하여 로컬 메모리로 올려 병목현상을 줄인다. 또한, 이 전략은 듀얼 버퍼를 이용하여 읽고 쓰는 두 가지 동작을 동시에 진행하여 처리율을 높인다. 이를 통해 데이터 전송의 지연시간 및 실행 시간을 감소시킨다. 시뮬레이션을 통해 듀얼 버퍼를 이용한 병렬 프로세싱과 데이터 프리패치를 이용한 메모리 간 병목현상을 최대한 감소시켜 하드웨어 가속기의 성능이 24% 향상함을 알 수 있다.

객체인식을 위한 FAST와 BRIEF 알고리즘 기반 FPGA 설계 (FPGA based Implementation of FAST and BRIEF algorithm for Object Recognition)

  • 허훈;이광엽
    • 전기전자학회논문지
    • /
    • 제17권2호
    • /
    • pp.202-207
    • /
    • 2013
  • 본 논문은 기존의 FAST와 BRIEF 알고리즘을 Zynq-7000 Soc Platform에서 하드웨어로 구현했다. 대표적으로 SIFT 나 SURF 알고리즘을 사용하여 특징점 기반 하드웨어 가속기로 구현 하지만, 하드웨어 비용과 내부 메모리가 많이 필요하다. 제안하는 FAST & BRIEF 가속기는 기존의 SIFT 나 SURF 가속기 보다 내부 메모리 사용량을 약 57%, 하드웨어 비용을 약 70% 정도 감소하고, 수행 시간은 Clock 당 0.17 Pixel를 처리한다.

Zynq SoC에서 재구성 가능한 하드웨어 가속기를 지원하는 멀티쓰레딩 시스템 설계 (Multi-threaded system to support reconfigurable hardware accelerators on Zynq SoC)

  • 신현준;이주흥
    • 전기전자학회논문지
    • /
    • 제24권1호
    • /
    • pp.186-193
    • /
    • 2020
  • 본 논문에서는 Zynq SoC 환경에서 재구성 가능한 하드웨어 가속기를 지원하는 멀티쓰레딩 시스템을 제안한다. 압축된 정지 영상의 픽셀 데이터를 복원하는 고성능 JPEG 디코더를 구현하고 2D-IDCT 함수를 재구성 가능한 하드웨어 가속기로 설계하여 성능을 검증한다. 구현된 시스템에서 최대 4개의 재구성 가능한 하드웨어 가속기는 소프트웨어 쓰레드와 동기화되어 연산을 수행할 수 있으며 이미지 해상도와 압축률에 따라 다른 성능 향상을 보인다. 1080p 해상도 영상의 경우 17:1의 압축률에서 최대 79.11배의 성능 향상과 99fps의 throughput 속도를 보여준다.

HLS 를 이용한 FPGA 기반 양자내성암호 하드웨어 가속기 설계 (FPGA-Based Post-Quantum Cryptography Hardware Accelerator Design using High Level Synthesis)

  • 정해성;이한영;이한호
    • 반도체공학회 논문지
    • /
    • 제1권1호
    • /
    • pp.1-8
    • /
    • 2023
  • 본 논문에서는 High-Level Synthesis(HLS)을 이용하여, 차세대 양자내성암호인 Crystals-Kyber를 하드웨어 가속기로 설계하여 FPGA에 구현하였으며, 성능 분석결과 우수성을 제시한다. Crystals-Kyber 알고리즘을 Vitis HLS 에서 제공하는 여러 Directive 를 활용해서 최적화 설계를 진행하고, AXI Interface 를 구성하여 FPGA-기반 양자내성암호 하드웨어 가속기를 설계하였다. Vivado 툴을 이용해서 IP Block Design 를수행하고 ZYNQ ZCU106 FPGA 에 구현하였다. 최종적으로 PYNQ 프레임워크에서 Python 코드로 동영상 촬영 및 H.264 압축을 진행한 후, FPGA 에 구현한 Crystals-Kyber 하드웨어 가속기를 사용해서 동영상 암호화 및 복호화 처리를 가속화하였다.

디지털 워터마킹을 위한 딥러닝 기반 하드웨어 가속기의 설계 (Design of deep learning based hardware accelerator for digital watermarking)

  • 이재은;서영호;김동욱
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.544-545
    • /
    • 2020
  • 본 논문에서는 영상 콘텐츠의 지적재산권 보호를 위하여 딥 러닝을 기반으로 하는 워터마킹 시스템 및 하드웨어 가속기 구조를 제안한다. 제안하는 워터마킹 시스템은 호스트 영상과 워터마크가 같은 해상도를 갖도록 변화시키는 전처리 네트워크, 전처리 네트워크를 거친 호스트 영상과 워터마크를 정합하여 워터마크를 삽입하는 네트워크, 그리고 워터마크를 추출하는 네트워크로 구성된다. 이 중 호스트 영상의 전처리 네트워크와 삽입 네트워크를 하드웨어로 설계한다.

  • PDF

엣지 디바이스를 위한 AI 가속기 설계 방법 (AI Accelerator Design for Edge Devices)

  • 하회리;김현준;백윤흥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.723-726
    • /
    • 2024
  • 단일 dataflow 를 지원하는 DNN 가속기는 자원 효율적인 성능을 보이지만, 여러 DNN 모델에 대해서 가속 효과가 제한적입니다. 반면에 모든 dataflow 를 지원하여 매 레이어마다 최적의 dataflow를 사용하여 가속하는 reconfigurable dataflow accelerator (RDA)는 굉장한 가속 효과를 보이지만 여러 dataflow 를 지원하는 과정에서 필요한 추가 하드웨어로 인하여 효율적이지 못합니다. 따라서 본 연구는 제한된 dataflow 만을 지원하여 추가 하드웨어 요구사항을 감소시키고, 중복되는 하드웨어의 재사용을 통해 최적화하는 새로운 가속기 설계를 제안합니다. 이 방식은 자원적 한계가 뚜렷한 엣지 디바이스에 RDA 방식을 적용하는데 필수적이며, 기존 RDA 의 단점을 최소화하여 성능과 자원 효율성의 최적점을 달성합니다. 실험 결과, 제안된 가속기는 기존 RDA 대비 32% 더 높은 에너지 효율을 보이며, latency 는 불과 1%의 차이를 보였습니다.