• Title/Summary/Keyword: hardware accelerator

검색결과 116건 처리시간 0.025초

CDMA 이동국 모뎀 ASIC의 시스템 시뮬레이션 (System-level simulation of CDMA mobile station modem ASIC)

  • 남형진;장경희;박경룡;김재석
    • 전자공학회논문지A
    • /
    • 제33A권6호
    • /
    • pp.220-229
    • /
    • 1996
  • We presetn sytem-level simulation methodology as well as environment setup established for CDMA digtial cellular mobile station in an effort to verify CDMA modem ASIC design. To make the system-level simulation feasible, behavioral modeling of a microcontroller was first carried out with VHDL. In addition, models written in C language were also developed to provide ASIC with realistic input data. Finally, the netlist of CDMA modem ASIC was loaded on the a hardware accelerator, which was interfaced with VHDL simulator, and ismulation was performed by excuting the actual CDMA call processing software. Simulation resutls thus obtained were confirmed by comparing them with the emulation resutls from the actual system constructed on hardware modeler. these methods were proved to be effective in both discovering in advance malfunctions when embedded in the system or design errors of ASIC and reducing simulation time by a factor of as much as 20 in case of simulation at gate-level.

  • PDF

고속 탐색 알고리즘에 적합한 움직임 추정 전용 명령어 및 구조 설계 (Novel IME Instructions and their Hardware Architecture for Fast Search Algorithm)

  • 방호일;선우명훈
    • 대한전자공학회논문지SD
    • /
    • 제48권12호
    • /
    • pp.58-65
    • /
    • 2011
  • 본 논문은 H.264/AVC, MPEG4 등, 다양한 영상압축 코덱을 지원할 수 있는 ME ASIP (Application-specific Instruction Processor)의 정화소 움직임 추정 전용 명령어와 재구성 가능한 하드웨어 구조를 제안한다. 제안하는 전용의 명령어와 하드웨어 가속기는 HD급의 고화질 영상을 지원할 수 있는 성능을 가지고 있다. 제안하는 정화소 움직임 추정 명령어는 다수의 병렬 연산과 패턴 정보를 이용한 가변 포인트 2D SAD 연산기 구조를 통하여 전역탐색을 비롯한 각종 고속 탐색 알고리즘을 지원한다. 이를 위한 하드웨어 구조는 128개의 Processor Elements (PEs)로 구성되어 있는 Processor Element Group (PEG) 하나당 25,500 게이트를 가진다. 제안하는 ASIP은 Synopsys 사의 Processor Designer 로 검증하였고, Design Compiler를 이용 IBM 90nm 공정으로 합성하였다. 그 결과 제안하는 ASIP의 하드웨어 사이즈는 453K 게이트였으며, 동작 주파수는 188MHz로 HD급 1080p의 해상도를 가지는 영상을 실시간으로 동작 시킬 수 있다. 본 논문은 기존 2D SAD ASIP에 비하여 하드웨어 사이즈 측면에서 26%, 연산 속도 측면에서 평균 18%의 성능 향상을 보인다.

FPGA-Based Hardware Accelerator for Feature Extraction in Automatic Speech Recognition

  • Choo, Chang;Chang, Young-Uk;Moon, Il-Young
    • Journal of information and communication convergence engineering
    • /
    • 제13권3호
    • /
    • pp.145-151
    • /
    • 2015
  • We describe in this paper a hardware-based improvement scheme of a real-time automatic speech recognition (ASR) system with respect to speed by designing a parallel feature extraction algorithm on a Field-Programmable Gate Array (FPGA). A computationally intensive block in the algorithm is identified implemented in hardware logic on the FPGA. One such block is mel-frequency cepstrum coefficient (MFCC) algorithm used for feature extraction process. We demonstrate that the FPGA platform may perform efficient feature extraction computation in the speech recognition system as compared to the generalpurpose CPU including the ARM processor. The Xilinx Zynq-7000 System on Chip (SoC) platform is used for the MFCC implementation. From this implementation described in this paper, we confirmed that the FPGA platform is approximately 500× faster than a sequential CPU implementation and 60× faster than a sequential ARM implementation. We thus verified that a parallelized and optimized MFCC architecture on the FPGA platform may significantly improve the execution time of an ASR system, compared to the CPU and ARM platforms.

경량 딥러닝 가속기를 위한 희소 행렬 압축 기법 및 하드웨어 설계 (Sparse Matrix Compression Technique and Hardware Design for Lightweight Deep Learning Accelerators)

  • 김선희;신동엽;임용석
    • 디지털산업정보학회논문지
    • /
    • 제17권4호
    • /
    • pp.53-62
    • /
    • 2021
  • Deep learning models such as convolutional neural networks and recurrent neual networks process a huge amounts of data, so they require a lot of storage and consume a lot of time and power due to memory access. Recently, research is being conducted to reduce memory usage and access by compressing data using the feature that many of deep learning data are highly sparse and localized. In this paper, we propose a compression-decompression method of storing only the non-zero data and the location information of the non-zero data excluding zero data. In order to make the location information of non-zero data, the matrix data is divided into sections uniformly. And whether there is non-zero data in the corresponding section is indicated. In this case, section division is not executed only once, but repeatedly executed, and location information is stored in each step. Therefore, it can be properly compressed according to the ratio and distribution of zero data. In addition, we propose a hardware structure that enables compression and decompression without complex operations. It was designed and verified with Verilog, and it was confirmed that it can be used in hardware deep learning accelerators.

Xilinx FPGA용 PCI express 구현 및 성능 분석 (Implementation and Performance Evaluation of PCI express on Xilinx FPGA)

  • 이진
    • 한국정보통신학회논문지
    • /
    • 제22권12호
    • /
    • pp.1667-1674
    • /
    • 2018
  • 하드웨어 가속기를 사용하여 다양한 실시간 계산을 하는 여러 공학/과학 분야에서 많은 경우에 FPGA와 호스트 컴퓨터를 PCI express(PCIe)로 연결하는 시스템 구성이 요구된다. 하지만, 초당 수 기가바이트의 데이터를 주고 받는 고속 인터페이스인 PCIe의 구현은 하드웨어 가속기 개발의 가장 큰 어려움 중에 하나이다. 상용 제품과 논문을 통해서 여러 PCIe IP 솔루션을 찾을 수 있지만, 고가의 비용을 지불해서 구매하거나, 별도의 시간과 노력을 투자해서 PCIe를 구현해야 한다. 따라서, Xilinx사의 FPGA를 기반의 하드웨어 가속기를 구현할 때는 Xilinx사에서 무료로 제공 하는 XDMA PCIe IP를 사용하는 것이 개발 기간 및 비용 단축을 위한 최선의 선택이 될 수 있다. 이러한 이유로 본 논문에서는 Xilinx사의 PCIe IP의 성능 평가를 위해 Zynq-7000 FPGA개발보드와 Windows 10 호스트 컴퓨터로 평가 시스템을 구성하고, PCIe IP의 구성 파라미터에 의한 전송 속도 성능 변화에 대해 평가 분석한다.

NoC 용 고속 데이터 패킷 할당 회로 설계 (Design of a High-Speed Data Packet Allocation Circuit for Network-on-Chip)

  • 김정현;이재성
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.459-461
    • /
    • 2022
  • Network-on-Chip (NoC) 이 오프칩 네트워크 기반의 기존 병렬처리 시스템과 가장 크게 다른 점은 데이터 패킷 라우팅을 중앙 제어 방식(Centralized control scheme)으로 수행한다는 점이다. 이러한 환경에서 Best-effort 패킷 라우팅 문제는 데이터 패킷이 해당 코어에 도달 및 처리되는 시간을 Cost 로 하는 실시간 최소화 할당 문제(Assignment problem)가 된다. 본 논문에서는 할당 문제의 선형 대수 방정식에 대한 대표적인 연산 복잡도 저감 알고리즘인 헝가리안 알고리즘을 하드웨어 가속기 형태로 구현하였다. TSMC 0.18um 표준 셀라이브러리를 이용하여 논리 합성한 결과 헝가리안 알고리즘의 연산과정을 그대로 구현한 하드웨어 회로보다 Cost 분포에 대한 Case 분석을 통하여 구현한 것이 면적은 약 16%, Propagation delay는 약 52% 감소한 것으로 나타났다.

  • PDF

주행거리 연장형 청소용 전기자동차에 장착된 상용 디젤엔진의 토크제어를 위한 통신 방안 (Communication Method for Torque Control of Commercial Diesel Engine in Range-Extended Electric Trash Truck)

  • 박용국
    • 한국산학기술학회논문지
    • /
    • 제19권7호
    • /
    • pp.1-8
    • /
    • 2018
  • 본 논문은 주행거리 연장형 전기자동차에서 발전량을 결정하는 차량 제어기와 이를 수행하는 엔진 제어기 간 토크 명령을 전달하기 위한 새로운 통신방법을 설명한 것이다. 일반적으로 자동차는 CAN 통신방식을 사용하지만, 이 경우 기존 엔진 제어기의 하드웨어 및 소프프웨어를 수정해야만 한다. 이러한 이유로 중소 자동차 개조업체는 발전용 엔진이 탑재된 주행거리 연장형 전기자동차에 대한 개발 및 개조 작업 시 CAN통신방식의 적용이 쉽지 않다. 따라서 본 연구과정에서는 기존의 양산용 엔진 제어기를 주행거리 연장형 전기자동차에 적용하기 위한 핀-핀 통신방안를 제시하였다. 핀-핀 통신방안은 기존 양산용 엔진 제어기내에 탑재된 운전자요구토크 제어 맵을 엔진의 목표속도와 목표토크에 따른 가상 엑셀 열림량으로 변환하는 과정과 이를 기존 양산 엔진제어기가 인식 할 수 있도록 해당 엑셀페달 전압신호로 변환하는 과정으로 구성된다. 가상 엑셀 열림량은 오프라인 환경에서 역 변환 과정을 통하여 차량 최상위제어기에 제어 맵 형태로 탑재되고, 엔진 발전요구량과 엔진 최적 운전점 알고리즘을 통하여 결정된다. 이렇게 결정된 가상엑셀 열림량은 DA신호 변환기를 통하여 기존 엔진제어기가 인식할 수 있는 전압신호로 최종적으로 변환된다. 엔진토크 전달을 위한 이러한 알고리즘과 신호변환 회로는 차량제어기(VCU)에 탑재되어 엔진목표토크에 따른 가상엑셀페달 열림량 변환과정과 신호변환기를 이용한 가상 엑셀페달 전압신호에 대한 통신시험을 실시하여 이러한 통신방식의 실현 가능성을 입증하였다.

IPSec보안서버의 성능분석 모델 (IPsec Security Server Performance Analysis Model)

  • 윤연상;이선영;박진섭;권순열;김용대;양상운;장태주;유영갑
    • 대한전자공학회논문지TC
    • /
    • 제41권9호
    • /
    • pp.9-16
    • /
    • 2004
  • 본 논문에서는 IPSec 가속기를 보안서버에 장착하였을 경우의 성능분석모델을 제안하였다. 제안된 보안서버는 M/M/1 시스템으로 모델링하였으며 트래픽 로드는 포아송분포를 이용하였다 보안서버의 성능변수를 통합하여 디코딩지연이라고 정의하였으며 IPSec 가속기인 BCM5820의 실측 결과와 비교하여 15%정도의 차이를 갖는 디코딩지연을 추출하였다 디코딩 지연을 제안된 성능분석모델에 대입하여 시뮬레이션 하였을 경우 보안연결은 BCM5820의 발표된 성능의 75%의 처리량을 보였다. 그리고 데이터전달은 발표된 성능의 각각 3.125%(패킷크기 64byte), 14.28%(패킷크기 1024byte)의 처리량을 보였다.

네트워크 침입방지 시스템을 위한 고속 패턴 매칭 가속 시스템 (A High-speed Pattern Matching Acceleration System for Network Intrusion Prevention Systems)

  • 김선일
    • 정보처리학회논문지A
    • /
    • 제12A권2호
    • /
    • pp.87-94
    • /
    • 2005
  • 패턴 매칭(Pattern Matching)은 네트워크 침입방지 시스템에서 가장 중요한 부분의 하나며 많은 연산을 필요로 한다. 날로 증가되는 많은 수의 공격 패턴을 다루기 위해, 네트워크 침입방지 시스템에서는 회선 속도로 들어오는 패킷을 처리 할 수 있는 다중 패턴 매칭 방법이 필수적이다. 본 논문에서는 현재 많이 사용되고있는 네트워크 침입방지 및 탐지 시스템인 Snort와 이것의 패턴 매칭 특성을 분석한다. 침입방지 시스템을 위한 패턴 매칭 방법은 다양한 길이를 갖는 많은 수의 패턴과 대소문자 구분 없는 패턴 매칭을 효과적으로 다룰 수 있어야 한다. 또한 여러 개의 입력 문자들을 동시에 처리 할 수 있어야 한다. 본 논문에서 Shift-OR 패턴 매칭 알고리즘에 기반을 둔 다중 패턴 매칭 하드웨어 가속기를 제시하고 여러 가지 가정 하에서 성능 측정을 하였다. 성능 측정에 따르면 제시된 하드웨어 가속기는 현재 Snort에서 사용되는 가장 빠른 소프트웨어 다중 패턴 매칭 보다 80배 이상 빠를 수 있다.

부채널 분석을 이용한 DNN 기반 MNIST 분류기 가중치 복구 공격 및 대응책 구현 (Weight Recovery Attacks for DNN-Based MNIST Classifier Using Side Channel Analysis and Implementation of Countermeasures)

  • 이영주;이승열;하재철
    • 정보보호학회논문지
    • /
    • 제33권6호
    • /
    • pp.919-928
    • /
    • 2023
  • 딥러닝 기술은 자율 주행 자동차, 이미지 생성, 가상 음성 구현 등 다양한 분야에서 활용되고 있으며 하드웨어 장치에서 고속 동작을 위해 딥러닝 가속기가 등장하게 되었다. 그러나 최근에는 딥러닝 가속기에서 발생하는 부채널 정보를 이용한 내부 비밀 정보를 복구하는 공격이 연구되고 있다. 본 논문에서는 DNN(Deep Neural Network) 기반 MNIST 숫자 분류기를 마이크로 컨트롤러에서 구현한 후 상관 전력 분석(Correlation Power Analysis) 공격을 시도하여 딥러닝 가속기의 가중치(weight)를 충분히 복구할 수 있음을 확인하였다. 또한, 이러한 전력 분석 공격에 대응하기 위해 전력 측정 시점의 정렬 혼돈(misalignment) 원리를 적용한 Node-CUT 셔플링 방법을 제안하였다. 제안하는 대응책은 부채널 공격을 효과적으로 방어할 수 있으며, Fisher-Yates 셔플링 기법을 사용하는 것보다 추가 계산량이 1/3보다 더 줄어듦을 실험을 통해 확인하였다.