• 제목/요약/키워드: Deep Learning Accelerator

검색결과 18건 처리시간 0.026초

부채널 분석을 이용한 DNN 기반 MNIST 분류기 가중치 복구 공격 및 대응책 구현 (Weight Recovery Attacks for DNN-Based MNIST Classifier Using Side Channel Analysis and Implementation of Countermeasures)

  • 이영주;이승열;하재철
    • 정보보호학회논문지
    • /
    • 제33권6호
    • /
    • pp.919-928
    • /
    • 2023
  • 딥러닝 기술은 자율 주행 자동차, 이미지 생성, 가상 음성 구현 등 다양한 분야에서 활용되고 있으며 하드웨어 장치에서 고속 동작을 위해 딥러닝 가속기가 등장하게 되었다. 그러나 최근에는 딥러닝 가속기에서 발생하는 부채널 정보를 이용한 내부 비밀 정보를 복구하는 공격이 연구되고 있다. 본 논문에서는 DNN(Deep Neural Network) 기반 MNIST 숫자 분류기를 마이크로 컨트롤러에서 구현한 후 상관 전력 분석(Correlation Power Analysis) 공격을 시도하여 딥러닝 가속기의 가중치(weight)를 충분히 복구할 수 있음을 확인하였다. 또한, 이러한 전력 분석 공격에 대응하기 위해 전력 측정 시점의 정렬 혼돈(misalignment) 원리를 적용한 Node-CUT 셔플링 방법을 제안하였다. 제안하는 대응책은 부채널 공격을 효과적으로 방어할 수 있으며, Fisher-Yates 셔플링 기법을 사용하는 것보다 추가 계산량이 1/3보다 더 줄어듦을 실험을 통해 확인하였다.

CNN 모델의 최적 양자화를 위한 웹 서비스 플랫폼 (Web Service Platform for Optimal Quantization of CNN Models)

  • 노재원;임채민;조상영
    • 반도체디스플레이기술학회지
    • /
    • 제20권4호
    • /
    • pp.151-156
    • /
    • 2021
  • Low-end IoT devices do not have enough computation and memory resources for DNN learning and inference. Integer quantization of real-type neural network models can reduce model size, hardware computational burden, and power consumption. This paper describes the design and implementation of a web-based quantization platform for CNN deep learning accelerator chips. In the web service platform, we implemented visualization of the model through a convenient UI, analysis of each step of inference, and detailed editing of the model. Additionally, a data augmentation function and a management function of files that store models and inference intermediate results are provided. The implemented functions were verified using three YOLO models.

경량화된 딥러닝 구조를 이용한 실시간 초고해상도 영상 생성 기술 (Deep Learning-based Real-Time Super-Resolution Architecture Design)

  • 안세현;강석주
    • 방송공학회논문지
    • /
    • 제26권2호
    • /
    • pp.167-174
    • /
    • 2021
  • 초고해상도 변환 문제에서 최근 딥러닝을 사용하면서 큰 성능 개선을 얻고 있다. 빠른 초고해상도 합성곱 신경망 (FSRCNN)은 딥러닝 기반 초고해상도 알고리즘으로 잘 알려져 있으며, 여러 개의 합성곱 층로 추출한 저 해상도의 입력 특징을 활용하여 역합성곱 층에서 초고해상도의 영상을 출력하는 알고리즘이다. 본 논문에서는 병렬 연산 효율성을 고려한 FPGA 기반 합성곱 신경망 가속기를 제안한다. 특히 역합성곱 층을 합성곱 층으로 변환하는 방법을 통해서 에너지 효율적인 가속기를 설계했다. 또한 제안한 방법은 FPGA 리소스를 고려하여 FSRCNN의 구조를 변형한 Optimal-FSRCNN을 제안한다. 사용하는 곱셈기의 개수를 FSRCNN 대비 3.47배 압축하였고, 초고해상도 변환 성능을 평가하는 지표인 PSNR은 FSRCNN과 비슷한 성능을 내고 있다. 이를 통해서 FPGA에 최적화된 네트워크를 구현하여 FHD 입력 영상을 UHD 영상으로 출력하는 실시간 영상처리 기술을 개발했다.

부채널 분석을 이용한 딥러닝 네트워크 신규 내부 비밀정보 복원 방법 연구 (Reverse Engineering of Deep Learning Network Secret Information Through Side Channel Attack)

  • 박수진;이주헌;김희석
    • 정보보호학회논문지
    • /
    • 제32권5호
    • /
    • pp.855-867
    • /
    • 2022
  • IoT 장비의 발달로 딥러닝 가속기의 필요성이 증대됨에 따라 이에 탑재되는 딥러닝 가속기의 구현 및 안전성 검증에 대한 연구가 활발히 진행 중이다. 본 논문에서는 Usenix 2019에 발표된 딥러닝 네트워크 복원 논문의 한계점을 극복한 내부 비밀정보 신규 부채널 분석 방법론에 대해 제안한다. 기존 연구에서 네트워크 내부 가중치의 범위를 제한하며 32비트 가중치의 16비트만 복원한 단점이 있다, 제안하는 신규 가중치 복원 방법으로 상관전력분석을 이용하여 IEEE754 32비트 단정밀도 가중치를 99% 정확도로 복원할 수 있음을 보인다. 또한 특정 입력값에 대해서만 활성함수 복원이 가능한 기존 연구의 제약을 극복하고, 딥러닝을 이용한 신규 활성함수 복원 방법으로 입력값에 대한 조건 없이 99% 정확도로 활성함수를 복원한다. 이를 통해 기존 연구가 가지는 한계점들을 극복했을 뿐만 아니라 제안하는 신규 방법론이 효과적이라는 것을 입증한다.

CNN기반의 워터마킹 프로세서 설계 최적화 방법 (CNN-based watermarking processor design optimization method)

  • 강지원;이재은;서영호;김동욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.644-645
    • /
    • 2021
  • 본 논문에서는 초 고해상도 디지털 이미지 및 비디오의 지적 재산권 보호를 위한 딥러닝 기술 기반 워터마킹 프로세서의 하드웨어 구조를 제안한다. 하드웨어에서 딥 러닝 기반 워터마킹 알고리즘을 구현하기 위한 최적화 방법론을 제안한다.

  • PDF

Toward Optimal FPGA Implementation of Deep Convolutional Neural Networks for Handwritten Hangul Character Recognition

  • Park, Hanwool;Yoo, Yechan;Park, Yoonjin;Lee, Changdae;Lee, Hakkyung;Kim, Injung;Yi, Kang
    • Journal of Computing Science and Engineering
    • /
    • 제12권1호
    • /
    • pp.24-35
    • /
    • 2018
  • Deep convolutional neural network (DCNN) is an advanced technology in image recognition. Because of extreme computing resource requirements, DCNN implementation with software alone cannot achieve real-time requirement. Therefore, the need to implement DCNN accelerator hardware is increasing. In this paper, we present a field programmable gate array (FPGA)-based hardware accelerator design of DCNN targeting handwritten Hangul character recognition application. Also, we present design optimization techniques in SDAccel environments for searching the optimal FPGA design space. The techniques we used include memory access optimization and computing unit parallelism, and data conversion. We achieved about 11.19 ms recognition time per character with Xilinx FPGA accelerator. Our design optimization was performed with Xilinx HLS and SDAccel environment targeting Kintex XCKU115 FPGA from Xilinx. Our design outperforms CPU in terms of energy efficiency (the number of samples per unit energy) by 5.88 times, and GPGPU in terms of energy efficiency by 5 times. We expect the research results will be an alternative to GPGPU solution for real-time applications, especially in data centers or server farms where energy consumption is a critical problem.

경량 딥러닝 가속기를 위한 희소 행렬 압축 기법 및 하드웨어 설계 (Sparse Matrix Compression Technique and Hardware Design for Lightweight Deep Learning Accelerators)

  • 김선희;신동엽;임용석
    • 디지털산업정보학회논문지
    • /
    • 제17권4호
    • /
    • pp.53-62
    • /
    • 2021
  • Deep learning models such as convolutional neural networks and recurrent neual networks process a huge amounts of data, so they require a lot of storage and consume a lot of time and power due to memory access. Recently, research is being conducted to reduce memory usage and access by compressing data using the feature that many of deep learning data are highly sparse and localized. In this paper, we propose a compression-decompression method of storing only the non-zero data and the location information of the non-zero data excluding zero data. In order to make the location information of non-zero data, the matrix data is divided into sections uniformly. And whether there is non-zero data in the corresponding section is indicated. In this case, section division is not executed only once, but repeatedly executed, and location information is stored in each step. Therefore, it can be properly compressed according to the ratio and distribution of zero data. In addition, we propose a hardware structure that enables compression and decompression without complex operations. It was designed and verified with Verilog, and it was confirmed that it can be used in hardware deep learning accelerators.

차량 도어 충돌 방지용 레이다 신호처리 시스템 설계 및 구현 (Design and Implementation of Radar Signal Processing System for Vehicle Door Collision Prevention)

  • 한정우;김민상;김대홍;정윤호
    • 전기전자학회논문지
    • /
    • 제28권3호
    • /
    • pp.397-404
    • /
    • 2024
  • 본 논문에서는 차량의 개문사고를 예방하기 위한 목적으로 FMCW 레이다 센서를 활용하여 물체를 감지하고 분류 가능한 시스템 설계 및 구현 결과가 제시된다. 제안된 시스템은 Raspberry-Pi 기반 임베디드시스템과 FPGA 가속기에 기반하여 구현되었으며, 해당 시스템은 레이다 센서 신호처리 과정과 물체를 자전거, 자동차, 사람으로 분류하는 딥러닝 과정을 수행한다. CNN 알고리즘은 연산량과 메모리 사용량이 크기 때문에 임베디드시스템에 적합하지 않다. 이를 해결하기 위해 임베디드시스템에 적합한 경량화된 딥러닝 모델인 BNN을 FPGA 상에 구현한 뒤 결과를 검증하였고, 90.33%의 분류 정확도와 20ms의 수행시간을 확인하였다.

디지털 워터마킹을 위한 딥러닝 기반 하드웨어 가속기의 설계 (Design of deep learning based hardware accelerator for digital watermarking)

  • 이재은;서영호;김동욱
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.544-545
    • /
    • 2020
  • 본 논문에서는 영상 콘텐츠의 지적재산권 보호를 위하여 딥 러닝을 기반으로 하는 워터마킹 시스템 및 하드웨어 가속기 구조를 제안한다. 제안하는 워터마킹 시스템은 호스트 영상과 워터마크가 같은 해상도를 갖도록 변화시키는 전처리 네트워크, 전처리 네트워크를 거친 호스트 영상과 워터마크를 정합하여 워터마크를 삽입하는 네트워크, 그리고 워터마크를 추출하는 네트워크로 구성된다. 이 중 호스트 영상의 전처리 네트워크와 삽입 네트워크를 하드웨어로 설계한다.

  • PDF

Deep Learning을 위한 GPGPU 기반 Convolution 가속기 구현 (An Implementation of a Convolutional Accelerator based on a GPGPU for a Deep Learning)

  • 전희경;이광엽;김치용
    • 전기전자학회논문지
    • /
    • 제20권3호
    • /
    • pp.303-306
    • /
    • 2016
  • 본 논문에서는 GPGPU를 활용하여 Convolutional neural network의 가속화 방법을 제안한다. Convolutional neural network는 이미지의 특징 값을 학습하여 분류하는 neural network의 일종으로 대량의 데이터를 학습해야하는 영상 처리에 적합하다. 기존의 Convolutional neural network의 convolution layer는 다수의 곱셈 연산을 필요로 하여 임베디드 환경에서 실시간으로 동작하기에 어려움이 있다. 본 논문에서는 이러한 단점을 해결하기 위하여 winograd convolution 연산을 통하여 곱셈 연산을 줄이고 GPGPU의 SIMT 구조를 활용하여 convolution 연산을 병렬 처리한다. 실험은 ModelSim, TestDrive를 사용하여 진행하였고 실험 결과 기존의 convolution 연산보다 처리 시간이 약 17% 개선되었다.