CNN Model Compression and On-Device Inference Acceleration

CNN 모델의 경량화 및 On-Device 추론 가속

  • An Jae Jun (School of Electronic and Electrical Engineering, Sung-Kyun-Kwan University) ;
  • Lee Min Seo (Department of Biomechatronics Engineering, Sung-Kyun-Kwan University) ;
  • Hong Seok In (Dept. of Semiconductor Systems Engineering, Sung-Kyun-Kwan University)
  • 안재준 (성균관대학교 전자전기공학부) ;
  • 이민서 (성균관대학교 바이오메카트로닉스학과) ;
  • 홍석인 (성균관대학교 반도체시스템공학과)
  • Published : 2024.05.23

Abstract

본 연구에서는 CNN 모델의 경량화 및 on-device 추론 가속을 목표로 한다. 경량화 기법으로는 QAT 기법을 사용하며 여러 환경에서의 성능을 비교한다. 이어서 on-device 추론 가속을 위해 Jetson Nano Board 에서 TensorRT 변환을 통해 모델을 최적화한다.

Keywords

Acknowledgement

이 논문은 정부(교육부-산업통상자원부)의 재원으로 한국산업기술진흥원의 지원을 받아 수행된 연구임(P0022098, 2024 년 미래형자동차 기술융합혁신인재양성사업)

References

  1. Amir Cholami, et al. "A survey of quantization methods for efficient neural network inference." Low-Power Computer Vision. Chapman and Hall/CRC, 2022. 291-326.