Self-Attention 딥러닝 모델 기반 산업 제품의 이상 영역 분할 성능 분석

Performance Analysis of Anomaly Area Segmentation in Industrial Products Based on Self-Attention Deep Learning Model

  • 박창준 (한국교통대학교 교통.에너지융합학과) ;
  • 김남중 (한국교통대학교 소프트웨어학과) ;
  • 박준휘 (한국교통대학교 AI.로봇공학과) ;
  • 이재현 (한국교통대학교 컴퓨터공학과) ;
  • 곽정환 (한국교통대학교 소프트웨어학과)
  • Changjoon Park (Dept. of IT.Energy Convergence, Korea National University of Transportation) ;
  • Namjung Kim (Dept. of Software, Korea National University of Transportation) ;
  • Junhwi Park (Dept. of AI.Robotics Engineering, Korea National University of Transportation) ;
  • Jaehyun Lee (Dept. of Computer Engineering, Korea National University of Transportation) ;
  • Jeonghwan Gwak (Dept. of Software, Korea National University of Transportation)
  • 발행 : 2024.01.17

초록

본 논문에서는 Self-Attention 기반 딥러닝 기법인 Dense Prediction Transformer(DPT) 모델을 MVTec Anomaly Detection(MVTec AD) 데이터셋에 적용하여 실제 산업 제품 이미지 내 이상 부분을 분할하는 연구를 진행하였다. DPT 모델의 적용을 통해 기존 Convolutional Neural Network(CNN) 기반 이상 탐지기법의 한계점인 지역적 Feature 추출 및 고정된 수용영역으로 인한 문제를 개선하였으며, 실제 산업 제품 데이터에서의 이상 분할 시 기존 주력 기법인 U-Net의 구조를 적용한 최고 성능의 모델보다 1.14%만큼의 성능 향상을 보임에 따라 Self-Attention 기반 딥러닝 기법의 적용이 산업 제품 이상 분할에 효과적임을 입증하였다.

키워드

과제정보

This work was supported by the Institute of Information & Communications Technology Planning & Evaluation (IITP) grant funded by the Korean government (MSIT) (No. 2014-3-00077).

참고문헌

  1. J. Liu, G. Xie, J. Wang, S. Li, C. Wang, F. Zheng and Y. Jjin, "Deep Industrial Image Anomaly Detection: A Survey," arXiv e-prints, arXiv: 2301.11514, January 2023.
  2. O. Ronneberger, P. Fischer and T. Brox, "U-Net: Convolutional Networks for Biomedical Image Segmentation," Medical Image Computing and Computer-Assisted Intervention - MICCAI 2015, Vol. 9351, pp. 234-241, November 2015.
  3. R. ranftl, A. Bochikovskiy and V. Koltun, "Vision Transformers for Dense Prediction," Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 12179-12188, October 2021.
  4. A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit and N. Houlsby, "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale," International Conference on Learning Representations ICLR 2021, January 2021.
  5. P. Bergmann, K. Batzner, M. Fauser, D. Sattlegger and C. Steger, "The MVTec Anomaly Detection Dataset: A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection," International Journal of Computer Vision (IJCV), Vol. 129, pp. 1038-1059, January 2021. https://doi.org/10.1007/s11263-020-01400-4