DOI QR코드

DOI QR Code

Transformer-based Intelligent CCTV System for Real-time Anomaly Detection in Unmanned Stores

무인 점포 실시간 이상 행동 감지를 위한 Transformer 기반 지능형 CCTV 시스템

  • 조혜원 (전남대학교 인공지능학부) ;
  • 조하영 (전남대학교 인공지능학부) ;
  • 이청은 (전남대학교 인공지능학부) ;
  • 김만제 (전남대학교 인공지능학부)
  • Received : 2024.09.03
  • Accepted : 2024.10.11
  • Published : 2024.10.31

Abstract

The rapid expansion of unmanned retail stores has raised critical security concerns, thereby necessitating the development and implementation of robust protective measures. The absence of real-time monitoring systems in these environments has heightened the vulnerability to risks such as theft and property damage. Although closed-circuit television (CCTV) systems have been deployed to retrospectively investigate criminal activities, these systems are often insufficient in preventing incidents. This study introduces a Transformer-based intelligent CCTV system designed for the real-time detection of anomalous behaviors within unmanned retail environments. Unlike conventional systems that rely on basic machine learning models, our proposed system leverages human joint position data extracted from CCTV footage to classify a range of anomalous behaviors, including theft, falls, and property damage. Additionally, extensive hyperparameter optimization was performed to maximize the model's effectiveness in these specific environments. Our System enhances the system's usability by enabling real-time identification of anomalous behavior, complete with location data, timestamps, and corresponding video frame sequences.

최근 무인점포가 가파르게 증가함에 따라 이를 지키기 위한 보안 문제가 대두되고 있다. 특히 실시간 모니터링 부재로 인한 절도, 기물 파손 등의 위험이 심각한데, 이를 방지하기 위해 CCTV를 설치하여 기록을 통해 범죄를 추적하고 있으나 역부족인 상황이다. 본 연구에서는 무인점포에서 발생할 수 있는 이상행동을 실시간으로 감지하는 Transformer 기반 지능형 CCTV 시스템을 제안한다. 본 연구에서 사용하는 Transformer 기반 지능형 이상행동 감지 시스템은 기존의 단순한 기계학습 모델을 활용한 시스템들과 달리 CCTV 영상에서 추출한 사람의 관절 위치 정보를 입력으로 사용하여 절도, 전도, 파손 등의 이상행동을 분류할 수 있다. 또한, 무인점포 환경에 최적화된 모델을 설계하기 위해 다양한 하이퍼파라미터를 통해 성능을 검증하였다. 이를 바탕으로 무인점포 내에서 이상행동이 감지되는 경우, 해당 위치와 시간, 그리고 관련 영상 프레임 시퀀스를 실시간으로 확인할 수 있다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 인공지능융합혁신인재양성사업(IITP-2023-RS-2023-00256629)과 대학ICT연구센터사업의 연구결과로 수행되었음 (IITP-2024-RS-2024-00437718)

References

  1. 김건희, and 장철영, "빅데이터를 이용한 무인 점포범죄 연구," 한국위기관리논집, 제18권, 제9호, 95-110쪽, 2022년  https://doi.org/10.14251/crisisonomy.2022.18.9.95
  2. 박상욱, et al. "지능형 CCTV 기반 동적 범죄예측기술 동향," 전자통신동향분석, 제35권, 제2호, 17-27쪽, 2020년 
  3. 최영준, 나지영, and 안준호. "무인 점포 사용자 이상행동을 탐지하기 위한 지능형 모션 패턴 인식 알고리즘," Journal of Internet Computing & Services, 제24권, 제6권, 2023년 
  4. 염윤호. "CCTV 의 범죄예방효과 분석: 연속적 실험처치 (continuous treatment) 를 위한 용량반응모형 (dose-response model) 의 적용," 형사정책, 제31권, 제2호, 203-233쪽,
  5. Khan, Salman, et al. "Transformers in vision: A survey," ACM computing surveys (CSUR) 54.10s, pp. 1-41 2022.  https://doi.org/10.1145/3505244
  6. Redmon, J., Divvala, S., Girshick, R., & Farhadi, A., "You only look once: Unified, real-time object detection," In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 779-788, 2016. 
  7. Bochkovskiy, A., Wang, C. Y., & Liao, H. Y. M., "YOLOv4: Optimal Speed and Accuracy of Object Detection," arXiv preprint arXiv:2004.10934, 2020. 
  8. Jiwoong Choi, Dayoung Chun, Hyun Kim, Hyuk-Jae Lee, "Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization Uncertainty for Autonomous Driving," 2019. 
  9. Kanyifeechukwu Jane Oguine, Ozioma Collins Oguine, Hashim Ibrahim Bisallah, "YOLOv3: Visual and Real-Time Object Detection Model for Smart Surveillance Systems," 2022. 
  10. Redmon, J., & Farhadi, A., "YOLOv3: An Incremental Improvement," arXiv preprint arXiv:1804.02767, 2018. 
  11. Lin, T.-Y., Dollar, P., Girshick, R., He, K., Hariharan, B., & Belongie, S., "Feature Pyramid Networks for Object Detection," In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017. 
  12. Jocher, G., "YOLOv5," Retrieved from(2020). https://github.com/ultralytics/yolov5, (accessed Sep., 02, 2024). 
  13. Google LLC, "MediaPipe," Retrieved from (2023). https://developers.google.com/mediapipe, (accessed Sep., 02, 2024). 
  14. Lugaresi, C., et al., "MediaPipe: A Framework for Building Perception Pipelines," arXiv preprint arXiv:1906.08172, 2019. 
  15. Hochreiter, S., & Schmidhuber, J., "Long short-term memory," Neural computation, vol. 9, no. 8, pp. 1735-1780, 1997.  https://doi.org/10.1162/neco.1997.9.8.1735
  16. Graves, A., Supervised sequence labelling with recurrent neural networks, Springer, pp. 1-224, 2012. 
  17. Greff, K., et al., "LSTM: A search space odyssey," IEEE transactions on neural networks and learning systems, vol. 28, no. 10, pp. 2222-2232, 2017.  https://doi.org/10.1109/TNNLS.2016.2582924
  18. Vaswani, A., et al., "Attention is all you need," Advances in neural information processing systems, vol. 30, 2017. 
  19. Devlin, J., et al., "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," arXiv preprint arXiv:1810.04805, 2018. 
  20. Liu, Y. "RoBERTa: A Robustly Optimized BERT Pretraining Approach." arXiv preprint arXiv:1907.11692 (2019).