DOI QR코드

DOI QR Code

Transfer Learning Backbone Network Model Analysis for Human Activity Classification Using Imagery

영상기반 인체행위분류를 위한 전이학습 중추네트워크모델 분석

  • Received : 2021.12.27
  • Accepted : 2022.01.23
  • Published : 2022.03.31

Abstract

Recently, research to classify human activity using imagery has been actively conducted for the purpose of crime prevention and facility safety in public places and facilities. In order to improve the performance of human activity classification, most studies have applied deep learning based-transfer learning. However, despite the increase in the number of backbone network models that are the basis of deep learning as well as the diversification of architectures, research on finding a backbone network model suitable for the purpose of operation is insufficient due to the atmosphere of using a certain model. Thus, this study applies the transfer learning into recently developed deep learning backborn network models to build an intelligent system that classifies human activity using imagery. For this, 12 types of active and high-contact human activities based on sports, not basic human behaviors, were determined and 7,200 images were collected. After 20 epochs of transfer learning were equally applied to five backbone network models, we quantitatively analyzed them to find the best backbone network model for human activity classification in terms of learning process and resultant performance. As a result, XceptionNet model demonstrated 0.99 and 0.91 in training and validation accuracy, 0.96 and 0.91 in Top 2 accuracy and average precision, 1,566 sec in train process time and 260.4MB in model memory size. It was confirmed that the performance of XceptionNet was higher than that of other models.

최근 공공장소 및 시설에서 범죄예방 및 시설 안전을 목적으로 영상정보 기반의 인체의 행위를 분류하는 연구가 활발히 진행되고 있다. 이러한 인체 행위분류의 성능을 향상하기 위해서 대부분의 연구는 전이학습 기반의 딥러닝을 적용하고 있다. 그러나 딥러닝의 기반이 되는 중추 네트워크 모델(Backbone Network Model)의 수가 증가하고 아키텍처가 다양해짐에도 불구하고, 소수의 모델만 사용하는 분위기 때문에 운용목적에 적합한 중추 네트워크 모델을 찾는 연구는 미흡한 실정이다. 본 연구는 영상정보를 기초로 인체 행위를 분류하는 인공지능 모델을 개발하기 위해 최근에 개발된 5가지의 딥러닝 중추 네트워크 모델을 대상으로 전이학습을 적용하고 각 모델의 정확도 및 학습효율 측면에서 비교 및 분석하여 가장 효율이 높은 모델을 제안하였다. 이를 위해, 기본적인 인체 행위가 아닌 운동 종목 기반의 활동적이고 신체접촉이 높은 12가지의 인체 활동을 선정하고 관련된 7,200개의 이미지를 수집하였으며, 5가지의 중추 네트워크 모델에 총 20회의 전이학습을 균등하게 적용하고 학습과정과 결과성능을 통해 인체 행위를 분류하는데 적합한 중추 네트워크 모델을 정량적으로 비교 및 분석하였다. 그 결과 XceptionNet 모델이 학습 및 검증 정확도에서 0.99 및 0.91로, Top 2 및 평균 정밀도에서 0.96 및 0.91로 나타났으며 학습 소요시간은 1,566초, 모델용량의 크기는 260.4MB로 정확도와 학습효율 측면에서 다른 모델보다 높은 성능이 나타남을 확인할 수 있었다. 이러한 결과는 전이학습을 적용하여 인체 행위분류를 진행하는 다양한 연구 분야에 활용되기를 기대한다.

Keywords

Acknowledgement

본 논문은 2019년도 정부(교육부)의 재원으로 한국연구재단 기초연구사업의 지원을 받아 수행된 연구에 의해 작성되었습니다(No.2019R1F1A1046856).

References

  1. Lu, Y., & Velipasalar, S. (2019). Autonomous human activity classification from wearable multimodal sensors. IEEE Sensors Journal, 19(23), 11403-11412. https://doi.org/10.1109/jsen.2019.2934678
  2. Du, H., He, Y., & Jin, T. (2018, March). Transfer learning for human activities classification using micro-Doppler spectrograms. In 2018 IEEE International Conference on Computational Electromagnetics (ICCEM) (pp. 1-3). IEEE.
  3. Pucci, L., Testi, E., Favarelli, E., & Giorgetti, A. (2020). Human activities classification using biaxial seismic sensors. IEEE Sensors Letters, 4(10), 1-4.
  4. Li, H., Shrestha, A., Fioranelli, F., Le Kernec, J., Heidari, H., Pepa, M., ... & Spinsante, S. (2017, October). Multisensor data fusion for human activities classification and fall detection. In 2017 IEEE SENSORS (pp. 1-3). IEEE.
  5. AlZubi, H. S., Gerrard-Longworth, S., Al-Nuaimy, W., Goulermas, Y., & Preece, S. (2014, September). Human activity classification using a single accelerometer. In 2014 14th UK Workshop on Computational Intelligence (UKCI) (pp. 1-6). IEEE.
  6. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems, 25, 1097-1105.
  7. He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).
  8. Howard, A. G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., ... & Adam, H. (2017). Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861.
  9. Chollet, F. (2017). Xception: Deep learning with depthwise separable convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1251-1258).
  10. Tan, M., & Le, Q. (2019, May). Efficientnet: Rethinking model scaling for convolutional neural networks. In International Conference on Machine Learning (pp. 6105-6114). PMLR.
  11. Al-Stouhi, S., & Reddy, C. K. (2016). Transfer learning for class imbalance problems with inadequate data. Knowledge and information systems, 48(1), 201-228. https://doi.org/10.1007/s10115-015-0870-3
  12. Agarwal, N., Sondhi, A., Chopra, K., & Singh, G. (2021). Transfer learning: Survey and classification. In Smart Innovations in Communication and Computational Sciences (pp. 145-155). Springer, Singapore.
  13. Jurj, S. L., Opritoiu, F., & Vladutiu, M. (2020, June). Deep Learning-Based Computer Vision Application with Multiple Built-In Data Science-Oriented Capabilities. In International Conference on Engineering Applications of Neural Networks (pp. 47-69). Springer, Cham.