DOI QR코드

DOI QR Code

A Bi-directional Information Learning Method Using Reverse Playback Video for Fully Supervised Temporal Action Localization

완전지도 시간적 행동 검출에서 역재생 비디오를 이용한 양방향 정보 학습 방법

  • Huiwon Gwon (Dept. of Electrical Engineering, Hanbat National University) ;
  • Hyejeong Jo (Dept. of Electrical Engineering, Hanbat National University) ;
  • Sunhee Jo (Dept. of Electrical Engineering, Hanbat National University) ;
  • Chanho Jung (Dept. of Electrical Engineering, Hanbat National University)
  • 권희원 ;
  • 조혜정 ;
  • 조선희 ;
  • 정찬호
  • Received : 2024.05.10
  • Accepted : 2024.06.09
  • Published : 2024.06.30

Abstract

Recently, research on temporal action localization has been actively conducted. In this paper, unlike existing methods, we propose two approaches for learning bidirectional information by creating reverse playback videos for fully supervised temporal action localization. One approach involves creating training data by combining reverse playback videos and forward playback videos, while the other approach involves training separate models on videos with different playback directions. Experiments were conducted on the THUMOS-14 dataset using TALLFormer. When using both reverse and forward playback videos as training data, the performance was 5.1% lower than that of the existing method. On the other hand, using a model ensemble shows a 1.9% improvement in performance.

최근 시간적 행동 검출 연구가 활발히 진행되고 있다. 시간적 행동 검출 연구의 한 분야인 오프라인 행동 검출은 온라인 행동 검출과 달리 비디오를 한번에 입력으로 받는다. 이를 통해 오프라인 행동 검출은 양방향 정보를 이용할 수 있으며 또한 이를 학습하기 위해 Bi-directional LSTM을 주로 사용한다. 본 논문에서는 기존 방법과 달리 완전지도 시간적 행동 검출에서 역재생 비디오를 생성하고 이를 통해 양뱡향 정보를 학습하는 방법을 제안한다. 구체적으로 역재생 비디오와 순재생 비디오를 함께 학습 데이터로 구성하는 방법과 각각 모델에 학습시킨 후 두 모델을 앙상블 모델로 구성하는 방법을 제안하였다. 제안하는 방법의 성능 평가를 위해 TALLFormer 모델을 이용하여 THUMOS-14 데이터셋에 대한 실험을 진행하였다. 역재생 및 순재생 비디오를 학습 데이터로 구성한 경우 기존 방법에 비해 5.1% 낮은 성능을, 모델 앙상블을 진행했을 경우 1.9% 우수한 성능을 보였다.

Keywords

References

  1. He-Yen Hsieh et al., "Contextual Proposal Network for Action Localization," Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pp. 2129-2138, 2022. DOI: 10.1109/WACV51458.2022.00084
  2. Hyunjun Eun, Jinyoung Moon, Jongyoul Park, Chanho Jung, and Changick Kim, "Learning Snippet Relatedness Based on LSTM for Temporal Action Proposal Generation," The Journal of Korean Institute of Communications and Information Sciences, vol.45, no.6, pp.975-978, 2020. DOI: 10.7840/kics.2020.45.6.975
  3. Bharat Singh, Tim K. Marks, Michael Jones, Oncel Tuzel, Ming Shao, "A Multi-Stream BiDirectional Recurrent Neural Network for FineGrained Action Detection," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.1961-1970, 2016. DOI: 10.1109/CVPR.2016.216
  4. Feng Cheng, Gedas Bertasius, "TallFormer: Temporal Action Localization with a Long-memory Transformer," European Conference on Computer Vision, pp.503-521, 2022. DOI: 10.48550/arXiv.2204.01680
  5. Y. G. Jiang, et al., "Thumos challenge: Actionrecognition with a large number of classes," 2014, http://crcv.ucf.edu/THUMOS14/.