Statistical Model for Emotional Video Shot Characterization

비디오 셧의 감정 관련 특징에 대한 통계적 모델링

  • 박현재 (가톨릭대학교 컴퓨터정보공학부 지능형 멀티미디어 시스템 연구실) ;
  • 강행봉 (가톨릭대학교 컴퓨터정보공학부 지능형 멀티미디어 시스템 연구실)
  • Published : 2003.12.01

Abstract

Affective computing plays an important role in intelligent Human Computer Interactions(HCI). To detect emotional events, it is desirable to construct a computing model for extracting emotion related features from video. In this paper, we propose a statistical model based on the probabilistic distribution of low level features in video shots. The proposed method extracts low level features from video shots and then from a GMM(Gaussian Mixture Model) for them to detect emotional shots. As low level features, we use color, camera motion and sequence of shot lengths. The features can be modeled as a GMM by using EM(Expectation Maximization) algorithm and the relations between time and emotions are estimated by MLE(Maximum Likelihood Estimation). Finally, the two statistical models are combined together using Bayesian framework to detect emotional events in video.

비디오 데이터에 존재하는 감정을 처리하는 것은 지능적인 인간과 컴퓨터와의 상호작용을 위해서 매우 중요한 일이다. 이러한 감정을 추출하기 위해서는 비디오로부터 감정에 관련된 특징들을 검출하기 위한 컴퓨팅 모델을 구축하는 것이 바람직하다. 본 논문에서는 비디오 셧에 존재하는 저급 특징들의 확률적인 분포를 이용하여 감정 이벤트 발생에 관련된 통계학적인 모델을 제안한다. 즉, 비디오 셧의 기본적인 특징을 추출하고 그 특징을 통계적으로 모델화 하여 감정을 유발하는 셧을 찾아낸다. 비디오 셧의 특징으로는 칼라, 카메라 모션 및 셧 길이의 변화를 이용한다. 이러한 특징들을 EM(Expectation Maximization) 알고리즘을 이용하여 GMM(Gaussian Mixture Model) 으로 모델링하고, 감정과 시간과의 관계를 MLE(Maximum Likelihood Estimation)를 이용하여 시간에 따른 확률분포 모델로 구성한다. 이런 두 개의 통계적인 모델들을 융합하여 베이시안 분류법을 적용하여 비디오 데이터로부터 감정에 관련된 셧을 찾아낸다.

Keywords

References

  1. A. Hanjalic, 'Video and Image Retrieval beyond the Cognitive Level: The Needs and Possibilities,' Proc. SPIE Storage and Retrieval for Media Databases, San Jose, pp. 130-140, 200
  2. R. Picard, Affective Computing, MIT Press, 1997
  3. C. Dorai and S. Venkatesh eds., Media Computing: Computational Media Aesthetics, Kluwer Academic Publishers, 2002
  4. Nuno Vasconcelos and Andrew Lippman, 'Statistical Models of Video for Content Analysis and Characterization', IEEE Trans. Image Processing, vol. 9, PP. 3-19, Jan. 2000 https://doi.org/10.1109/83.817595
  5. C. Taskiran, C. Bouman, and E. DelP, 'Discovering video structure suing the pseudo-semantic trace', Proc. SPIE Storage and Retrieval for Media Databases 2001, Jan. 2001, PP.571-578
  6. U. Sarkar, S. Ramakrishnan and D. Sarkar, 'Segmenting full-length VBR video into shots for modeling with markov-modulated gamma-based framework', SPIE ITCom 2007, 19-24, Aug. 2001
  7. S. Moncrief, C. Dorai and S. Venkatesh, 'Affect Computing in Film through Sound Energy Dynamics', Proc. ACM MM'01, pp525-527, 2001
  8. A. Hanjalic and L. Xu, 'User-oriented Affective Video Content Analysis', Proc. IEEE Workshop on CBAIBL '01, Kauai, HI, pp50-57, Dec 2001 https://doi.org/10.1109/IVL.2001.990856
  9. E. Goldstein, Sensation and perception, Brooks/Cole, 1999
  10. Sangkeun Lee, Hayes M.H., III, 'Real-time camera motion classification for content based indexing and retrieval using templates', Proc. 1CASSP '02 , Volume: 4 , 2002 , PP.3664 -3667
  11. Richard O. Duda, Peter E. Hart, David G. Stork, Pattern classification 2nd Ed., Wiley-interscience