폭발장면 자동 검출을 위한 저급 수준 비디오 특징의 추상화

Abstraction Mechanism of Low-Level Video Features for Automatic Retrieval of Explosion Scenes

  • 발행 : 2001.05.01

초록

본 논문에서는 MPEG형식의 영화 데이터를 대상으로 폭발 장면 자동 추출을 위한 저급 수준 비디오 내용정보의 추상화 방법을 제안하고, 실제 구현을 통하여 그 유용성을 보인다. 제안한 추상화 방법은 폭발시 발생하는 불꽃의 색이 노란색 톤을 가진다는 사실과, 불꽃이 나타나는 프레임은 같은 tit에 속하는 이웃한 프레임과는 화면 구성이 달라지게 되므로 움직임 에너지 값이 커지게 된다는 사실을 바탕으로 한다. 이를 위해서 샷 단위의 인덱싱을 자동적으로 수행하고 각 샷의 첫 번째 프래임을 키 프레임으로 하다. 이를 위해서 샷 단위의 인덱싱을 자동적으로 수행하고 각 샷의 첫 번째 프레임을 키 프레임으로 선택한 후 영역별 주 색깔(Dominant Color)를 추출한다. 이때 색 공간은 양자화를 통한 512색 중 노란색 톤을 가지는 48 색 범위로 정의한다. 이후 매 샷마다 첫 번째 프레임과 이웃한 프레임의 에지 이미지(Edge Image)를 추출하여 이들의 차이로써 움직임 에너지(Motion Energy)를 얻는다. 이 두 가지 정보, 즉 노란색 톤을 가지는 색 정보와, 같은 장면 내의 다른 샷의 움직임 에너지에 비해 큰 값의 움직임 에너지를 갖는 샷을 폭발장면이 포함된 장면으로 검출한다. 실험 결과에 의하면 검색 결과는 주어진 임계값에 의존적이나, Recall과 Precision에서 80% 이상의 검출률을 보이고 있다. 그러나 일반적인 폭발 장면은 찾기에는 노란색 불꽃을 보이지 않는 예외적인 경우가 발생하여 이를 추출하는데 어려움이 있었다. 앞으로 이러한 문제점등은 기존의 오디오 정보를 이용한 폭발 장면 검출 방법과 함께 이용함으로써 해결되어질 수 있을 것이다.

This paper proposes an abstraction mechanism of the low-level digital video features for the automatic retrievals of the explosion scenes from the digital video library. In the proposed abstraction mechanism, the regional dominant colors of the key frame and the motion energy of the shot are defined as the primary abstractions of the shot for the explosion scene retrievals. It is because an explosion shot usually consists of the frames with a yellow-tone pixel and the objects in the shot are moved rapidly. The regional dominant colors of shot are selected by dividing its key frame image into several regions and extracting their regional dominant colors, and the motion energy of the shot is defined as the edge image differences between key frame and its neighboring frame. The edge image of the key frame makes the retrieval of the explosion scene more precisely, because the flames usually veils all other objects in the shot so that the edge image of the key frame comes to be simple enough in the explosion shot. The proposed automatic retrieval algorithm declares an explosion scene if it has a shot with a yellow regional dominant color and its motion energy is several times higher than the average motion energy of the shots in that scene. The edge image of the key frame is also used to filter out the false detection. Upon the extensive exporimental results, we could argue that the recall and precision of the proposed abstraction and detecting algorithm are about 0.8, and also found that they are not sensitive to the thresholds. This abstraction mechanism could be used to summarize the long action videos, and extract a high level semantic information from digital video archive.

키워드

참고문헌

  1. H.J. Zhang, Q. Tian, 'Digital Video Analysis and Recognition for content-Based Access,' ACM Computing Surveys, vol. 27, pp. 643-644, 1995 https://doi.org/10.1145/234782.234812
  2. J.R. Smith and S.F. Chang, 'Tools and Techniques for Color Image retrieval,' Proceedings of IS&T/SPIE Storage and Retrieval For Image and Video databases IV, pp. 426-437, 1996 https://doi.org/10.1117/12.234781
  3. E. Ardizzone, M. Cascia and D. Molinelli, 'Motion and Color-Based Video Indexing and Retrieval,' Proceedings of ICPR, pp. 135-149, 1996 https://doi.org/10.1109/ICPR.1996.546809
  4. J.H. Meng and S.F. Chang, 'Tools for Compressed-Domain Video Indexing and Editing,' Proceedings of SPIE Conference on Storage and Retrieval for Image and Video Database, Vol.2670, pp. 180-191, 1996 https://doi.org/10.1117/12.234795
  5. J.H. Meng, S.F. Chang, 'CVEPS: A Compressed Video Edting and Parsing System,' Proceedings of the fourth ACM International Multimedia Conference on Multimedia, pp. 43-53, 1996 https://doi.org/10.1145/244130.244145
  6. N. Vasconcelos, A. Lippman, 'Towards Semantically Meaningful Feature Spaces for the Characterisation of Video Content,' Proceedings of ICIP, Vol. I, pp. 25-28, 1997 https://doi.org/10.1109/ICIP.1997.647375
  7. J. Chen and S. Panchanathan, 'Camera Operation Detection for Video Indexing,' Proceedings of the International conference on Consumer Electronics IEEE, pp. 122-135, 1997
  8. Y. Deng, B. S. Manjunath, 'Content-based Search of Video Using Color, Texture and Moton,' Proceedings of IEEE International Conference on Image Processing, pp. 534-537, 1997
  9. S.F. Chang, Q. Huang, T. Huang, A. Puri and B. Shahraray, 'Multimedia Search and Retrieval,' Advances in Multimedia : Systems, Standards and Networks, pp. 36-55, 1999
  10. B. Klaus, P. Horn, Robot Vision, MIT Press, 1986
  11. S.F. Chang, W. Chen, H.J. Meng, 'A Fully Automated Content Based Video Search Engine Supporting Spatio-Temporal Queries,' IEEE Transactions on circuits & Systems for Video Technology Vol.8, No.5, pp. 602-615, San Jose, 1998 https://doi.org/10.1109/76.718507
  12. M. La Cascia, E. Ardizzone, 'JACOB : Just A Content-Based Query Systems For Video Databses,' Proceedings of ICASSP, pp.56-71, Atlanta, GA, 1996 https://doi.org/10.1109/ICASSP.1996.543585
  13. S. Fischer, R. Lienhart and W. Effelsberg, 'Automatic Recognition of Film Genres,' Proceedings of ACM Multimedia, pp. 295-304, 1996
  14. M. Cavazza, R. Green and I. Palmer, 'Multimedia Semantic Features and Image Content Description,' Proceeding of the Multimedia Modeling, pp. 39-46, 1998 https://doi.org/10.1109/MULMM.1998.722973
  15. S. Fischer, 'Automatic violence detection in digital movies,' Proceedings of SPIE Multimedia Storage and Archiving Systems, pp. 212-223, 1996
  16. R. Lienhart, S. Pfeiffer, S. Fischer, Automatic Movie Abstracting, Technical Report TR-97-003, Praktische Inform atik IV, University of Mannheim, 1997
  17. M. Stricker and M. Orengo, 'Similarity of Color Images,' SPIE Conference on Storage and Retrieval for Image and Video Databases III, Vol. 2670, pp. 380-391, 1996
  18. R. Milanese, F. Deguillaume and A. Jacot-Descombes, 'Video segmentation and Camera Motion characterization Using Compressed Data,' Proceedings of SPIE on Multimedia Storage and Archiving System II, pp. 79-89, 1997 https://doi.org/10.1117/12.290367
  19. R. C. Gonzalez, Digital Image Processing, Addison Wesley, 1993
  20. S. Sclaroff, L. Taycher and M. L. Cascia, 'ImageRover: A Content-Based Image Browser for the World Wide Web,' Proceedings of IEEE Workshop on Content-based Access of Image and Video Libraries, pp. 69-81, 1997 https://doi.org/10.1109/IVL.1997.629714
  21. Y. Deng, D. Mukherjee and B. S. Manjunath,'NeTra-V : Towards an Object-based Video Representation,' Proceedings of SPIE, Storage and Retrieval for Image and ViSdeo Databases VI, vol. 3312, pp. 202-213, 1998 https://doi.org/10.1117/12.298443
  22. http://www.mpeg.org/MPEG/MSSG/, MPEG Software Simulation Group
  23. 정진국, 권오형, 낭종호, 'MPEG 비디오 스트림에서의 샷 경계 검출 방법,' 춘계 정보과학회 학술 발표 논문집, 정보과학회, pp. 449-501, 1998