DOI QR코드

DOI QR Code

Auto Frame Extraction Method for Video Cartooning System

동영상 카투닝 시스템을 위한 자동 프레임 추출 기법

  • Received : 2011.08.03
  • Accepted : 2011.11.21
  • Published : 2011.12.28

Abstract

While the broadband multimedia technologies have been developing, the commercial market of digital contents has also been widely spreading. Most of all, digital cartoon market like internet cartoon has been rapidly large so video cartooning continuously has been researched because of lack and variety of cartoon. Until now, video cartooning system has been focused in non-photorealistic rendering and word balloon. But the meaningful frame extraction must take priority for cartooning system when applying in service. In this paper, we propose new automatic frame extraction method for video cartooning system. At frist, we separate video and audio from movie and extract features parameter like MFCC and ZCR from audio data. Audio signal is classified to speech, music and speech+music comparing with already trained audio data using GMM distributor. So we can set speech area. In the video case, we extract frame using general scene change detection method like histogram method and extract meaningful frames in the cartoon using face detection among the already extracted frames. After that, first of all existent face within speech area image transition frame extract automatically. Suitable frame about movie cartooning automatically extract that extraction image transition frame at continuable period of time domain.

멀티미디어 산업의 발달과 함께 디지털 콘텐츠 시장의 확산을 가져오고 있다. 그 중 인터넷 만화와 같은 디지털 만화 시장의 확장은 급속하게 커지고 있어서, 콘텐츠의 부족과 다양성 때문에 동영상 카투닝에 대한 연구가 계속되고 있다. 지금까지는 동영상 카투닝은 비사실적 렌더링과 말풍선에 초점이 맞추어졌으나, 이러한 것들을 적용하기 위해서는 카투닝 서비스에 적합한 프레임 추출이 우선시 되어야만 한다. 기존의 방법으로는 동영상의 장면전환이 일어나는 샷(shot)안의 프레임을 추출하여, 사용자가 지정한 영역을 임의의 색상으로 렌더링(Rendering)하는 시스템이 있다. 하지만 이러한 방법은 사람의 손을 거치는 반자동적인 방법으로서 정확한 프레임 추출을 위해 사람의 손을 거쳐야하는 단점이 있다. 따라서 본 논문에서는 이러한 문제점을 해결하고, 보다 정확한 카투닝에 적용할 프레임을 추출하기 위해 오디오 및 비디오 분리를 통한 방법을 제안한다. 먼저 동영상으로부터 오디오와 비디오를 분리한다. 오디오는 먼저 MFCC와 영교차율의 특징을 추출하고, 이 특징 정보를 미리 학습된 데이터와 GMM 분류기를 통하여 음악, 음성, 음악+음성으로 분류한 후 음성 영역을 설정한다. 비디오는 히스토그램을 이용한 방법과 같은 일반적인 장면전환 프레임을 추출 후 얼굴 검색을 통해서 만화에서 의미가 있는 프레임을 추출한다. 그 후 음성 영역내에 얼굴이 존재하는 장면전환 프레임이나 일정 시간동안 음성이 지속되는 영역 중 장면전환 프레임을 추출하여 동영상 카투닝에 적합한 프레임을 자동으로 추출한다.

Keywords

References

  1. 이인권, "디지털 콘텐츠의 만화적인 스타일화", 한국콘텐츠학회지, 제6권, 제3호, pp.33-38, 2008.
  2. J. Wang, Y. Q. Xu, H. Y. Shum, and M. F. Cohen, "Video Tooning," ACM Transactions on Graphics Vol.23, pp.574-583, 2004. https://doi.org/10.1145/1015706.1015763
  3. 류동성, 조환규, "HSV 색상 모델과 영역 확장 기법을 이용한 동영상 프레임 이미지의 흑백 만화 카투닝 알고리즘", 정보과학회논문지 : 시스템 및 이론, 제35권, 제12호, pp.560-567, 2008.
  4. W. I. Hwang, P. J. Lee, B. K. Chun, D. S. Ryu, and H. G. Cho, "Cinema Comics : Cartoon Generation From Video Stream," In Proc. of GRAPP, pp.299-304, 2006.
  5. J. Preu and J. Loviscach, "From movie to comic, informed by the screenplay," In SIGGRAPH 2007:ACM SIGGRAPH posters, p.99, 2007.
  6. D. Kurlander, T. Skelly, and D. Salesin, "Comic chat," In Proceedings of SIGGRAPH, ACM Press, pp.225-236, 1996.
  7. B. K. Chun, D. S. Ryu, W. I. Hwang, and H. G. Cho, "An automated procedure for word balloon placement in cinema comics," The 2nd International Symposium on Visual Computing, pagesII, pp.576-585, 2006.
  8. R. Lienhart and J. Maydt, "An Extended Set of Harr-like Features for Rapid Object Detection," IEEE ICIP, pp.900-903, 2002.
  9. 이경록, 류시우, 곽재영, "실험에 의한 음성․음악 분류 특징의 비교", 한국콘텐츠학회 추계종합학술대회 논문집, 제2권, 제2호, pp.308-313, 2004.
  10. P. Viola and M. J. Jones, "Rapid Object Detection Using a Boosted Cascade of Simple Features," IEEE CVPR, Vol.1, pp.511-518, 2001.
  11. G. Bradski and A. Kaehler, "Learning OpenCV: Computer Vision with the OpenCV Library," Cambridge, MA: O'Reilly, 2008.
  12. S. U. Jung, "Effiecient Rectangle Feature Extraction for Real-time Facial Expression Recognition based on AdaBoost," Master's Thesis, Korea Advanced Institue of Science and Technology, 2005.
  13. K. G. Derpanis, "Integral image-based representations," Technical report, Department of Computer Science and Engineering, York University, 2007.
  14. 이원오, 이의철, 박강령, 이희경, 박민식, 이한규, 홍진우, "얼굴 및 눈 위치 추적을 통한 IPTV 화면 인터페이스 제어에 관한 연구", 한국통신학회논문지, 제35권, 제6호, pp.859-993, 2010.