DOI QR코드

DOI QR Code

Speaker Detection System for Video Conference

영상회의를 위한 화자 검출 시스템

  • 이병선 (김포대학 전자정보계열) ;
  • 고성원 (김포대학 전자정보계열) ;
  • 권혁봉 (김포대학 전자정보계열)
  • Published : 2003.09.01

Abstract

In this paper, we propose a system that detects the current speaker in multi-speaker video conference by using lip motion. First, the system detects the face and lip area of each of the speakers using face color and shape information. Then, to detect the current speaker, it calculates the change between the current frame and the previous frame. To accomplish this, we used two CCD cameras. One is a general CCD camera, the other is a PTZ camera controlled by RS-232C serial port. The result is a system capable of detecting the face of current speaker in a video feed with more than three people, regardless of orientation of the faces. With this system, it only takes 4 to 5 seconds to zoom in on the speaker from the initial image. Also, it is amore efficient image transmission system for such things as video conference and internet broadcasting because it offers a face area screen at a resolution of 320X240, while at the same time providing a whole background screen.

본 논문에서는 여러 사람이 참여하는 영상 회의에서 입술 움직임 정보를 이용하여 화자를 검출하는 시스템을 구현하였다. 구현된 시스템은 얼굴색 정보와 형태 정보를 이용하여 각 사람의 얼굴 및 입술 영역을 검출한 후, 입술 영역에서 이전 프레임과의 변화량을 계산하여 화자를 검출한다. 검출된 화자를 클로즈업하기 위하여 두 대의 CCD카메라를 사용하였으며, RS-232C시리얼 포트를 이용하여 PTZ 카메라를 제어한다. 실험 결과 3인 이상의 입력 동영상에서 얼굴의 기울어짐에 무관하게 화자를 검출할 수 있었으며 최초 기준 영상에서 화자를 클로즈업하는데 약 4∼5초 정도의 시간이 소요되었다. 또한 320${\times}$240 크기의 얼굴 영역 화면과 전체적인 배경 화면을 동시에 제공하므로 영상회의 및 인터넷 방송 등과 같은 영상 전송 시스템에서 보다 효율적인 의사 전달이 가능하게 하였다.

Keywords

References

  1. P. Delmas, P. Y Coulon, and V. Fristot, "Automatic Snakes for Robust Lip Boundaries Extraction", 1999 IEEE International Conf, Vol.6, Acoustics, Speech and Signal processing pp.3069-3072, 1999. https://doi.org/10.1109/ICASSP.1999.757489
  2. K. Sobottka and I. Pitas, "Extraction of Facial Regions and Features using Color and Shape Information," IEEE Proc. Pattern Recognition, vol. III, pp.421-425, 1996. https://doi.org/10.1109/ICPR.1996.546982
  3. D. Chai and K. N. Ngan, "Location facial region of a head-and-shoulders color image," IEEE Proc. Automatic Face and Gesture Recognition, pp.124-129, 1998.
  4. M. A. Turk and A. P. Pentland, "Face Recognition Using Eigenfaces," IEEE Proc. Computer Vision and Pattern Recognition, pp.586-591, 1991. https://doi.org/10.1109/CVPR.1991.139758
  5. A. J. Colmenzarez and T. S. Huang, "Maximum Likelihood Face Detection," IEEE Proc. Automatic Face and Gesture Recognition, pp.307-311, 1996.
  6. Young-Gil Kim, Jae-Hyeok Han, and Jae-Hyeong Ahn , "Facial regions detection using the color and shape information in color still images", Journal of korea multimedia society, Vol. 4, No. 1, pp.67-74, 2001.
  7. D. Chai and K. N. Ngan, "Locating facial region of acolor image," IEEE Proc. Automatic Face andRecognition, pp.124-129, 1998.
  8. S. Nagaya, T. Miyatake, T. Fujita, W. Ito, and H. Ueda, MovingObject Detection by Time Correlation Based BackgroundProceeding of ACCV '95, pp.717-722, 1995.
  9. Ok-Sam Chae, Jeong-Heon Lee, Yong-Hak Ahn, and Seong-Guk Lee, "Invader watching and tracing system using neural network" The 8th image processing workshop, pp.167-172, 1996.
  10. Tae-Ung Yu, and Oil-Seok Oh, "Facial region detection based color distribution information", Korea information science society, Vol. 24, No. 2, pp.180-192, 1997.