Speech Activity Detection using Lip Movement Image Signals

입술 움직임 영상 선호를 이용한 음성 구간 검출

  • Received : 2010.07.07
  • Accepted : 2010.10.29
  • Published : 2010.10.30

Abstract

In this paper, A method to prevent the external acoustic noise from being misrecognized as the speech recognition object is presented in the speech activity detection process for the speech recognition. Also this paper confirmed besides the acoustic energy to the lip movement image signals. First of all, the successive images are obtained through the image camera for personal computer and the lip movement whether or not is discriminated. The next, the lip movement image signal data is stored in the shared memory and shares with the speech recognition process. In the mean time, the acoustic energy whether or not by the utterance of a speaker is verified by confirming data stored in the shared memory in the speech activity detection process which is the preprocess phase of the speech recognition. Finally, as a experimental result of linking the speech recognition processor and the image processor, it is confirmed to be normal progression to the output of the speech recognition result if face to the image camera and speak. On the other hand, it is confirmed not to the output the result of the speech recognition if does not face to the image camera and speak. Also, the initial feature values under off-line are replaced by them. Similarly, the initial template image captured while off-line is replaced with a template image captured under on-line, so the discrimination of the lip movement image tracking is raised. An image processing test bed was implemented to confirm the lip movement image tracking process visually and to analyze the related parameters on a real-time basis. As a result of linking the speech and image processing system, the interworking rate shows 99.3% in the various illumination environments.

본 논문에서는 음성인식을 위한 음성구간 검출과정에서 유입될 수 있는 동적인 음향에너지 이외에 화자의 입술움직임 영상신호까지 확인함으로써 외부 음향잡음이 음성인식 대상으로 오인식되는 것을 방지하기 위한 한 가지 방법이 제시된다. 우선, 연속적인 영상이 PC용 영상카메라를 통하여 획득되고 그 입술움직임 여부가 식별된다. 다음으로, 입술움직임 영상신호 데이터는 공유메모리에 저장되어 음성인식 프로세서와 공유한다. 한편, 음성인식의 전처리 단계인 음성구간 검출과정에서 공유메모리에 저장되어진 데이터를 확인함으로써 화자의 발성에 의한 음향에너지인지의 여부가 입증된다. 최종적으로, 음성인식기와 영상처리기를 연동시켜 실험한 결과, 영상카메라에 대면해서 발성하면 음성인식 결과의 출력에 이르기까지 연동처리가 정상적으로 진행됨을 확인하였고, 영상카메라에 대면치 않고 발성하면 연동처리시스템이 그 음성인식 결과를 출력치 못함을 확인하였다. 또한, 오프라인하의 입술움직임 초기 특정값 및 템플릿 초기영상을 온라인하에서 추출된 입술움직임 초기특정값 및 템플릿 영상으로 대체함으로써 입술움직임 영상 추적의 변별력을 향상시켰다. 입술움직임 영상 추적과정을 시각적으로 확인하고 실시간으로 관련된 패러미터를 해석하기 위해 영상처리 테스트베드를 구축하였다, 음성과 영상처리 시스템의 연동결과 다양한 조명환경 하에서도 약 99.3%의 연동율을 나타냈다.

Keywords

References

  1. Lawrence Rabiner, Biing-Hwang juang, Fundamentals of Speech Recognition, Prentice Hall, pp.11-68, 1993.
  2. G. Potamianos, & C. Neti, G. Gravier, A. Grag, & A.W. Senior, "Recent advances in the automatic recognition of Audio-visual speech", Proceedings of the IEEE, Vol.91 , No.9, pp.1306-1326, 2003.
  3. Shogo Nishida, "Speech Recognition Enhancement by Lip-Information", Media Laboratory, MIT Cambridge, MA 02139, pp.198-204, April 1986.
  4. M.T. Zhang, and T.S. Huang, "Real-Time Lip Tracking and Bimodal Continuous Speech Recognition", IEEE Second Workshop on Multimedia Signal Proceeding, pp.65-70, 7-9 Dec. 1998.
  5. G. Potaminanos, H.P. Graf, and E. Cosatto, "An Image Transform Approach for HMM Based Automatic Lipreading," Image Processing, 1988. ICIP 98, Proceeding, pp.173-177, Oct. 1998.
  6. S. Nakamura, and E. Yamamoto, "Speech-to-lip movement synthesis by maximizing audio-visual joint probability based on the em algorithm", Journal of VLSI Signal Processing, Vol.27, No.1-2, pp.119-126, 2001. https://doi.org/10.1023/A:1008179732362
  7. P. Lucey, & G. Potamianos, "Lipreading using profile versus frontal views", In Proceedings of the International Workshop on Multimedia Signal Processing, (Victoria, Canada), pp.24-28, 2006.
  8. A. W. Liew, S. H. Leung, and W. H. Lau, "Lip contour extraction from color images using a deformable model", Pattern Recognition, Vol.35, No.12 , pp.2949-2962, 2002. https://doi.org/10.1016/S0031-3203(01)00231-X
  9. G. Potamianos, & C. Neti, "Audio-visual speech recognition In challenging environments", In Proceedings of the European Conference on Speech Communication and Technology, (Geneva, Switzerland), pp.1293-1296, 2003.
  10. A. Liew and S. Wang, "Visual Speech Recognition: Lip Segmentation and Mapping", editors, IGI Global, 2009.
  11. Rafael C. Gonzalez, Richard E. Woods, Digital Image Processing, Second Edition, pp.567-642. 2002.
  12. Z. Q. Wu, J. A. Ware, W. R. Stewart, and J. Jiang, "The Removal of Blocking Effects Caused by Partially Overlapped Sub-activity Contrast Enhancement", Journal of Electronic Imaging, Vol.14, Issue 3, 033006(8 pages), July-Sept. 2005. https://doi.org/10.1117/1.1993624
  13. V. Libal, J. Connell, G. Potamianos, and E. Marcheret, "An embedded system for in-vehicle visual speech activity detection", In proceedings of the International Workshop on Multimedia Signal Processing(MMSP 2007), pp.255-258, Chania, Greece, 2007.
  14. 김응규, 이수종, "입술움직임 영상신호를 활용한 음성 구간 검출", 2007년 한국신호처리시스템학회 추계학술대회 논문집, 제8권, 제2호, pp.187-192, 2007
  15. 김응규, 최정훈, 이수종, "연속영상 프레임으로부터 입술움직임 영상의 검출방법", 2008년 한국신호처리 시스템학회 추계학술대회 논문집, 제9권, 제2호, pp.433-437, 2008.
  16. 김응규, 최정훈, "영상 환경에 적응하는 강인한 입술움직임 영역 추적법", 2009년 한국신호처리시스템학회 하계학술대회 논문집, 제10권, 제1호, pp.77-80, 2009
  17. G. Potaminanos, C. Neti, J. Luettin and I. Matthews, Audio-visual automatic speech recognition: An overview, in issue in Visual Speech Processing, MIT Press, 2004.
  18. F. Leymarie and M.D. Levine, "Simulating the Grassfire Transform Using the Active Contour Model", Trans. IEEE Pattern Analysis and Machine Intelligence, Vol.14, No.1, pp.56-75, 1992. https://doi.org/10.1109/34.107013