Speech Recognition by Integrating Audio, Visual and Contextual Features Based on Neural Networks

신경망 기반 음성, 영상 및 문맥 통합 음성인식

  • 김명원 (숭실대학교 컴퓨터학부) ;
  • 한문성 (한국전자통신연구원 디지털 홈 연구) ;
  • 이순신 (LG-CNS 기술연구부문 솔루션센터 DW/BI) ;
  • 류정우 (숭실대학교 컴퓨터학부)
  • Published : 2004.05.01

Abstract

The recent research has been focused on fusion of audio and visual features for reliable speech recognition in noisy environments. In this paper, we propose a neural network based model of robust speech recognition by integrating audio, visual, and contextual information. Bimodal Neural Network(BMNN) is a multi-layer perception of 4 layers, each of which performs a certain level of abstraction of input features. In BMNN the third layer combines audio md visual features of speech to compensate loss of audio information caused by noise. In order to improve the accuracy of speech recognition in noisy environments, we also propose a post-processing based on contextual information which are sequential patterns of words spoken by a user. Our experimental results show that our model outperforms any single mode models. Particularly, when we use the contextual information, we can obtain over 90% recognition accuracy even in noisy environments, which is a significant improvement compared with the state of art in speech recognition. Our research demonstrates that diverse sources of information need to be integrated to improve the accuracy of speech recognition particularly in noisy environments.

최근 잡음환경에서 신뢰도 높은 음성인식을 위해 음성정보와 영상정보를 융합하는 방법이 활발히 연구되고 있다. 본 논문에서는 이절적인 정보의 융합에 적합한 신경망 모델을 기반으로 음성, 영상 및 문맥 정보 등 다양한 정보를 융합하여 잡음 환경에서 고려단어를 인식하는 음성인식 기법에 대하여 기술한다. 음성과 영상 특징을 이용한 이중 모드 신경망 BMNN(BiModal Neural Network)을 제안한다. BMM은 4개 층으로 이루어진 다층퍼셉트론의 구조를 가지며 각 층은 입력 특징의 추상화 기능을 수행한다. BMNN에서는 제 3층이 잡음에 의한 음성 정보의 손실을 보상하기 위하여 음성과 영상 특징을 통합하는 기능을 수행한다. 또한, 잡음환경에서 음성 인식률을 향상시키기 위해 사용자가 말한 단어들의 순차 패턴을 나타내는 문맥정보를 이용한 후처리 방법을 제안한다. 잡음환경에서 BMNN은 단순히 음성만을 사용한 것 보다 높은 성능을 보임으로써 그 타당성을 확인할 수 있을 뿐 아니라, 특히 문맥을 이용한 후처리를 하였을 경우 잡음 환경에서 90%이상의 인식률을 달성하였다 본 연구는 잡음환경에서 강인한 음성인식을 위해 다양한 추가 정보를 사용함으로써 성능을 향상시킬 수 있음을 제시한다.

Keywords

References

  1. Claude C. Chibelushi, Farzin Deravi, 'A Review of Speech-Based Bimodal Recognition,' IEEE Transactions on Multimedia, vol. 4, no. 1, pp. 23-37, March, 2002 https://doi.org/10.1109/6046.985551
  2. Kaynak, M.N.; Qi Zhi; Check, A.D.; SEngupta,K.; Ko Chi Chung; 'Audio-visual modeling for bimodal speech recognition,' Systems, Man, and Cybernetics, 2001 IEEE Int. Conf. on , vol. 1, pp. 181-186, 2001 https://doi.org/10.1109/ICSMC.2001.969809
  3. Gemello, R.; Albesano, D.; Mana, F.; Moisa, L.; 'Multi-source neural networks for speech recognition: a review of recent results', Neural Networks, 2000. IJCNN 2000, Proc. of the IEEE - INNS-ENNS Int. Joint Conf. on , vol. 5, pp. 265-270, 2000 https://doi.org/10.1109/IJCNN.2000.861468
  4. Xiaozheng Zhang; Merserratt, R.M.; Clements, M.; , 'Bimodal fusion in audio-visual speech recognition', Image Processing 2002 Proc. 2002 Int. Conf. on ,vol.1, pp. 964-967, 2002 https://doi.org/10.1109/ICIP.2002.1038188
  5. A. Waibel, T. Hanazawa, G. Hinton, K. Shikano, K. J. Lang, 'Phoneme Recognition Using Time-Delay Neural Networks', IEEE Trans. on Acoustics, Speech and Signal Processing. vol.37, no.3, pp. 328-339, March 1989 https://doi.org/10.1109/29.21701
  6. Haffiner,P., and Waibel, A. 'Multi-State Time Delay Neural Networks for Continuous Speech Recognition'. In Advances in Neural Information Processing Systems 4, Morgan Kaufmann Publishers, 1992
  7. Joe Tebelskis,'Speech Recognition using Neural Networks', CMU-CS-95-142, May 1995
  8. C.Bregler, S.Manke, H.Hild, and A.Waibel, 'Bimodal sensor integration on the example of speech-reading', Proc. of IEEE Int. Conf. on Neural Networks, San Francisco, 1993 https://doi.org/10.1109/ICNN.1993.298634
  9. 이상원, 박인정, '잡음환경에서 음성-영상 정보의 통합 처리를 사용한 숫자음 인식에 관한 연구', 전자공학회논문지, 제38권 CI편, 제3호, pp.61-67, 2001년 5월
  10. Doh-Suk Kim,Soo-Young Lee, Rhee M. Kil, 'Auditory Processing of Speech Signals for Robust Speech Recognition in Real-World Noisy Environments', IEEE Trans. on Speech and Audio Processing, vol.7, no.1, pp. 55-69, January 1999 https://doi.org/10.1109/89.736331
  11. L.Reveret, C.Benoit, 'Lip Parameters Extraction Based on Projection of Raw Image onto Reference Shapes', Proc of IEEE First Workshop on Multimedia Signal, pp.1-6, June, 1997 https://doi.org/10.1109/MMSP.1997.602604
  12. Mary Jo Creaney-Stockton, Beng., MSc., 'Isolated Word Recognition using Reduced Connectivity Neural Networks With Non-Linear Time Alignment Methods', Dept of Electrical and Electronic Engineering Univ. of Newcastle-Upon-Tyne, August, 1996
  13. 남상엽, 전은희, 박인정, '실시간 임베디드 음성 인식 시스템', 전자공학횐논문지, 제40권 CI편, 제1호, pp.74-81, 2003년 1월