가산 잡음 또는 반향 환경에 강인한 음성인식을 위한 은닉 마르코프 모델 기반 특징 향상 방법

  • Published : 2016.08.31

Abstract

실세계 환경의 원거리에서 녹음된 음성은 가산 잡음이나 반향 성분으로 왜곡되기 때문에 음성인식 성능이 현저히 떨어진다. 따라서 음성 전처리 과정은 실세계 환경에서 강인한 음성인식을 위한 필수과정이다. 모델 기반 특징 향상 방법은 전처리 방법 중 하나로 특징 영역 데이터의 적절한 동적 범위(dynamic range)와 차원 수로 인하여 실시간 처리가 가능하고 깨끗한 음성의 선험적 정보를 모델링하기에 용이하다. 또, 인식을 위한 최종 특징 입력에 가까운 단계에서 데이터를 처리하므로 인식에 밀접한 영향을 준다는 장점이 있다. 그러나 대략적인 왜곡 요인 관련 파라미터 추정 때문에 음성인식 성능이 하락되는 단점이 있다. 최근에 기존 모델 기반 특징 향상의 단점을 개선하여 가산 잡음이나 반향 환경에 적합한 방법이 제안되었다. 이글에서는 특징 향상 방법을 소개하고 개선된 방법의 음성인식 강인성을 알아보고자 한다.

Keywords

References

  1. T. Virtanen et al. Techniques for Noise Robustness in Automatic Speech Recognition (John Wiley & Sons, 2012)
  2. J. Huang et al. Improved modulation spectrum enhancement methods for robust speech recognition. Signal Process 92, 2791-2814 (2012) https://doi.org/10.1016/j.sigpro.2012.04.005
  3. I. Mporas et al. Context-adaptive pre-processing scheme for robust speech recognition in fast-varying noise environment. Signal Process 91, 2101-2111 (2011) https://doi.org/10.1016/j.sigpro.2011.03.020
  4. Y. Takahashi, et al. Blind spatial subtraction array for speech enhancement in noisy environment. IEEE Transactions on Audio Speech, Language Processing 17, 650-664 (2009) https://doi.org/10.1109/TASL.2008.2011517
  5. F. Nesta & M. Matassoni. Robust automatic speech recognition through on-line semi blind source extraction. in Proc. 1st Int. Workshop on Machine Listening in Multisource Environments (CHiME), 18-23 (2011)
  6. M. Wu & DeLiang Wang, A two-stage algorithm for one-microphone reverberant speech enhancement. Audio, Speech, and Language Processing, IEEE Transactions on 14, 774-784 (2006) https://doi.org/10.1109/TSA.2005.858066
  7. K. Lebart et al. A new method based on spectral subtraction for speech dereverberation. Acta Acustica United with Acustica 87, 359-366 (2001)
  8. EA. Krueger & R. Haeb-Umbach. Model-based feature enhancement for reverberant speech recognition. IEEE Transcations on Audio, Speech and Language Processing 18, 1692-1707 (2010) https://doi.org/10.1109/TASL.2010.2049684
  9. A. Krueger, et al. Bayesian feature enhancement for ASR of noisy reverberant real-world data. in Proc. Interspeech, Portland, USA (2012)
  10. C. Han et al. Reverberation and Noise Robust Feature Compensation Based on IMM. Audio, Speech, and Language Processing, IEEE Transactions on 21, 1598-1611 (2013) https://doi.org/10.1109/TASL.2013.2256893
  11. H. Bass, H. Bauer & L. Evans, Atmospheric absorption of sound: Analytical expressions. J. Acoust. Soc. Am. 52, 821-825, (1972) https://doi.org/10.1121/1.1913183
  12. Ji-Won Cho & Hyung-Min Park. Independent Vector Analysis Followed by HMM-Based Feature Enhancement for Robust Speech recognition. Signal Processing 120, 200-208 (2015)
  13. Ji-Won Cho & Hyung-Min Park. An efficient HMMbased feature enhancement method with filter estimation for reverberant speech recognition. IEEE Signal Processing Letters 20, 1199-1202 (2013) https://doi.org/10.1109/LSP.2013.2283585
  14. H. Hirsch & D. Pearce. The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions. in ASR2000-Automatic Speech Recognition: Challenges for the New Millenium ISCA Tutorial and Research Workshop (ITRW), (2000)
  15. S. Young et al. The HTK Book (Entropic Cambridge Research Laboratory Cambridge, 1997)
  16. S. Nakaumra K. HIyane, F. Asano, T. Nishiura and T. Yama da, Acoustical sound database in real environments for sound scene understanding and hands-free speech recognition, in LREC (2000)