Method for Spectral Enhancement by Binary Mask for Speech Recognition Enhancement Under Noise Environment

잡음환경에서 음성인식 성능향상을 위한 바이너리 마스크를 이용한 스펙트럼 향상 방법

  • 최갑근 (광운대학교 대학원 컴퓨터공학과) ;
  • 김순협 (광운대학교 대학원 컴퓨터공학과)
  • Received : 2010.08.10
  • Accepted : 2010.09.07
  • Published : 2010.10.31

Abstract

The major factor that disturbs practical use of speech recognition is distortion by the ambient and channel noises. Generally, the ambient noise drops the performance and restricts places to use. DSR (Distributed Speech Recognition) based speech recognition also has this problem. Various noise cancelling algorithms are applied to solve this problem, but loss of spectrum and remaining noise by incorrect noise estimation at low SNR environments cause drop of recognition rate. This paper proposes methods for speech enhancement. This method uses MMSE-STSA for noise cancelling and ideal binary mask to compensate damaged spectrum. According to experiments at noisy environment (SNR 15 dB ~ 0 dB), the proposed methods showed better spectral results and recognition performance.

음성인식의 실용화에 가장 저해되는 요소는 배경잡음과 채널잡음에 의한 왜곡이다. 일반적으로 배경잡음은 음성인식 시스템의 성능을 저하시키고 이로 인해 사용 장소의 제약을 받게 한다. DSR (Distributed Speech Recognition) 기반의 음성인식 역시 이와 같은 문제로 성능 향상에 어려움을 겪고 있다. 이러한 문제를 해결하기 위해 다양한 잡음제거 알고리듬이 사용되고 있으나 낮은 SNR환경에서 부정확한 잡음추정으로 발생하는 스펙트럼 손상과 잔존 잡음은 음성인식기의 인식환경과 학습 환경의 불일치를 만들게 되어 인식률을 저하시키는 원인이 된다. 본 논문에서는 이와 같은 문제를 해결하기 위해 잡음제거 알고리듬으로 MMSE-STSA 방법을 사용하였고 손상된 스펙트럼을 보상하기 위해 Ideal Binary Mask를 이용하였다. 잡음환경 (SNR 15 ~ 0 dB)에 따른 실험결과 제안된 방법을 사용했을 때 향상된 스펙트럼을 얻을 수 있었고 향상된 인식성능을 확인했다.

Keywords

References

  1. ETSI standard document, Speech Processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms, ETSI ES 201 108 v.1.1.1 (2000-02), Feb. 2002.
  2. ETSI standard document, Speech Processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms, ETSI ES 201 108 v.1.1.1 (2000-02), Feb. 2002.
  3. R. Flynn, E jones, "Robust Distributed Speech Recognition using Speech Enhancement", IEEE Tansactions on Consumer Electronics, vol. 54, no. 3, pp. 1267-1273, 2008. 8. https://doi.org/10.1109/TCE.2008.4637616
  4. Ephraim, Y., Malah, D. "Speech enhancement Using a minimum mean square error short-time spectral amplitude estimator", IEEE Trans. Acoust., Speech Signal Process., vol. 32, pp. 1109- 1121, 1984. https://doi.org/10.1109/TASSP.1984.1164453
  5. A. S. Bregman, Auditory Scene Analysis. Cambridge, MA: MIT Press, 1990.
  6. N. Roman, D. L. Wang, and G. J. Brown, "Speech segregation based on sound localization," Journal of the Acoustical Society of America, vol. 114, no. 4, pp. 2236–2252, 2003. https://doi.org/10.1121/1.1610463
  7. R. Lyon, "A computational model of filtering, detection, and compression in the cochlea," in Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'82., vol. 7, pp. 1282-1285, 1982.
  8. A. Varga and H. J. M. Steeneken, "Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems," Speech Communication, vol. 12, no. 3, pp. 247-251, July 1993. https://doi.org/10.1016/0167-6393(93)90095-3