Noise-Robust Speech Recognition Using Histogram-Based Over-estimation Technique

히스토그램 기반의 과추정 방식을 이용한 잡음에 강인한 음성인식

  • 권영욱 (디지털코리아 (부경대기술사업단)) ;
  • 김형순 (부산대학교 전자공학과)
  • Published : 2000.08.01

Abstract

In the speech recognition under the noisy environments, reducing the mismatch introduced between training and testing environments is an important issue. Spectral subtraction is widely used technique because of its simplicity and relatively good performance in noisy environments. In this paper, we introduce histogram method as a reliable noise estimation approach for spectral subtraction. This method has advantages over the conventional noise estimation methods in that it does not need to detect non-speech intervals and it can estimate the noise spectra even in time-varying noise environments. Even though spectral subtraction is performed using a reliable average noise spectrum by the histogram method, considerable amount of residual noise remains due to the variations of instantaneous noise spectrum about mean. To overcome this limitation, we propose a new over-estimation technique based on distribution characteristics of histogram used for noise estimation. Since the proposed technique decides the degree of over-estimation adaptively according to the measured noise distribution, it has advantages to be few the influence of the SNR variation on the noise levels. According to speaker-independent isolated word recognition experiments in car noise environment under various SNR conditions, the proposed histogram-based over-estimation technique outperforms the conventional over-estimation technique.

잡음환경에서의 음성인식 성능향상을 위해서는 서로 다른 잡음환경으로 인한 mismatch를 줄이는 것이 중요하다. 이를 위해 계산이 간단하고 잡음환경에서 비교적 우수한 성능을 내고 있는 스펙트럼 차감법이 널리 사용되고 있다. 본 논문에서는 스펙트럼 차감법을 적용하기 위한 잡음 스펙트럼 추정방법으로 히스토그램 처리방법을 도입한다. 히스토그램 처리방법은 음성이 아닌 구간의 검출이 필요없으며 시간에 따라 변화하는 시변잡음에도 적용 가능한 장점이 있다. 그러나 히스토그램 처리방법으로 신뢰도 높은 잡음 스펙트럼의 평균값을 추정하더라도 스펙트럼 차감법을 적용했을 때의 잔여 잡음의 문제가 발생한다. 이를 해결하기 위하여 잡음추정 과정에 사용되었던 히스토그램의 분포특성을 고려한 새로운 over-estimation 적용방식을 제안한다. 제안된 방식은 측정된 잡음의 분포에 따라 적응적으로 over-estimation의 정도를 결정함으로써 SNR 변화에 따른 영향이 적은 장점이 있다. 자동차 소음 환경에서의 화자독립 고립단어 인식실험 결과, 기존의 over-estimation factor를 적용한 경우보다 제안된 방식의 인식성능이 개선되었다.

Keywords

References

  1. IEEE Trans., Acoust., Speech Signal Processing v.ASSP-27 no.2 Suppression of acoustic noise in speech using spectral subtraction S. F. Boll
  2. Robustness in Automatic Speech Recognition J. C. Junqua;J. P. Haton
  3. Advanced Signal Processing and Digital Noise Reduction S. V. Vaseghi
  4. Proc. IEEE ICASSP-95 Noise estimation techniques for robust speech recognition H. G. Hirsch;C. Ehricher
  5. 한국음향학회 논문집 v.16 no.5 히스토그램 처리방법에 의한 잡음 스펙트럼 추정을 이용한 잡음환경에서의 음성인식 권영욱;김형순
  6. 한국음향학회 논문집 v.17 no.3 히스토그램 처리방법을 이용한 시변 잡음환경에서의 음성인식 권영욱;김형순
  7. 제12회 음성통신 및 신호처리 워크샵 논문집 ETRI의 음성 데이터베이스 구축 현황 이영직 (외)
  8. HTK : Hidden Markov Model Toolkit V1.5 S. J. Young (et al.)