PCMM-Based Feature Compensation Method Using Multiple Model to Cope with Time-Varying Noise

시변 잡음에 대처하기 위한 다중 모델을 이용한 PCMM 기반 특징 보상 기법

  • 김우일 (고려대학교 전자컴퓨터공학과) ;
  • 고한석 (고려대학교 전자컴퓨터공학과)
  • Published : 2004.08.01

Abstract

In this paper we propose an effective feature compensation scheme based on the speech model in order to achieve robust speech recognition. The proposed feature compensation method is based on parallel combined mixture model (PCMM). The previous PCMM works require a highly sophisticated procedure for estimation of the combined mixture model in order to reflect the time-varying noisy conditions at every utterance. The proposed schemes can cope with the time-varying background noise by employing the interpolation method of the multiple mixture models. We apply the‘data-driven’method to PCMM tot move reliable model combination and introduce a frame-synched version for estimation of environments posteriori. In order to reduce the computational complexity due to multiple models, we propose a technique for mixture sharing. The statistically similar Gaussian components are selected and the smoothed versions are generated for sharing. The performance is examined over Aurora 2.0 and speech corpus recorded while car-driving. The experimental results indicate that the proposed schemes are effective in realizing robust speech recognition and reducing the computational complexities under both simulated environments and real-life conditions.

본 논문에서는 잡음 환경에서 강인한 음성 인식을 위하여 음성 모델을 기반으로 하는 효과적인 특징 보상 기법을 제안한다. 제안하는 특징 보상 기법은 병렬 결합된 혼합 모델 (PCMM)을 기반으로 한다. 기존의 PCMM 기반의 기법은 시간에 따라 변하는 잡음 환경을 반영하기 위하여 매 음성 입력마다 복잡한 과정의 혼합 모델 결합이 필요하다. 제안하는 기법에서는 다중의 혼합 모델을 보간하는 방법을 채용함으로써 시간에 따라 변하는 배경 잡음에 대응할 수 있다. 보다 신뢰성 있는 혼합 모델 생성을 위하여 데이터 유도 기반의 방법을 도입하고, 실시간 처리를 위하여 프레임에 동기화된 환경 사후 확률 예측 과정을 제안한다. 다중 모델로 인한 연산량 증가를 막기 위하여 혼합 모델을 공유하는 기법을 제안한다. 가우시안 혼합 모델 사이에 통계학적으로 유사한 요소들을 선택하여 공유에 필요한 공통 모델을 생성한다. Aurora 2.0 데이터베이스와 실제 자동차 주행 환경에서 수집된 음성 데이터베이스에 대한 성능 평가를 실시한다. 실험 결과로부터 제안한 기법이 모의 환경과 실제 잡음 환경에서 강인한 음성 인식 성능을 가져오고 연산량 감소에 효과적임을 확인한다.

Keywords

References

  1. Spoken Language Processing X. Huang;A. Acero;H. Hon
  2. IEEE Trans. on Speech and Audio Processing v.2 no.2 Maximum a Posteriori Estimation for Multivariate Gaussian mixture Observations of Markov chains J. L. Gauvain;C. H. Lee https://doi.org/10.1109/89.279278
  3. Computer Speech and Language v.9 Maximum likelihood linear regression for speaker adaptation of continuous density HMMs C. J. Leggetter;P. C. Woodland https://doi.org/10.1006/csla.1995.0010
  4. IEEE Trans. on Speech and Audio Processing v.4 no.5 Robust Continous Speech Recognition Using parallel Model Combination M. J. F. Gales;S. J. Young https://doi.org/10.1109/89.536929
  5. Proc. Eurospeech 2003 Feature Compensation Scheme Based on Parallel Combined Mixture Model W. Kim;S. Ahn;H. Ko
  6. 한국음향학회지 v.22 no.7 병렬 결합된 혼합 모델 기반의 특징 보상 기술 김우일;이홍규;권오일;고한석
  7. Speech Communication v.24 no.4 Data-driven Environmental Compensation for Speech Recognition: A Unified Approach P. J. Moreno;B. Raj;R. M. Stern https://doi.org/10.1016/S0167-6393(98)00025-9
  8. PhD Thesis, Carnegie Mellon University Speech Recognition in Noisy Environments P. J. Moreno
  9. Information Theory and Statistics S. Kullback
  10. ISCA ITRW ASR2000 The AURORA Experimental Framework for the Performance Evaluations of Speech Recognition Systems under Noisy Conditions H. G. Hirsch;D. Pearce
  11. ETSI ES 201 108 v1.1.2 (2000-04) Speech Processing, Transmission and Quality aspects (STQ): Distributed speech recognition: Front-end feature extraction algorithm: Compression algorithms ETSI standard document
  12. EUSIPCO-94 Spectral Subtraction Based on Minimum Statistics R. Martin