PCMM 기반 특징 보상 기법에서 변별력 향상을 위한 Minimum Classification Error 훈련의 적용

Minimum Classification Error Training to Improve Discriminability of PCMM-Based Feature Compensation

  • 발행 : 2005.01.01


본 논문에서는 잡음 환경에서 강인한 음성 인식을 위하여 특징 보상 기법의 성능을 향상시킬 수 있는 방법을 제안한다. 기존의 음성 모델 기반의 특징 보상 기법에서 이용되는 오염 음성 모델 추정 방식은 입력 음성에 대한 변별력 있는 사후 확률 예측을 보장하지 못하며, 부정확하게 계산된 사후 확률은 복구된 음성에서 명료도 하락의 문제를 일으킨다. 제안하는 기법에서는 오염 음성 모델 추정 과정에 분별적 훈련 방식의 하나인 최소 분류 오류 (MCE) 훈련 기법을 도입한다. MCE 훈련 기법을 적용하기 위해 변별력 하락의 가능성을 가지는 '경쟁 요소' 를 결정하는 기법을 제안한다. 병렬결합된 혼합 모델 (PCMM) 기반의 특징 보상에 MCE 훈련 기법을 적용하는 과정을 제안하고 변별력 향상의 영향을 관찰한다. Aurora 2.0 데이터베이스와 실제 자동차 주행 환경에서 수집된 음성 데이터베이스에 대한 성능 평가를 실시한다. 실험 결과는 제안한 기법이 음성 인식 성능 향상에 도움이 되는 것을 입증한다.

In this paper, we propose a scheme to improve discriminative property in the feature compensation method for robust speech recognition under noisy environments. The estimation of noisy speech model used in existing feature compensation methods do not guarantee the computation of posterior probabilities which discriminate reliably among the Gaussian components. Estimation of Posterior probabilities is a crucial step in determining the discriminative factor of the Gaussian models, which in turn determines the intelligibility of the restored speech signals. The proposed scheme employs minimum classification error (MCE) training for estimating the parameters of the noisy speech model. For applying the MCE training, we propose to identify and determine the 'competing components' that are expected to affect the discriminative ability. The proposed method is applied to feature compensation based on parallel combined mixture model (PCMM). The performance is examined over Aurora 2.0 database and over the speech recorded inside a car during real driving conditions. The experimental results show improved recognition performance in both simulated environments and real-life conditions. The result verifies the effectiveness of the proposed scheme for increasing the performance of robust speech recognition systems.



  1. X. Huang, A. Acero and H. Hon, Spoken Language Processing, Prentice Hall PTR, 2001
  2. W. Kim, S. Ahn and H. Ko, 'Feature Compensation Scheme Based on Parallel Combined Mixture Model,' Proc. of Euro-speech2003, pp.677-680, Sep. 2003
  3. 김우일, 이흥규, 권오일, 고한석, '병렬 결합된 혼합 모델 기반의 특징 보상 기술,' 한국음향학회지, 22 (7), pp.603-611, Oct., 2003
  4. P. J. Moreno, Speech Recognition in Noisy Environments, PhD Thesis, Carnegie Mellon University, 1996
  5. P. J. Moreno, B. Raj and R. M. Stern, 'Data-driven Environmental Compensation for Speech Recognition: A Unified Approach,' Speech Communication, 24 (4), 267-285, July 1998 https://doi.org/10.1016/S0167-6393(98)00025-9
  6. B. Juang, W. Chou and C. Lee, 'Minimum Classification Error Rate Methods for Speech Recognition,' IEEE Trans. On Speech and Audio Processing, 5 (3), 257-265, May 1997 https://doi.org/10.1109/89.568732
  7. M. J. F. Gales and S. J. Young, 'Robust Continuous Speech Recognition Using Parallel Model Combination,' IEEE Trans. on Speech and Audio Processing, 4 (5), 352-359, Sep. 1996 https://doi.org/10.1109/89.536929
  8. W. Kim, O. Kwon, H. Ko, 'PCMM-based Feature Compensation Schemes Using Model Interpolation and Mixture Sharing,' Proc. ICASSP2004, 989-992, May. 2004
  9. 김우일 고한석, '시변 잡음에 대처하기 위한 다중 모델을 이용한 PCMM 기반 특징 보상 기법,' 한국음향학회지, 23 (6), 473-480, Oct., 2004
  10. H. G. Hirsch & D. Pearce, 'The AURORA Experimental Framework for the Performance Evaluations of Speech Recognition Systems under Noisy Conditions', ISCA ITRW ASR2000, Sep. 2000
  11. ETSI standard document, 'Speech Processing, Transmission and Quality aspects (STQ): Distributed speech recognition: Front-end feature extraction algorithm: Compression algorithms,' ETSI ES 201 108 v1.1.2 (2000-04), Feb. 2000
  12. R. Martin, 'Spectral Subtraction Based on Minimum Statistics.' EUSIPCO-94, PP.1182-1185, Sep. 1994
  13. http://www.sitec.or.kr