Performance Improvement in Speech Recognition by Weighting HMM Likelihood

은닉 마코프 모델 확률 보정을 이용한 음성 인식 성능 향상

  • 권태희 (고려대학교 전자.컴퓨터공학과) ;
  • 고한석 (고려대학교 전자.컴퓨터공학과)
  • Published : 2003.02.01

Abstract

In this paper, assuming that the score of speech utterance is the product of HMM log likelihood and HMM weight, we propose a new method that HMM weights are adapted iteratively like the general MCE training. The proposed method adjusts HMM weights for better performance using delta coefficient defined in terms of misclassification measure. Therefore, the parameter estimation and the Viterbi algorithms of conventional 1:.um can be easily applied to the proposed model by constraining the sum of HMM weights to the number of HMMs in an HMM set. Comparing with the general segmental MCE training approach, computing time decreases by reducing the number of parameters to estimate and avoiding gradient calculation through the optimal state sequence. To evaluate the performance of HMM-based speech recognizer by weighting HMM likelihood, we perform Korean isolated digit recognition experiments. The experimental results show better performance than the MCE algorithm with state weighting.

본 논문에서는 인식 단위로서의 개개의 은닉 마코프 모델 (HMM: Hidden Markvo Model)에 대응하는 가중치를 도입하여 HMM출력 스코어는 HMM출력 확률과 HMM 가중치의 곱으로 표현된다고 가정하고 기존의 최소 분류 오류 훈련 방법과 유사하게 HMM 가중치를 반복적으로 훈련하는 방법을 제안하였다. 제안된 방법은 오인식 척도에 대해 차분 (delta) 계수를 정의하고 이를 이용하여 HMM 가중치를 반복하여 훈련하는 방법이다. 이러한 방법은 HMM 가중치의 합을 HMM 개수의 총합으로 제한함으로써 기존의 파라미터 추정 방법과 비터비 (Viterbi) 알고리즘에 큰 변화 없이 음성 인식에 효과적으로 적용될 수 있다. 제안된 방법은 기존의 분할 (segmental) 최소 분류 오류훈련 방법과 비교하여 추정하는 파라미터의 개수가 감소되었으며 훈련 모델의 최적 상태열을 이용한 경도 계산 과정이 포함되지 않음으로써 계산량을 효과적으로 단축할 수 있다. HMM가중치를 이용한 HMM기반의 음성 인식기의 성능 평가를 위해서 단독 숫자음 인식 실험을 실시하였다. 실험적 결과들은 HMM 확률 보정을 이용한 음성 인식 시스템이 베이스라인 시스템보다 음성 인식 성능이 더 우수함을 보여준다. 제안된 방법은 기존의 최소 분류 오류 훈련 방법에 비하여 구현하기 간편한 반면에 더욱 우수한 음성 인식 성능 향상을 보여준다.

Keywords

References

  1. Fundamentals of Speech Recognition L.Rabiner;B.H.Juang
  2. Spoken Language Processing X.Huang;A.Acero;H.W.Hon
  3. Pattern Recognition v.33 An improved maximum model distance approach for HMM-based speech recognition systems A.H.He;S.Kwong;K.F.Man;K.S.Tang
  4. IEEE Transactions on Speech and Audio Processing v.1 no.1 Estimating hidden markov model parameters so as to maximize speech recognition accuracy L.R.Bahl;P.F.Brown;P.V. de Souza;R.L.Mercer
  5. IEEE Transactions on Signal Processing v.40 no.12 Discriminative learning for minimum error classification B.H.Juang;S.Katagiri
  6. IEEE ICASSP-93 Minimum error rate training based on N-best string models W.Chou;C.H.Lee;B.H.Juang
  7. IEEE Transactions on Speech and Audio Processing v.5 no.3 Minimum classification error rate methods for speech recognition B.H.Juang;W.Chou;C.H.Lee
  8. Proceedings of the IEEE v.88 no.8 Discriminant-function-based minimum recognition error rate pattern-recognition approach to speech recognition W.Chou
  9. Speech Communication v.30 An improved approach to robust speech recognition using minimum error classification M.T.Lin;A.Spanias;P.Loizou
  10. Speech Communication v.19 Performance of HMM-based speech recognizers with discriminative state-weights O.W.Kwon;C.K.Un
  11. IEEE Transactions on Speech and Audio Processing v.10 no.4 Improved generalization of MCE parameter estimation with application to speech recognition D.W.Purnell;E.C.Botha