Performance Enhancement for Speaker Verification Using Incremental Robust Adaptation in GMM

가무시안 혼합모델에서 점진적 강인적응을 통한 화자확인 성능개선

  • 김은영 (숭실대학교 글로벌 미디어학부) ;
  • 서창우 (숭실대학교 글로벌 미디어학부) ;
  • 임영환 (숭실대학교 글로벌 미디어학부) ;
  • 전성채 (한국전기연구원)
  • Published : 2009.04.30

Abstract

In this paper, we propose a Gaussian Mixture Model (GMM) based incremental robust adaptation with a forgetting factor for the speaker verification. Speaker recognition system uses a speaker model adaptation method with small amounts of data in order to obtain a good performance. However, a conventional adaptation method has vulnerable to the outlier from the irregular utterance variations and the presence noise, which results in inaccurate speaker model. As time goes by, a rate in which new data are adapted to a model is reduced. The proposed algorithm uses an incremental robust adaptation in order to reduce effect of outlier and use forgetting factor in order to maintain adaptive rate of new data on GMM based speaker model. The incremental robust adaptation uses a method which registers small amount of data in a speaker recognition model and adapts a model to new data to be tested. Experimental results from the data set gathered over seven months show that the proposed algorithm is robust against outliers and maintains adaptive rate of new data.

본 논문에서는 화자확인을 위해서 가우시안혼합모델에 forgetting factor를 갖는 점진적 강인적응 방법을 제안하였다. 화자인식 시스템에서 적은 양의 데이터로 좋은 성능을 얻기 위하여 화자모델 적응방법이 사용되고 있다. 그러나, 현재 사용되고 있는 적응방법은 불규칙한 발성변화와 잡음 같은 이씨에 취약하고, 그것은 부정확한 화자모델을 만들 수 있다. 또한 시간이 지날수록 모델에 새로운 데이터가 적응되는 비율이 줄어들게 되는 문제점이 있다. 제안된 알고리즘은 가우시안혼합모델을 이용한 화자모델에서 이상치에 의한 왜곡과 새로운 데이터에 대한 적응 비율을 일정이상으로 유지할 수 있도록 하기 위하여 점진적 강인적응 방법을 제안하였다. 점진적 강인적응은 화자인식에서 적은 양의 데이터로 등록하고 테스트된 새로운 데이터로 모델을 적응시키는 방법이다. 실험결과는 7개월에 걸쳐서 수집된 데이터로부터 제안된 방법이 이상치에 강인하고 새로운 데이터의 적응 비율을 일정하게 유지시킴을 보였다.

Keywords

References

  1. S. Furui, "Cepstral analysis technique for automatic speaker verification," IEEE Trans. ASSP-29, vol 2, no. 2, pp. 254-272, 1981 https://doi.org/10.1109/TASSP.1981.1163530
  2. D. A. Reynolds, and R. C. Rose, "Robust text-independent speaker identification using Gaussian rnxture speaker modols," IEEE Trans. Speech Audio Process., vol 3, no. 1, pp. 72-83, 1995 https://doi.org/10.1109/89.365379
  3. J. L. Gauvain, and C. H. Lee, "Maximum a posteriori esti-mation for multivariate Gaussian mixture observations of Markov chains," IEEE Trans. Speech Audio Process., vol. 2, no, 2, pp. 291-298, Mar. 1994 https://doi.org/10.1109/89.279278
  4. S. Ahn, and H. Ko, "Speaker adaptation in sparse training data for improved speaker verification," Electronics Letters, vol. 36, no. 4, pp. 371-373, 2000 https://doi.org/10.1049/el:20000330
  5. J. McDonough, M. Wolfel, and E. Stoimenov, “Comparison of techniques for combining speaker adaptation with discrimi-native training,” in Proc, ICASSP, Honolulu, Hawaii, USA, 2007
  6. C. Fredouille, and J. Mariethoz, "Behavior of a Bayesian adaptation method for incremental enrollment in speaker verification," in Proc. ICASSP, no. 2, pp. 1197-1200, 2000 https://doi.org/10.1109/ICASSP.2000.859180
  7. T. Yang, J. Lee, K.Y. Lee, and K. Sung, “On robust Kalman filtering with forgetting factor for sequential speech analysis,” Signal Processing, vol. 63, pp. 151-156, 1997 https://doi.org/10.1016/S0165-1684(97)00150-3
  8. Y. Lee, J. Lee, and K.Y. Lee, "Efficient Speaker Identifi-cation Based on Robust VQ-PCA," LNCS 2668, vol. 63, pp. 631-638, 1997
  9. P. J. Huber, Robust Statistics, New York: Wiley, 1981