Realization a Text Independent Speaker Identification System with Frame Level Likelihood Normalization

프레임레벨유사도정규화를 적용한 문맥독립화자식별시스템의 구현

  • 김민정 (영남대학교 정보통신공학과) ;
  • 석수영 (영남대학교 정보통신공학과) ;
  • 김광수 (영남대학교 정보통신공학과) ;
  • 정현열 (영남대학교 정보통신공학과)
  • Published : 2002.01.01

Abstract

In this paper, we realized a real-time text-independent speaker recognition system using gaussian mixture model, and applied frame level likelihood normalization method which shows its effects in verification system. The system has three parts as front-end, training, recognition. In front-end part, cepstral mean normalization and silence removal method were applied to consider speaker's speaking variations. In training, gaussian mixture model was used for speaker's acoustic feature modeling, and maximum likelihood estimation was used for GMM parameter optimization. In recognition, likelihood score was calculated with speaker models and test data at frame level. As test sentences, we used text-independent sentences. ETRI 445 and KLE 452 database were used for training and test, and cepstrum coefficient and regressive coefficient were used as feature parameters. The experiment results show that the frame-level likelihood method's recognition result is higher than conventional method's, independently the number of registered speakers.

본 논문에서는 Gaussian mixture model을 이용한 실시간 문맥독립화자식별시스템을 구현하여 인식실험을 수행하였으며, 인식시스템의 성능을 향상시키기 위하여 화자검증시스템에서 좋은 결과를 보인 유사도 정규화(Likelihood normalization)방법을 적용하여 인식실험을 하였다. 시스템은 크게 전처리단과 화자모델생성단, 화자식별단으로 나누어진다. 전처리단에서는 화자의 발성변화를 고려하여 CMN(Cepstral mean normalization)과 Silence removal 방법을 적용하였다. 화자모델생성단에서는, 화자발성의 음향학적 특징을 잘 표현할 수 있는 GMM(Gaussian mixture model)을 이용하여 화자모델을 작성하였으며, GMM의 파라미터를 최적화하기 위하여 MLE(Maximum likelihood estimation)방법을 사용하였다. 화자식별단에서는 학습된 데이터와 테스트용 데이터로부터 ML(Maximum likelihood)을 이용하여 유사도를 계산하였으며, 이 과정에서 유사도 정규화를 적용한 경우에는 프레임단위로 유사도를 계산하게 된다. 계산된 유사도는 스코어(S$_{C}$)로 표현하였고, 가장 높은 스코어를 가지는 화자가 인식화자로 결정된다. 화자인식에서 발성의 종류로는 문맥독립 문장을 사용하였다. 인식실험을 위해서는 ETRI445 DB와 KLE452 DB를 사용하였으며, 특징파라미터로서는 켑스트럼계수 및 회귀계수값만을 사용하였다. 인식실험에서는 등록화자의 수를 달리하여 일반적인 화자식별방법과 프레임단위유사도정규화방법으로 각각 인식실험을 하였다. 인식실험결과, 프레임단위유사도정규화방법이 인식화자수가 많아지는 경우에 일반적인 방법보다 향상된 인식률을 얻을 수 있었다.

Keywords

References

  1. Trans. IECE v.55-A no.1 Talker rocognition by longtime averaged speech spectrum S. Furui, F. Itakura,;S. Saito
  2. Computer Speech and Language v.2 Evaluation ofa vector quantization talker recognition system in text independent and text dependent models A. E. Rosenberg;F. K. Soong
  3. IEEE Trans. on SAP v.3 no.1 Robust text-independentspeaker identification using Gaussian mixture speaker models D. A. Reynolds;R. C. Rose
  4. Kluwer Acad. Pub. An overiew of speaker recognition technology S. Furui, C. H. Lee, F. K. Soong,;K. K. Paliwal(eds)
  5. Speech Communication v.17 no.1-2 Speaker identification and verification using Gaussian mixture speaker models D. A. Reynolds
  6. Proc. ICSLP Cepstral channel normalization techniques for Hmm-based speaker verification A. Rosenberg, C. LEe,;F.Soong
  7. Speech Communication v.5 no.2 Vowel normalization by frequency warped spectral matching H. Matsumoto;H. Wakita
  8. Introduction to Statistical Pattern Recognition K. Fukunaga
  9. IEEE Signal Prcessing Magazine Text-independent speaker identification H. Gish;M. Schmidt
  10. proc. ICSLP. The use of cohort normalized scores for speaker verification A. Rosenberg, J. DeLong, C.Lee, B.Jung;F. Soong
  11. Speech Communication v.17 Likelihood normalization for speaker verification using a phonme- and speaker-independent model T. Matsui;S. Furui
  12. Introduction to statistical pattern recognition K. Fukunaga