The bootstrap VQ model for automatic speaker recognition system

VQ 방식의 화자인식 시스템 성능 향상을 위한 부쓰트랩 방식 적용

  • 경연정 (SK Telecom 중앙연구원) ;
  • 이진익 (SK Telecom 중앙연구원) ;
  • 이황수 (SK Telecom 중앙연구원, KAIST 전자전산학과 전기 및 전자 전공)
  • Published : 2000.07.07

Abstract

A bootstrap and aggregating (bagging) vector quantization (VQ) classifier is proposed for speaker recognition. This method obtains multiple training data sets by resampling the original training data set, and then integrates the corresponding multiple classifiers into a single classifier. Experiments involving a closed set, text-independent and speaker identification system are carried out using the TIMIT database. The proposed bagging VQ classifier shows considerably improved performance over the conventional VQ classifier.

VQ 모델로 구성된 화자인식 시스템의 성능 향상을 위해 Bootstrap 방식을 적용하였다. Bootstrap 및 aggregating방식은 unstable한 모델에서 그 성능이 유효하므로 이의 적용을 위해 먼저 VQ 모델의 bias와 variance를 계산하여 unstable함을 보였다. 화자인식 실험은 TIMIT Database를 사용하여 수행하였고 실험결과 높은 인식율 향상을 확인하였다. 또한 적은 훈련 데이터 환경에서도 좋은 인식율을 갖는 것으로 나타났다.

Keywords