A Comparative Study of Speaker Adaptation Methods for HMM-Based Speech Recognition

HMM 음성인식 시스템을 위한 화자적응 방법들의 성능비교

  • Koo, Myoung-Wan (Center for Speech Information Research Korea Advanced Institute of Science and Technology) ;
  • Un, Chong-Kwan (Center for Speech Information Research Korea Advanced Institute of Science and Technology) ;
  • Lee, Hwang-Soo (Center for Speech Information Research Korea Advanced Institute of Science and Technology)
  • Published : 1991.06.01

Abstract

In this paper, we compare the performances of speaker adaptation which consist of two stages of processing for an HMM-based speech recognition system. We compare three kinds of VQ adaptation methods which may be used in the first stage to reduce the distortion error for a new speaker : label prototype adaptation, adaptation with a codebook from adaptation speech itself, and adaptation with a mapped codebook. We then compare the performance of four kinds of HMM parameter adaptation methods which may be used in the second stage to transform HMM parameters for a new speaker : adaptation by the Viterbi algorithm, that by the DTW algorithm, that by the iterative alignment algorithm. The results show that adaptation based on the fuzzy histogram algorithm yields the highest accuracy in an HMM-based speech recognition system.

본 논문에서는 HMM을 이용한 음성인식 시스템에서 2단계로 이루어지는 화자적응 알고리즘의 성능비교를 수행하였다. 첫단계는 새로운 화자와의 거리차이를 줄여주는 VQ 적응방식들로 구성되는 이 방식들 중에서 lable prototype 적응, 적응음성으로부터 구성된 VQ코우드 북을 사용한 적응 및 사상 코우드 북을 사용한 적응등의 알고리즘 성능비교를 하였다. 두 번째 단계는 새로운 화자를 위해서 HMM 파라미터를 변환시켜주는 HMM 피라미터 적응방식들로 이루어지는데 이 방법들 중에서 Viterbi 알고리즘, DTW 알고리즘, iterative alignment 알고리즘 및 fuzzy histogram 알고리즘의 성능을 비교하였다. 성능비교 결과 fuzzy histogram 알고림즘에 의한 화자적응 방식이 최고의 인식율을 나타내었다.

Keywords