Rapid Speaker Adaptation Based on Eigenvoice Using Weight Distribution Characteristics

가중치 분포 특성을 이용한 Eigenvoice 기반 고속화자적응

  • Published : 2003.07.01

Abstract

Recently, eigenvoice approach has been widely used for rapid speaker adaptation. However, even in the eigenvoice approach, Performance improvement using very small amount of adaptation data is relatively small in comparison with that using somewhat large adaptation data because the reliable estimation of weights of eigenvoice is difficult. In this paper, we propose a rapid speaker adaptation method based on eigenvoice using the weight distribution characteristics to improve the performance on a small adaptation data. In the Experimental results on vocabulary-independent word recognition task (using PBW 452 database), the weight threshold method alleviates the problem of relatively low performance for a tiny small adaptation data. When single adaptation word is used, word error rate is reduced about 9-18% by the weight threshold method.

최근 고속화자적응 기법으로 eigenvoice 방식이 많이 사용되고 있다. Eigenvoice 적응방식에서도 적응화자의 적응 데이터가 매우 적은 경우에는 적절한 가중치의 추정이 어렵기 때문에 적응 데이터가 어느 정도 많은 경우에 비해 인식성능 향상이 크지 않다. 본 논문에서는 적응 데이터가 적을 때의 성능향상을 위하여 eigenvoice의 가중치 분포 특성을 이용한 eigenvoice 기반 고속화자적응을 제안한다. PBW 452 데이터베이스를 사용한 어휘독립 단어인식 실험 결과에서 가중치 문턱치(threshold) 적용 방식을 사용하여 적응 데이터가 매우 적은 경우의 상대적인 성능 저조 문제를 완화시켰다. 적응단어를 단 1개만 사용한 경우 가중치 문턱치 적용 방식을 사용하여 단어 오인식률을 9-18% 정도 감소시켰다.

Keywords

References

  1. IEEE Trans. Signal Processing v.39 no.4 A study on speaker adaptation of the parameters of continuous density hidden Markov models C.H.Lee;C.H.Lin;B.H.Juang
  2. Computer Speech and Language v.9 no.1 Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models C.J.Leggetter;P.C.Woodland
  3. Proc. ICSLP v.5 Eigenvoices for speaker adaptation R.Kuhn;P.Nguyen;J.C.Jungua;L.Goldwasser;N.Niedzielski;S.Finche;K.Field;M.Contolini
  4. Proc. ICASSP v.1 Implementation of the POW(Phonetically Optimized Words) algorithm for speech database Y.Lim;Y.Lee
  5. 제13회 음성통신 및 신호처리 워크샵 논문집 공동이용을 위한 단어음성 DB의 구축 및 PBS 설계에 관한 검토 김봉완;김종진;김선태;김태환;김영일;이용주
  6. 한국음향학회지 v.22 no.1 차원별 Elgenvoice와 화자적응 모드 선택에 기반안 고속화자적응 성능 향상 송화전;이윤근;김형순