DOI QR코드

DOI QR Code

A Semi-Noniterative VQ Design Algorithm for Text Dependent Speaker Recognition

문맥종속 화자인식을 위한 준비반복 벡터 양자기 설계 알고리즘

  • Published : 2003.02.01

Abstract

In this paper, we study the enhancement of VQ (Vector Quantization) design for text dependent speaker recognition. In a concrete way, we present the non-Iterative method which makes a vector quantization codebook and this method Is nut Iterative learning so that the computational complexity is epochally reduced. The proposed semi-noniterative VQ design method contrasts with the existing design method which uses the iterative learning algorithm for every training speaker. The characteristics of a semi-noniterative VQ design is as follows. First, the proposed method performs the iterative learning only for the reference speaker, but the existing method performs the iterative learning for every speaker. Second, the quantization region of the non-reference speaker is equivalent for a quantization region of the reference speaker. And the quantization point of the non-reference speaker is the optimal point for the statistical distribution of the non-reference speaker In the numerical experiment, we use the 12th met-cepstrum feature vectors of 20 speakers and compare it with the existing method, changing the codebook size from 2 to 32. The recognition rate of the proposed method is 100% for suitable codebook size and adequate training data. It is equal to the recognition rate of the existing method. Therefore the proposed semi-noniterative VQ design method is, reducing computational complexity and maintaining the recognition rate, new alternative proposal.

이 논문은 문맥 종속 화자인식에 사용될 벡터 앙자기의 설계법 개선에 관한 연구이다. 구체적으로 벡터 양자기 코드북 생성 과정에서 기준 화자를 제외한 모든 비기준 화자에 대해 비반복적 학습 방법을 사용하여, 학습에 필요한 계산 복잡도를 획기적으로 줄이는 방법을 제안한다. 이 제안된 준비반복 벡터 양자기 설계법은, 종래의 설계법이 모든 화자의 코드북 생성에 반복적 학습 설계를 사용한다는 것과 대조를 이룬다. 준비반복 벡터 양자기 설계법의 특징은 다음과 같다. 첫째, 이 설계법은 단지 기준 화자에 대하여만 반복 학습을 수행하고 비기준 화자에 대하여는 반복 학습을 하지 않는다. 둘째, 설계된 비기준 화자의 양자 영역은 기준화자의 양자 영역을 원용하며, 양자점은 자신의 통계 분포에 대해 최적점으로 설정된다. 수치 실험은 화자 20명에 대하여 멜켑스트럼 12차 특징벡터를 사용하였고 코드북 크기를 2부터 32까지 변화시키면서 기존의 벡터 양자기 인식법과 비교하였다. 제안된 방법은 코드북 크기가 적절하고 학습 데이터 길이가 충분한 경우 인식률 100%로 기존의 방법과 같은 결과를 보였다. 따라서 제안된 준비반복 벡터 양자기 설계법은, 설계에 필요한 학습 횟수가 획기적으로 줄면서 인식률은 보존되어, 새로운 대안이 될 것으로 사료된다.

Keywords

References

  1. T. Kinnunen, T. Kilpelinen and P. Frnti, 'Comparison of clustering algorithms in speaker identification,' Proc, IASTED Int. Conf. Signal Processing and Communications (SPC 2000), Marbella, Spain, pp.222-227, 2000
  2. H. Gish and M. Schmidt, 'Text-independent speaker identification,' IEEE Signal Processing Mag., Vol.11, p.1832, 1994 https://doi.org/10.1109/79.317924
  3. Y. Linde, A. Buzo and Gray R. M., 'An algorithm for vector quantizer design,' IEEE Trans. On Communications, 28(1), pp.84-95, January, 1980 https://doi.org/10.1109/TCOM.1980.1094577
  4. A. K. Jain, R. P. W. Duin and J. Mao, 'Statistical pattern recognition: A review,' IEEE Trans. Pattern Anal. Machine Intell., Vol.22, p.437, Jan., 2000 https://doi.org/10.1109/34.824819
  5. D. A Reynolds, https://doi.org/10.1109/ICASSP.2002.1004813
  6. T. Kinnunen, I. Krkkinen and P. Frnti, 'Is speech data clustered? - Statistical analysis of cepstral features,' Proc. 7th European Conference on Speech Communication and Technology (Eurospeech 2001), Aalborg, Denmark, Vol.4, pp.2627-2630, 2001
  7. S. Furui, 'Cepstral analysis technique for automatic speaker verification.,' IEEE Trans. on Acoustics, Speech and Signal Processing, 29(2), pp.254-272, 1981 https://doi.org/10.1109/TASSP.1981.1163530
  8. D. A Reynolds and Robust, 'Text-independent speaker identification using gaussian mixture speaker models,' IEEE Transactions on speech and audio processing, Vol.3, No.1, January, 1995 https://doi.org/10.1109/89.365379