DOI QR코드

DOI QR Code

화자 검증 시스템을 위한 PCA 기반 MFDWC 특징 파라미터

A PCA-based MFDWC Feature Parameter for Speaker Verification System

  • 함성준 (영남대학교 정보통신공학과) ;
  • 정호열 (영남대학교 정보통신공학과) ;
  • 정현열 (영남대학교 정보통신공학과)
  • 발행 : 2006.01.01

초록

본 논문에서는 화자검증 시스템의 성능향상을 위해서 주성분 분석 (PCA) 기반 Mel-Frequency Discrete Wavelet Coefficients (MFDWC) 추출방법을 제안한다. 제안된 방법에서는 멜척도 (Mel-scale)를 근사화한 각 레벨 (level)의 각 노드 (node) 에너지를 계산하기 위해 기존의 평균치 대신 주성분 분석을 이용한 첫 번째 eigenvector를 이용한다. 이 eigenvecto.의 제곱의 합은 1로서 일반적인 가중 함수 (weighting function)의 조건을 만족하고, 또한 각 화자마다 서로 다른 값을 갖게 되므로, 화자의 특징을 더 잘 나타내는 MFDWC를 추출할 수 있다. 화자검증은 Gaussian Mixture Model (GMM) 기반의 백그라운드 모델과 화자 모델과의 점수를 비교하는 이진 결정 (binary decision) 방법을 이용하여 Universal 백그라운드 모델 (UBM)과 각 화자 모델의 값을 프레임단위로 비교하여 대상 화자의 수락/거부 여부를 결정하는 방법을 채택하였다. 특징 파라미터에 따른 화자 검증 성능변화를 확인하기 위하여 제안된 화자종속 가중함수를 이용한 MFDWC를 특징 파라미터로 이용한 경우와 Mel-Frequency Cepstral Coefficients (MFCC), Linear Predictive Cepstral Coefficients (LPCC), 기존의 MFDWC를 특징 파라미터로 이용한 경우에 대하여 성능비교실험을 수행한 결과 각각 $0.80\%,\;5.14\%,\; 6.69\%$의 향상된 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다.

A Principal component analysis (PCA)-based Mel-Frequency Discrete Wavelet Coefficients (MFDWC) feature Parameters for speaker verification system is Presented in this Paper In this method, we used the 1st-eigenvector obtained from PCA to calculate the energy of each node of level that was approximated by. met-scale. This eigenvector satisfies the constraint of general weighting function that the squared sum of each component of weighting function is unity and is considered to represent speaker's characteristic closely because the 1st-eigenvector of each speaker is fairly different from the others. For verification. we used Universal Background Model (UBM) approach that compares claimed speaker s model with UBM on frame-level. We performed experiments to test the effectiveness of PCA-based parameter and found that our Proposed Parameters could obtain improved average Performance of $0.80\%$compared to MFCC. $5.14\%$ to LPCC and 6.69 to existing MFDWC.

키워드

참고문헌

  1. Gish, H. and Schmidt, M., 'Text-lndependent Speaker recognitioin', IEEE Sig. Proc. Magazine, 18-32, 1994
  2. Gowdy. J.N. Tufekci. Z., 'Mel-Scaled discrete Wavelet Coefficients for Speech Recognition,' ICASSP. 3. 1351-1354, 2000
  3. Bourlard, H. and Dupont, S., 'A New ASR Approach Based on Independent Processing and Recombination of Partial Frequency Bands', ICSLP, 1996
  4. Farooq, O. and Datta, S., 'Mel Filter-Like Admissible Wavelet Packet Structure for Speech Recognition', IEEE Signal Processing Letters, 8 (7), 196-198. 2001 https://doi.org/10.1109/97.928676
  5. Goswami. J. & all., 'Fundamental of Wavelets'. Wiley, 1999
  6. 함성준, 박하중, 김민정, 김주곤, 정호열, 정현열, 'Wavelet 변환을 이용한 GMIM 기반 문액독립 화자검증 시스템의 성능평가', 한국음향학회 학술발표대회 논문집 24 1(s), 한국음향학회, 297-300. 2005
  7. A. E. Rosenberg, J. Delong. C.-H. Lee, B.-H.Juang and F. K. Soong, 'The use of cohort normalized scores for speaker verification' in Proc. Inter. Conf. on Spoken Language Processing (ICSLP'92). 599-602. 1992
  8. A. L. Higgins, L. Bahler and J. Porter, 'Speaker Verification using Randomized Phrase Prompting', Digital Signal Processing. 1.89-106. 1991 https://doi.org/10.1016/1051-2004(91)90098-6
  9. T. Matsui and S. Furui, 'Concatenated Phoneme Models for Text Variable Speaker Heconnlton'. in Proc. IEEE Inter. Conf. on Acoustics, Speech. and Signal Procssing (ICASSP'93), 391-392, 1993
  10. S. Furui. 'An overview of speaker recognition technol-ogy.' in Acoustic speech and speaker recognition(C.-H Lee. F. K. Soong, and K. K. Paliwal, eds.), Ch. 2, 31-56, Kluwer Acad. Pub., 1996
  11. D. A. Reynolds. 'Comparison of Background Normalization Methods for Text-Independent Speaker Verification,' in Proc. Eurospeech97. 963-967. 1997
  12. Jolliffe. l.T. Principal Component Analvsis, (Springer Verlag). 1986
  13. G. Strang. T. Nguyen, Wavelets and Filter Banks. (Wellesley-Cambridge Press, 1997)
  14. S. B. Davis, P. Mermelstein. 'Comparison of Parametric Representations of Monosyllabic Word Recognition in Continuously Spoken Sentences,' IEEE Trans. Acoustics, Speech, and Signal Processing, 28, 357-366. 1980 https://doi.org/10.1109/TASSP.1980.1163420
  15. Dat Tran. Michael Wagner. 'A Proposed Likelihood Transformation for Speaker Verification'. in proc. IEEE International Conference on. 2, 1069-1072, 2000
  16. C. Tadj, A. Benlahouar, 'Speaker Characterization Using Principal Component Analysis and Wavelet Transform for Speaker Verification', in Proceedings of Eurospeech, 2981-2984. 2003