최적경로와 가중직교인자를 이용한 화자인식

Speaker Recognition Using Optimal Path and Weighted Orthogonal Parameters

  • 발행 : 2003.12.01

초록

최근 많은 연구자들이 KLT를 이용한 통계적 처리방법으로 화자인식을 수행하고 있으나, 통계적 처리방법의 개인성 포함정도와 음성의 동적인 발성속도는 화자인식률의 저하요인이 되고 있다. 본 연구에서는 각 화자의 직교인자에 개인성을 강조하기 위하여 화자의 고유치를 가중치로 한 가중직교 인자와 음성의 동적인 시간 특성을 정규화 하는 DTW의 최적경로를 이용한 화자인식방법을 연구하였다. 이 방법을 확인하기 위하여 종래의 통계적 처리에 의한 화자인식, 최적경로와 가중직교인자를 이용한 화자인식의 결과를 비교한 결과, 종래의 방법보다 우수한 화자인식률을 얻어 그 유효성을 확인하였다.

Recently, many researchers have studied the speaker recognition through the statistical processing method using Karhonen-Loeve Transform. However, the content of speaker's identity and the vocalization speed cause speaker recognition rate to be lowered. This parer studies the speaker recognition method using weighted parameters which are weighted with eigen-values of speech so as to emphasize the speaker's identity and optimal path which is made by DWP so as to normalize dynamic time feature of speech. To confirm this method, we compare the speaker recognition rate from this proposed method with that from the conventional statistical processing method. As a result, it is shown that this method is more excellent in speaker recognition rate than conventional method.

키워드

참고문헌

  1. S. Pruzansky, 'Pattern-Matching Procedure for Automatic Talker Recognition,' J.Acoust. Soc Am., Vol.35 No.3, 1963
  2. M.R.Sambur, 'Speaker Recognition Using Othogonal Linear Prediction,' IEEE. ASSP24, No.4, 1976
  3. J.D.Markel, et al., 'Long Term Feature Averaging for Speaker Recognition', IEEE. ASSP-25, No.4, 1977
  4. J.P.GampbeIl, Jr., 'Speaker Recognition : a Tutorial', Proceedings of the IEEE, Vol.85, pp.1436-1462, 1997 https://doi.org/10.1109/JPROC.1997.628713
  5. Francis Phan, M. T. Evangelia, and Smuel Sideman, 'Speaker Identification Using Neural Networks and Wavelets', IEEE Engineering in Medicine and Biology, Vol. pp.92-101, 2000
  6. C.W.Woo, C.P.Lim, and R. Osman, 'Development of a Speaker Recognition System using Wavelets and Atrficial Neural Networks', IEEE Proceeding on Intelligent Multimedia, Video and Speech Processing, Vol., pp413-416, 2001
  7. S. George, A. Dibazar, J, S. Liaw, and T.W. Berger, 'Speaker Recognition using Dynamic Synapse Based Neural Networks with Wavelets Proceeding on Intelligent Multimedia, Video and Speech Processing, Vol., pp413-416, 2001