고속 발화음에 대한 음성 인식 향상

Improvements on Speech Recognition for Fast Speech

  • 이기승 (건국대학교 정보통신대학 전자공학부)
  • 발행 : 2006.02.01

초록

본 논문에서는 대화체 음성에 대한 음성 인식의 성능을 향상시키기 위한 방법으로, 고속 발화음에 대해 강인한 음성 인식 방법을 제안하고 성능을 평가하였다. 제안된 기법은 입력된 음성의 속도를 정량화하여 나타내기 위한 부가적인 음성 인식 과정이 필요치 않으며, 특정 대역내의 에너지 분포를 이용하여 모음 구간을 판정하고, 단위 시간당 모음의 개수를 구하여 음성의 속도를 측정하였다. 빠른 발성음에 대한 음성 인식의 성능을 향상시키기 위해, 기존의 방법은 표준 음소 길이와 측정된 음소 길이간의 비율을 이용하여 특징 벡터를 시간축으로 확장하였다. 제안된 방법에서는 발성 속도에 따라 음성을 분류하고, 분류된 음성에 대해 서로 다른 시간축 확장 비율을 정하도록 하였다. 여기서 분류에 필요한 문턱치들과 시간축 확장 비율들은 최대 우도 방법을 이용하여 구하였다. 10자리 이동 전화 번호에 대한 음성 인식의 실험 결과, 제안된 기법에 의해 전체적으로 $17.8\%$ 오류율이 감소되는 것을 확인할 수 있었다.

In this Paper. a method for improving the performance of automatic speech recognition (ASR) system for conversational speech is proposed. which mainly focuses on increasing the robustness against the rapidly speaking utterances. The proposed method doesn't require an additional speech recognition task to represent speaking rate quantitatively. Energy distribution for special bands is employed to detect the vowel regions, the number of vowels Per unit second is then computed as speaking rate. To improve the Performance for fast speech. in the pervious methods. a sequence of the feature vectors is expanded by a given scaling factor, which is computed by a ratio between the standard phoneme duration and the measured one. However, in the method proposed herein. utterances are classified by their speaking rates. and the scaling factor is determined individually for each class. In this procedure, a maximum likelihood criterion is employed. By the results from the ASR experiments devised for the 10-digits mobile phone number. it is confirmed that the overall error rate was reduced by $17.8\%$ when the proposed method is employed

키워드

참고문헌

  1. L. R. Rabiner, 'A tutorial on hidden Markov models and selected applications in speech recognition,' Proceedings of the IEEE. 77. Issue 2, 257-286. 1989
  2. N. Mirghafori, E. Fosler and N. Morgan 'Fast speakers in large vocabulary continuous speech recognition: analysis & antidotes,' The proceedings of EUROSPEECH95, 491-494, Madrid, Spain, September 1995
  3. N. Mirghafori, E. Fosler and N. Morgan. 'Towards robustness to fast speech in ASR,' The proceedings of ICASSP96, 335-338, Atlanta, USA, 1996
  4. M.J. Russell, K. M. Ponting and M.J. TomIinson, 'Measure of local speaking-rate for automatic speech recognition,' lEE Electronics Letters, 35 (10), 787-789, 1999 https://doi.org/10.1049/el:19990584
  5. M.H. Nguyen and G. W. Cottrell, 'A technique for adapting to speech rate,' The proceedings of the 1993 IEEE-SP workshop, 6-9, 382-391, September 1993
  6. R. Fallthauser, T. Pfau and G. Ruske, 'On-line speaking rate estimation using Gaussian mixture models,' The proceedings of ICASSP2000, 1355-1358, 2000
  7. J. Zheng, H. Franco and A. Stolcke, 'Modeling word-level rat e-of-speech variation in large vocabulary conversational speech recognition,' Speech Communication, 41, 273-285, 2003 https://doi.org/10.1016/S0167-6393(02)00122-X
  8. 이기승, '시간축 변환을 이용한 음성 인식기의 성능 향상에 관한 연구,' 한국음향학회지. 23 (6), 462-472, 2004 년 8월
  9. M. Richardson, M. Hwang, A. Acero and X. Huang. 'Improvements on speech recognition for fast talkers, ' The proceedings of EUROSPEECH1999. 411-414. 1999
  10. L. Deng, D. Yu, and A. Acero. 'A quantitative model for formant dynamics and contextually assimilated reduction in fluent speech,' The Proceedings of the ICSLP, Oct.4-8, 2004, Jeju Island, Korea, No. WeA501 20, 501-504
  11. T. Pfau and G. Ruske, 'Estimating the speaking rate by vowel detection,' The Proceedings of the ICASSP 98, 945-948. 1998