DOI QR코드

DOI QR Code

Emotion Robust Speech Recognition using Speech Transformation

음성 변환을 사용한 감정 변화에 강인한 음성 인식

  • 김원구 (군산대학교 전기공학과)
  • Received : 2010.08.09
  • Accepted : 2010.09.21
  • Published : 2010.10.25

Abstract

This paper studied some methods which use frequency warping method that is the one of the speech transformation method to develope the robust speech recognition system for the emotional variation. For this purpose, the effect of emotional variations on the speech signal were studied using speech database containing various emotions and it is observed that speech spectrum is affected by the emotional variation and this effect is one of the reasons that makes the performance of the speech recognition system worse. In this paper, new training method that uses frequency warping in training process is presented to reduce the effect of emotional variation and the speech recognition system based on vocal tract length normalization method is developed to be compared with proposed system. Experimental results from the isolated word recognition using HMM showed that new training method reduced the error rate of the conventional recognition system using speech signal containing various emotions.

본 논문에서는 인간의 감정 변화에 강인한 음성 인식 시스템을 구현하기 위하여 음성 변환 방법 중의 한가지인 주파수 와핑 방법을 사용한 연구를 수행하였다. 이러한 목표를 위하여 다양한 감정이 포함된 음성 데이터베이스를 사용하여 감정의 변화에 따라 음성의 스펙트럼이 변화한다는 것과 이러한 변화는 음성 인식 시스템의 성능을 저하시키는 원인 중의 하나임을 관찰하였다. 본 논문에서는 이러한 음성의 변화를 감소시키는 방법으로 주파수 와핑을 학습 과정에 사용하는 방법을 제안하여 감정 변화에 강인한 음성 인식 시스템을 구현하였고 성도 길이 정규화 방법을 사용한 방법과 성능을 비교하였다. HMM을 사용한 단독음 인식 실험에서 제안된 학습 방법은 사용하면 감정이 포함된 데이터에 대한 인식 오차가 기존 방법보다 감소되었다.

Keywords

References

  1. J. C. Junqua, and J. P. Haton, Robustness in Automatic Speech Recognition - Fundamental and Applications, Kluwer Academic Publishers, 1996.
  2. A. Acero and R. M. Stern, "Environmental robustness in automatic speech recognition," Proc. of ICASSP, pp. 849-852, April 1990.
  3. H. Hermansky, N. Morgan, H. G. Hirsch, "Recognition of speech in additive and convolutional noise based RASTA spectral processing", Proc. of ICASSP, pp. 83-86, 1993.
  4. J. Koehler, N. Morgan, H. Hermansky, H. G. Hirsch, G. Tong, "Integrating RASTA-PLP into Speech Recognition", Proc. of ICASSP, pp. 421-424, 1994.
  5. M. G. Rahim, B. H. Juang, "Signal bias removal by maximum likelihood estimation for robust telephone speech recognition", IEEE Trans. Speech & Audio Processing, vol. 4, No. 1, pp. 19-30, 1996. https://doi.org/10.1109/TSA.1996.481449
  6. N. Amir, "Classifying emotions in speech: a comparison of methods", Proc. of Eurospeech '2001, Vol. 1, pp. 127-130, Aalborg, Denmark, 2001
  7. A. Nogueiras, etc, "Speech emotion recognition using Hidden Markov Models", Proc. of Eurospeech '2001, Vol. 4, pp. 2679-2682, Aalborg, Denmark, 2001
  8. R. W. Picard, Affective Computing, The MIT Press 1997.
  9. I. R. Murray and J. L. Arnott, "Toward the simulation of emotion in synthetic speech: a review of the literature on human vocal emotion", Journal of Acoustical Society of America, pp. 1097-1108, Feb. 1993.
  10. 김원구, 방현진, “성도 정규화를 이용한 감정 변화에 강인한 음성 인식”, 한국 지능시스템학회 논문지, 19권 6호, pp. 773-338, 2009
  11. M. Pitz, H. Ney, "Vocal tract normalization equals linear transformation in cepstral space", IEEE Trans. Speech & Audio Processing, vol. 13, No. 5, pp. 930-944, 2005. https://doi.org/10.1109/TSA.2005.848881
  12. S. Wegmann, D. McAllaster, J. Orlofl and B. Peskin, "Speaker Normalization on Conversational Telephone Speech, Proc. of ICASSP, Atlanta, GA, pp. 339-342, May 1996.
  13. L. Welling, R. Haeb-Umbach, X. Aubert and N. Haberland, "A study on speaker Normalization using vocal tract normalization and speaker adaptive training", Proc. of ICASSP, Seattle, WA, pp. 797-800, May 1998
  14. A. Acero and R. M. Stern, "Robust speech recognition by normalization of the acoustic space", Proc. of ICASSP, Toronto, pp. 893-896, May 1991.
  15. E. Eide and H. Gish, "A parametric approach to vocal tract length normalization", Proc. of ICASSP, Atlanta, GA, pp.346-349, May 1996.
  16. Sirko Molau, Stephan Kanthak , Hermann Ney, "Efficient Vocal Tract Normalization in Automatic Speech Recognition", Proc. of the ESSV'00, Cottbus, Germany, pp. 209-216, 2000
  17. 강봉석, “음성 신호를 이용한 문장독립 감정 인식시스템”, 연세대학교 석사학위 논문, 2000.

Cited by

  1. A Nonuniform Sampling Technique and Its Application to Speech Coding vol.24, pp.1, 2014, https://doi.org/10.5391/JKIIS.2014.24.1.028