음성 신호를 사용한 감정인식의 특징 파라메터 비교

Comparison of feature parameters for emotion recognition using speech signal

  • 김원구 (군산대학교 전자정보공학부)
  • 발행 : 2003.09.01

초록

본 논문에서 음성신호를 사용하여 인간의 감정를 인식하기 위한 특징 파라메터 비교에 관하여 연구하였다. 이를 위하여 여러 가지 감정 상태에 따라 분류된 한국어 음성 데이터 베이스를 이용하여 얻어진 음성 신호의 피치와 에너지의 평균, 표준편차와 최대 값 등 통계적인 정보 나타내는 파라메터와 음소의 특성을 나타내는 MFCC 파라메터가 사용되었다. 파라메터들의 성능을 평가하기 위하여 문장 및 화자 독립 감정 인식 시스템을 구현하여 인식 실험을 수행하였다. 성능 평가를 위한 실험에서는 운율적 특징으로 피치와 에너지와 각각의 미분 값을 사용하였고, 음소의 특성을 나타내는 특징으로 MFCC와 그 미분 값을 사용하였다. 벡터 양자화 방법을 사용한 화자 및 문장 독립 인식 시스템을 사용한 실험 결과에서 MFCC와 델타 MFCC를 사용한 경우가 피치와 에너지를 사용한 방법보다 우수한 성능을 나타내었다.

In this paper, comparison of feature parameters for emotion recognition using speech signal is studied. For this purpose, a corpus of emotional speech data recorded and classified according to the emotion using the subjective evaluation were used to make statical feature vectors such as average, standard deviation and maximum value of pitch and energy and phonetic feature such as MFCC parameters. In order to evaluate the performance of feature parameters speaker and context independent emotion recognition system was constructed to make experiment. In the experiments, pitch, energy parameters and their derivatives were used as a prosodic information and MFCC parameters and its derivative were used as phonetic information. Experimental results using vector quantization based emotion recognition system showed that recognition system using MFCC parameter and its derivative showed better performance than that using the pitch and energy parameters.

키워드

참고문헌

  1. Rosalind W. Picard, Affective Computing, The MIT Press 1997
  2. C. E. Williams and K. N. Stevens, 'Emotions and speech: Some acoustical correlates', Journal Acoustical Society of America, Vol. 52, No. 4, pp. 1238-1250, 1972 https://doi.org/10.1121/1.1913238
  3. Lain R. Murray and John L. Arnott, 'Toward the simulation of emotion in synthetic speech: A review of the literature on human vocal emotion', Published in J. Accoust. Soc. Am., pp. 1097-1108, Feb. 1993 https://doi.org/10.1121/1.405558
  4. Janet E. Cahn, 'The generation of affect in synthesized speech', Journal of the American Voice I/O Society, Vol. 8, pp. 1-19, July 1990
  5. Frank Dellaert, Thomas Polzin, Alex Waibel, 'Recognizing emotion in speech', Proceedings of the ICSLP 96, Piladelphia, USA, Oct. 1996 https://doi.org/10.1109/ICSLP.1996.608022
  6. Thomas S. Huang, Lawrence S. Chen and Hai Tao, 'Bimodal emotion recognition by man and machine', ATR Workshop on Virtual Communication Environments - Bridges over Art/Kansei and VR Technologies, Kyoto, Japan, April 1998
  7. K. R. Scherer, D. R. Ladd, and K. E. A. Silverman, 'Vocal cues to speaker affect: Testing two models', Journal Acoustical Society of America, Vol. 76, No. 5, pp. 1346-1355, Nov. 1984 https://doi.org/10.1121/1.391450
  8. Michael Lewis and Jeannette M. Haviland, Handbook of Emotions, The Guilford Press, 1993
  9. D. Roy and A. Pentland, 'Automatic spoken affect analysis and classification', in Proceedings of the Second International Conference on Automatic Face and Gesture Recognition, pp. 363-367, Killington, VT, Oct. 1996 https://doi.org/10.1109/AFGR.1996.557292
  10. Jun Sato, and Shigeo Morishima, 'Emotion Modeling in Speech Production using Emotion Space', Proceedings of the IEEE International Workshop 1996, pp. 472-477, IEEE, Piscataway, NJ, USA, 1996 https://doi.org/10.1109/ROMAN.1996.568883
  11. 강봉석, 음성 신호를 이용한 감정 인식, 석사학위논문, 연세대학교, 1999년 12월
  12. L. R. Rabiner and B. H. Juang, Fundamentals of speech recognition, Prentice-Hall Inc., 1993
  13. R.O. Duda, and P.E. Hart, Pattern classification and scene anlaysis, John Wiley & Sons Inc., 1973
  14. Earl Gose, Richard Johnsonbaugh, and Steve Jost, Pattern Recognition and Image Analysis, Prentice Hall Inc., 1996