Recognizing Five Emotional States Using Speech Signals

음성 신호를 이용한 화자의 5가지 감성 인식

  • Kang Bong-Seok (Department of Electrical Computer Engineering, Yonsei Univ.) ;
  • Han Chul-Hee (Center for Signal Processing Research, Yonsei Univ.) ;
  • Woo Kyoung-Ho (Department of Electrical Computer Engineering, Yonsei Univ.) ;
  • Yang Tae-Young (Department of Electrical Computer Engineering, Yonsei Univ.) ;
  • Lee Chungyong (Department of Electrical Computer Engineering, Yonsei Univ.) ;
  • Youn Dae-Hee (Department of Electrical Computer Engineering, Yonsei Univ.)
  • Published : 1999.11.06

Abstract

본 논문에서는 음성 신호를 이용해서 화자의 감정을 인식하기 위해 3가지 시스템을 구축하고 이들의 성능을 비교해 보았다. 인식 대상으로 하는 감정은 기쁨, 슬픔, 화남, 두려움, 지루함, 평상시의 감정이고, 각 감정에 대한 감정 음성 데이터베이스를 직접 구축하였다. 피치와 에너지 정보를 감성 인식의 특징으로 이용하였고, 인식 알고리듬은 MLB(Maximum-Likelihood Bayes)분류기, NN(Nearest Neighbor)분류기 및 HMM(Hidden Markov Model)분류기를 이용하였다. 이 중 MLB 분류기와 NN 분류기에서는 특징벡터로 피치와 에너지의 평균과 표준편차, 최대값 등 통계적인 정보를 이용하였고, TMM 분류기에서는 각 프레임에서의 델타 피치와 델타델타 피치, 델타 에너지와 델타델타 에너지 등 시간적 정보를 이용하였다. 실험은 화자종속, 문장독립형 방식으로 하였고, 인식 실험 결과는 MLB를 이용해서 $68.9\%, NN을 이용해서 $66.7\%를 얻었고, HMM 분류기를 이용해서 $89.30\%를 얻었다.

Keywords