Multi-Emotion Recognition Model with Text and Speech Ensemble

텍스트와 음성의 앙상블을 통한 다중 감정인식 모델

  • 이명호 (조선대학교 전자공학과) ;
  • 임명진 (조선대학교 신산업융합학부) ;
  • 신주현 (조선대학교 신산업융합학부)
  • Received : 2022.08.26
  • Accepted : 2022.10.05
  • Published : 2022.09.30

Abstract

Due to COVID-19, the importance of non-face-to-face counseling is increasing as the face-to-face counseling method has progressed to non-face-to-face counseling. The advantage of non-face-to-face counseling is that it can be consulted online anytime, anywhere and is safe from COVID-19. However, it is difficult to understand the client's mind because it is difficult to communicate with non-verbal expressions. Therefore, it is important to recognize emotions by accurately analyzing text and voice in order to understand the client's mind well during non-face-to-face counseling. Therefore, in this paper, text data is vectorized using FastText after separating consonants, and voice data is vectorized by extracting features using Log Mel Spectrogram and MFCC respectively. We propose a multi-emotion recognition model that recognizes five emotions using vectorized data using an LSTM model. Multi-emotion recognition is calculated using RMSE. As a result of the experiment, the RMSE of the proposed model was 0.2174, which was the lowest error compared to the model using text and voice data, respectively.

COVID-19로 인해 대면으로 이루어지던 상담 방식이 비대면으로 진행되면서 비대면 상담의 중요성이 높아지고 있다. 비대면 상담은 온라인으로 언제 어디서든 상담할 수 있고, COVID-19에 안전하다는 장점이 있다. 그러나 비언어적 표현의 소통이 어려워 내담자의 마음을 이해하기 어렵다. 이에 비대면 상담 시 내담자의 마음을 잘 알기 위해서는 텍스트와 음성을 정확하게 분석하여 감정을 인식하는 것이 중요하다. 따라서 본 논문에서는 텍스트 데이터는 자음을 분리한 후 FastText를 사용하여 벡터화하고, 음성 데이터는 Log Mel Spectrogram과 MFCC를 사용하여 각각 특징을 추출하여 벡터화한다. 벡터화된 데이터를 LSTM 모델을 활용하여 5가지 감정을 인식하는 다중 감정인식 모델을 제안한다. 다중 감정인식은 RMSE을 활용하여 계산한다. 실험 결과 텍스트와 음성 데이터를 각각 사용한 모델보다 제안한 모델의 RMSE가 0.2174로 가장 낮은 오차를 확인하였다.

Keywords

Acknowledgement

이 논문은 2022학년도 조선대학교 학술연구비의 지원을 받아 연구되었음.

References

  1. 김소연, 유헌창, "SNS 비정형 데이터의 한국어 다중감성 분석 기법," 한국컴퓨터교육학회 학술발표대회논문집, 제22권, 제2호, 147-149쪽, 2018년
  2. 신동원, 이연수, 장정선, 임해창, "CNN-LSTM을 이용한 대화 문맥 반영과 감정 분류," 한국어정보학회 학술대회, 141-146쪽, 2016년
  3. 임명진, 박원호, 신주현, "Word2Vec과 LSTM을 활용한 이별 가사 감정 분류," 스마트미디어저널, 제9권 제3호, 90-97쪽, 2020년 9월
  4. Q. Jin, C. Li, S. Chen and H. Wu, "Speech emotion recognition with acoustic and lexical features," IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4749-4753, South Brisbane, Australia, Apr. 2015.
  5. H. S. Kumbhar and S. U. Bhandari, "Speech Emotion Recognition using MFCC features and LSTM network," International Conference On Computing, Communication, Control And Automation, pp. 1-3, Pune, India, Sep. 2019.
  6. 임명진, 이명호, 신주현, "상담 챗봇의 다차원 감정인식 모델," 스마트미디어저널, 제10권, 제4호, 21-27쪽, 2021년 12월
  7. Ekman, Paul. "An argument for basic emotions," Cognition & emotion, Vol. 6, No. 3-4, pp. 169-200, Oct. 1992 https://doi.org/10.1080/02699939208411068
  8. Plutchik, Robert. "Emotions and life: Perspectives from psychology, biology, and evolution," American Psychological Association, 2003
  9. 임명진, "대화 문맥의 연관성을 적용한 멀티 레이블 감정인식 모델", 조선대학교 박사학위 논문, 2022. 8
  10. Satt, Aharon, et al., "Efficient Emotion Recognition from Speech Using Deep Learning on Spectrograms," Interspeech, pp. 1089-1093, Stockholm, Sweden, Aug. 2017.
  11. Nancy, A. Maria,et al., "Audio Based Emotion Recognition Using Mel Frequency Cepstral Coeffi-cient and Support Vector Machine," Journal of Computational and Theoretical Nanoscience, Vol. 15, No. 6-7, pp. 2255-2258, Jun. 2018. https://doi.org/10.1166/jctn.2018.7447
  12. Likitha, M. S., et al., "Speech based human emotion recognition using MFCC," 2017 International Con-ference on Wireless Communications, Signal Processing and Networking (WiSPNET), IEEE, pp. 2257-2260, Chennai, India, Mar. 2017.
  13. 이명호, 임명진, 신주현, "단어와 문장의 의미를 고려한 비속어 판별 방법," 스마트미디어저널, 제9권, 제3호, 98-106쪽, 2020년 9월