DOI QR코드

DOI QR Code

Enhancing Multimodal Emotion Recognition in Speech and Text with Integrated CNN, LSTM, and BERT Models

통합 CNN, LSTM, 및 BERT 모델 기반의 음성 및 텍스트 다중 모달 감정 인식 연구

  • Received : 2023.10.20
  • Accepted : 2023.12.10
  • Published : 2024.01.31

Abstract

Identifying emotions through speech poses a significant challenge due to the complex relationship between language and emotions. Our paper aims to take on this challenge by employing feature engineering to identify emotions in speech through a multimodal classification task involving both speech and text data. We evaluated two classifiers-Convolutional Neural Networks (CNN) and Long Short-Term Memory (LSTM)-both integrated with a BERT-based pre-trained model. Our assessment covers various performance metrics (accuracy, F-score, precision, and recall) across different experimental setups). The findings highlight the impressive proficiency of two models in accurately discerning emotions from both text and speech data.

언어와 감정 사이의 복잡한 관계의 특징을 보이며, 우리의 말을 통해 감정을 식별하는 것은 중요한 과제로 인식된다. 이 연구는 음성 및 텍스트 데이터를 모두 포함하는 다중 모드 분류 작업을 통해 음성 언어의 감정을 식별하기 위해 속성 엔지니어링을 사용하여 이러한 과제를 해결하는 것을 목표로 한다. CNN(Convolutional Neural Networks)과 LSTM(Long Short-Term Memory)이라는 두 가지 분류기를 BERT 기반 사전 훈련된 모델과 통합하여 평가하였다. 논문에서 평가는 다양한 실험 설정 전반에 걸쳐 다양한 성능 지표(정확도, F-점수, 정밀도 및 재현율)를 다룬다. 이번 연구 결과는 텍스트와 음성 데이터 모두에서 감정을 정확하게 식별하는 두 모델의 뛰어난 능력을 보인다.

Keywords

Acknowledgement

이 논문은 2023학년도 세명대학교 대학혁신지원사업에 의한 연구임

References

  1. S. Gaurav, "Multimodal speech emotion recognition and ambiguity resolution", arXiv preprint arXiv:1904.06022, 2019. doi.org/10.48550/arXiv.1904.06022
  2. Alzubaidi, L., Zhang, J., Humaidi, A. J., Al-Dujaili, A., Duan, Y., Al-Shamma, O., ... & Farhan, L, "Review of deep learning: Concepts, CNN architectures, challenges, applications, future directions", Journal of big Data, 8, pp 1-74, 2021. doi.org/10.1186/s40537-021-00444-8
  3. YY. Yu, X. Si, C. Hu and J. Zhang, "A review of recurrent neural networks: LSTM cells and network architectures", Neural computation, Vol 31, No. 7, pp. 1235-1270, 2019. doi: 10.1162/neco_a_01199.
  4. Busso, C., Bulut, M., Lee, C. C., Kazemzadeh, A., Mower, E., Kim, S., ... & Narayanan, S. S., "IEMOCAP: Interactive emotional dyadic motion capture database" Language resources and evaluation, 42, pp. 335-359, 2008. https://doi.org/10.1007/s10579-008-9076-6
  5. Tzirakis, P., Trigeorgis, G., Nicolaou, M. A., Schuller, B. W., & Zafeiriou, S., "End-to-End Multimodal Emotion Recognition Using Deep Neural Networks", IEEE Journal of Selected Topics in Signal Processing, vol. 11, no. 8, pp. 1301-1309, Dec. 2017, doi: 10.1109/JSTSP.2017.2764438.
  6. Kim, J. H. & Lee, S. P., "Multi-Modal Emotion Recognition Using Speech Features and Text Embedding", Trans. Korean Inst. Electr. Eng, 70, pp. 108-113, 2021. doi:10.5370/kiee.2021.70.1.108.
  7. Ranganathan, H., Chakraborty, S., & Panchanathan, S., "Multimodal emotion recognition using deep learning architectures" 2016 IEEE winter conference on applications of computer vision (WACV). IEEE, pp. 1-9, 2016. DOI: 10.1109/WACV.2016.7477679
  8. Liu, W., Qiu, J. L., Zheng, W. L., & Lu, B. L.. "Comparing recognition performance and robustness of multimodal deep learning models for multimodal emotion recognition", IEEE Transactions on Cognitive and Developmental Systems, Vol. 14, No. 2, pp.715-729, 2021. DOI: 10.1109/TCDS.2021.3071170
  9. Jo, C.Y. & Jung, H.J., "Multimodal Emotion Recognition System using Face Images and Multidimensional Emotion-based Text", The Journal of Korean Institute of Information Technology, vol. 21, no. 5, pp. 39-47, 2023, doi: 10.14801/jkiit.2023.21.5.39
  10. Lee, S.J., Seo, J.Y. & Choi, J.H., "The Effect of Interjection in Conversational Interaction with the AI Agent: In the Context of Self-Driving Car", The Journal of the Convergence on Culture Technology, vol. 8, no. 1, pp. 551-563, 2022. doi:10.17703/JCCT.2022.8.1.551.
  11. Yoon, S., Byun, S. & Jung, K., "Multimodal Speech Emotion Recognition Using Audio and Text", 2018 IEEE Spoken Language Technology Workshop (SLT), Athens, Greece, pp 112-118, 2018, doi: 10.1109/SLT.2018.8639583.
  12. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K., "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", In Proceedings of naacL-HLT, Vol. 1, p. 2, pp 4171-4186, 2019. DOI: 10.18653/V1/N19-1423