DOI QR코드

DOI QR Code

통합 CNN, LSTM, 및 BERT 모델 기반의 음성 및 텍스트 다중 모달 감정 인식 연구

Enhancing Multimodal Emotion Recognition in Speech and Text with Integrated CNN, LSTM, and BERT Models

  • 투고 : 2023.10.20
  • 심사 : 2023.12.10
  • 발행 : 2024.01.31

초록

언어와 감정 사이의 복잡한 관계의 특징을 보이며, 우리의 말을 통해 감정을 식별하는 것은 중요한 과제로 인식된다. 이 연구는 음성 및 텍스트 데이터를 모두 포함하는 다중 모드 분류 작업을 통해 음성 언어의 감정을 식별하기 위해 속성 엔지니어링을 사용하여 이러한 과제를 해결하는 것을 목표로 한다. CNN(Convolutional Neural Networks)과 LSTM(Long Short-Term Memory)이라는 두 가지 분류기를 BERT 기반 사전 훈련된 모델과 통합하여 평가하였다. 논문에서 평가는 다양한 실험 설정 전반에 걸쳐 다양한 성능 지표(정확도, F-점수, 정밀도 및 재현율)를 다룬다. 이번 연구 결과는 텍스트와 음성 데이터 모두에서 감정을 정확하게 식별하는 두 모델의 뛰어난 능력을 보인다.

Identifying emotions through speech poses a significant challenge due to the complex relationship between language and emotions. Our paper aims to take on this challenge by employing feature engineering to identify emotions in speech through a multimodal classification task involving both speech and text data. We evaluated two classifiers-Convolutional Neural Networks (CNN) and Long Short-Term Memory (LSTM)-both integrated with a BERT-based pre-trained model. Our assessment covers various performance metrics (accuracy, F-score, precision, and recall) across different experimental setups). The findings highlight the impressive proficiency of two models in accurately discerning emotions from both text and speech data.

키워드

과제정보

이 논문은 2023학년도 세명대학교 대학혁신지원사업에 의한 연구임

참고문헌

  1. S. Gaurav, "Multimodal speech emotion recognition and ambiguity resolution", arXiv preprint arXiv:1904.06022, 2019. doi.org/10.48550/arXiv.1904.06022
  2. Alzubaidi, L., Zhang, J., Humaidi, A. J., Al-Dujaili, A., Duan, Y., Al-Shamma, O., ... & Farhan, L, "Review of deep learning: Concepts, CNN architectures, challenges, applications, future directions", Journal of big Data, 8, pp 1-74, 2021. doi.org/10.1186/s40537-021-00444-8
  3. YY. Yu, X. Si, C. Hu and J. Zhang, "A review of recurrent neural networks: LSTM cells and network architectures", Neural computation, Vol 31, No. 7, pp. 1235-1270, 2019. doi: 10.1162/neco_a_01199.
  4. Busso, C., Bulut, M., Lee, C. C., Kazemzadeh, A., Mower, E., Kim, S., ... & Narayanan, S. S., "IEMOCAP: Interactive emotional dyadic motion capture database" Language resources and evaluation, 42, pp. 335-359, 2008. https://doi.org/10.1007/s10579-008-9076-6
  5. Tzirakis, P., Trigeorgis, G., Nicolaou, M. A., Schuller, B. W., & Zafeiriou, S., "End-to-End Multimodal Emotion Recognition Using Deep Neural Networks", IEEE Journal of Selected Topics in Signal Processing, vol. 11, no. 8, pp. 1301-1309, Dec. 2017, doi: 10.1109/JSTSP.2017.2764438.
  6. Kim, J. H. & Lee, S. P., "Multi-Modal Emotion Recognition Using Speech Features and Text Embedding", Trans. Korean Inst. Electr. Eng, 70, pp. 108-113, 2021. doi:10.5370/kiee.2021.70.1.108.
  7. Ranganathan, H., Chakraborty, S., & Panchanathan, S., "Multimodal emotion recognition using deep learning architectures" 2016 IEEE winter conference on applications of computer vision (WACV). IEEE, pp. 1-9, 2016. DOI: 10.1109/WACV.2016.7477679
  8. Liu, W., Qiu, J. L., Zheng, W. L., & Lu, B. L.. "Comparing recognition performance and robustness of multimodal deep learning models for multimodal emotion recognition", IEEE Transactions on Cognitive and Developmental Systems, Vol. 14, No. 2, pp.715-729, 2021. DOI: 10.1109/TCDS.2021.3071170
  9. Jo, C.Y. & Jung, H.J., "Multimodal Emotion Recognition System using Face Images and Multidimensional Emotion-based Text", The Journal of Korean Institute of Information Technology, vol. 21, no. 5, pp. 39-47, 2023, doi: 10.14801/jkiit.2023.21.5.39
  10. Lee, S.J., Seo, J.Y. & Choi, J.H., "The Effect of Interjection in Conversational Interaction with the AI Agent: In the Context of Self-Driving Car", The Journal of the Convergence on Culture Technology, vol. 8, no. 1, pp. 551-563, 2022. doi:10.17703/JCCT.2022.8.1.551.
  11. Yoon, S., Byun, S. & Jung, K., "Multimodal Speech Emotion Recognition Using Audio and Text", 2018 IEEE Spoken Language Technology Workshop (SLT), Athens, Greece, pp 112-118, 2018, doi: 10.1109/SLT.2018.8639583.
  12. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K., "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", In Proceedings of naacL-HLT, Vol. 1, p. 2, pp 4171-4186, 2019. DOI: 10.18653/V1/N19-1423