DOI QR코드

DOI QR Code

Real-time Background Music System for Immersive Dialogue in Metaverse based on Dialogue Emotion

메타버스 대화의 몰입감 증진을 위한 대화 감정 기반 실시간 배경음악 시스템 구현

  • Kirak Kim (Department of Art & Technology, Sogang University) ;
  • Sangah Lee (Department of Art & Technology, Sogang University) ;
  • Nahyeon Kim (Department of Art & Technology, Sogang University) ;
  • Moonryul Jung (Department of Art & Technology, Sogang University)
  • 김기락 (서강대학교 아트&테크놀로지학과) ;
  • 이상아 (서강대학교 아트&테크놀로지학과) ;
  • 김나현 (서강대학교 아트&테크놀로지학과) ;
  • 정문열 (서강대학교 아트&테크놀로지학과)
  • Received : 2023.06.20
  • Accepted : 2023.08.16
  • Published : 2023.09.01

Abstract

To enhance immersive experiences for metaverse environements, background music is often used. However, the background music is mostly pre-matched and repeated which might occur a distractive experience to users as it does not align well with rapidly changing user-interactive contents. Thus, we implemented a system to provide a more immersive metaverse conversation experience by 1) developing a regression neural network that extracts emotions from an utterance using KEMDy20, the Korean multimodal emotion dataset 2) selecting music corresponding to the extracted emotions from an utterance by the DEAM dataset where music is tagged with arousal-valence levels 3) combining it with a virtual space where users can have a real-time conversation with avatars.

메타버스 환경에서의 배경음악은 사용자의 몰입감을 증진시키기 위해 사용된다. 하지만 현재 대부분의 메타버스 환경에서는 사전에 매칭시킨 음원을 반복 재생하며, 이는 빠르게 변화하는 사용자의 상호작용 맥락에 어울리지 못해 사용자의 몰입감을 저해시키는 경향이 있다. 본 논문에서는 보다 몰입감 있는 메타버스 대화 경험을 구현하기 위해 1) 한국어 멀티모달 감정 데이터셋인 KEMDy20을 이용하여 발화로부터 감정을 추출하는 회귀 신경망을 구현하고 2) 음원에 arousal-valence 레벨이 태깅되어 있는 DEAM 데이터셋을 이용하여 발화 감정에 대응되는 음원을 선택하여 재생한 후 3) 아바타를 이용한 실시간 대화가 가능한 가상공간과 결합하여 몰입형 메타버스 환경에서 발화의 감정에 어울리는 배경음악을 실시간으로 재생하는 시스템을 구현하였다.

Keywords

Acknowledgement

이 연구는 2023년도 정부(산업통상자원부)의 재원으로 한국산업기술진흥원의 지원을 받아 수행된 연구이자 (P0012746, 2023년 산업혁신인재성장지원사업), 과학기술정보통신부 및 정보통신기획평가원의 메타버스 융합대학원의 연구 결과로 수행되었음 (IITP-2023-RS-2022-00156318)

References

  1. Sanders, Timothy, and Paul Cairns. "Time perception, immersion and music in videogames," Proceedings of HCI 2010 24, 160-167, 2010. 
  2. Weiss, Karl, Taghi M. Khoshgoftaar, and DingDing Wang. "A survey of transfer learning," Journal of Big data 3.1, 1-40, 2016.  https://doi.org/10.1186/s40537-016-0043-6
  3. Russell, James A. "A circumplex model of affect," Journal of personality and social psychology 39.6, 1161, 1980. 
  4. K. J. Noh and H. Jeong, "KEMDy20," https://nanum.etri.re.kr/share/kjnoh/KEMDy20?lang=ko_KR 
  5. Na-Mo Bang, Heui-Yeen Yeen, Jee-Hyun Lee, Myoung-Wan Koo. "MMM: Multi-modal Emotion Recognition in conversation with MLP-Mixer," 한국정보과학회 학술발표논문집, 2288-2290, 2022. 
  6. June-Woo Kim, Dong-Hyun Kim, Ju-Seong Do, Ho-Young Jung. "Strategies of utilizing pre-trained text and speech model-based feature representation for multi-modal emotion recognition," 한국정보과학회 학술발표논문집, 2282-2284, 2022. 
  7. Baevski, Alexei, et al. "wav2vec 2.0: A framework for self-supervised learning of speech representations," Advances in neural information processing systems 33, 12449-12460, 2020. 
  8. Conneau, Alexis, et al. "Unsupervised cross-lingual representation learning for speech recognition," arXiv preprint arXiv:2006.13979, 2020. 
  9. M. Soleymani, A. Aljanaki, Y. Yang, "DEAM: Mediaeval database for emotional analysis in music," http://cvml.unige.ch/databases/DEAM/, 2016.