DOI QR코드

DOI QR Code

Hi, KIA! Classifying Emotional States from Wake-up Words Using Machine Learning

Hi, KIA! 기계 학습을 이용한 기동어 기반 감성 분류

  • 김태수 (KAIST 산업디자인학과) ;
  • 김영우 (KAIST 산업디자인학과) ;
  • 김근형 (KAIST 문화과학기술대학원) ;
  • 김철민 (KAIST 원자력및양자공학과) ;
  • 전형석 (현대자동차 기아디자인센터 기아내장디자인실) ;
  • 석현정 (KAIST 산업디자인학과)
  • Received : 2020.11.27
  • Accepted : 2020.12.21
  • Published : 2021.03.31

Abstract

This study explored users' emotional states identified from the wake-up words -"Hi, KIA!"- using a machine learning algorithm considering the user interface of passenger cars' voice. We targeted four emotional states, namely, excited, angry, desperate, and neutral, and created a total of 12 emotional scenarios in the context of car driving. Nine college students participated and recorded sentences as guided in the visualized scenario. The wake-up words were extracted from whole sentences, resulting in two data sets. We used the soundgen package and svmRadial method of caret package in open source-based R code to collect acoustic features of the recorded voices and performed machine learning-based analysis to determine the predictability of the modeled algorithm. We compared the accuracy of wake-up words (60.19%: 22%~81%) with that of whole sentences (41.51%) for all nine participants in relation to the four emotional categories. Accuracy and sensitivity performance of individual differences were noticeable, while the selected features were relatively constant. This study provides empirical evidence regarding the potential application of the wake-up words in the practice of emotion-driven user experience in communication between users and the artificial intelligence system.

본 연구에서는 승용차에서 사람들이 기기를 사용하기 위해 사용하는 기동어인 "Hi, KIA!"의 감성을 기계학습을 기반으로 분류가 가능한가에 대해 탐색하였다. 감성 분류를 위해 신남, 화남, 절망, 보통 총 4가지 감정별로 3가지 시나리오를 작성하여, 자동차 운전 상황에서 발생할 수 있는 12가지의 사용자 감정 시나리오를 제작하였다. 시각화 자료를 기반으로 총 9명의 대학생을 대상으로 녹음을 진행하였다. 수집된 녹음 파일의 전체 문장에서 기동어 부분만 별도로 추출하는 과정을 거쳐, 전체 문장 파일, 기동어 파일 총 두 개의 데이터 세트로 정리되었다. 음성 분석에서는 음향 특성을 추출하고 추출된 데이터를 svmRadial 방법을 이용하여 기계 학습 기반의 알고리즘을 제작해, 제작된 알고리즘의 감정 예측 정확성 및 가능성을 파악하였다. 9명의 참여자와 4개의 감정 카테고리를 통틀어 기동어의 정확성(60.19%: 22~81%)과 전체 문장의 정확성(41.51%)을 비교했다. 또한, 참여자 개별로 정확도와 민감도를 확인하였을 때, 성능을 보임을 확인하였으며, 각 사용자 별 기계 학습을 위해 선정된 피쳐들이 유사함을 확인하였다. 본 연구는 기동어만으로도 사용자의 감정 추출과 보이스 인터페이스 개발 시 기동어 감정 파악 기술이 잠재적으로 적용 가능한데 대한 실험적 증거를 제공할 수 있을 것으로 기대한다.

Keywords

Acknowledgement

이 논문은 교육부의 재원으로 한국연구재단 4단계 BK21사업의 지원을 받아 수행됨(NO.4120200913638). 이 논문은 2018년도 정부(미래창조과학부)의 재원으로 한국연구재단의 지원을 받아 수행되었음(No.2018R1A1A3A04078934).

References

  1. Alcamo, J. (2008). Chapter six the SAS approach: combining qualitative and quantitative knowledge in environmental scenarios. Developments in integrated environmental assessment, 2, 123-150. DOI: /10.1016/S1574-101X(08)00406-7
  2. Davitz, J. R. (1964). The communication of emotional meaning. Oxford, England: McGraw Hill.
  3. Jang, K., & Kim, T. (2005). The pragmatic elements concerned with the sounds of utterance. Korean Semantics, 18, 175-196.
  4. Jones, C. M., & Jonsson, I. M. (2005). Automatic recognition of affective cues in the speech of car drivers to allow appropriate responses. In Proceedings of the 17th Australia conference on Computer-Human Interaction: Citizens Online: Considerations for Today and the Future (pp. 1-10), Narrabundah, Australia, Nov. 2005. DOI: 10.5555/1108368.1108397
  5. Jones, C. M., & Jonsson, I. M. (2007). Performance analysis of acoustic emotion recognition for in-car conversational interfaces. In International Conference on Universal Access in Human-Computer Interaction (pp. 411-420). Berlin, Heidelberg, DOI: 10.1007/978-3-540-73281-5_44
  6. Kepuska, V. Z., & Klein, T. B. (2009). A novel wakeup-word speech recognition system, wake-up-word recognition task, technology and evaluation. Nonlinear Analysis: Theory, Methods & Applications, 71(12), e2772-e2789. DOI: 10.1016/j.na.2009.06.089
  7. Kim, Y., Kim, T., Kim, G., Jeon, H., & Suk. H. J. (2020). Hi Kia~, hi... kia..., HI KIA!! Proceeding of Fall Conference of Korean Society for Emotion and Sensibility (pp. 21-22), Daejeon.
  8. Nass, C., Jonsson, I. M., Harris, H., Reaves, B., Endo, J., Brave, S., & Takayama, L. (2005). Improving automotive safety by pairing driver emotion and car voice emotion. In Proceedings of CHI '05 Extended Abstracts on Human Factors in Computing Systems 2-7 (pp. 1973-1976), Portland, Oregon, USA. DOI: 10.1145/1056808.1057070
  9. Nordstrom, H., & Laukka, P. (2019). The time course of emotion recognition in speech and music. The Journal of the Acoustical Society of America, 145(5), 3058-3074. DOI: 10.1121/1.5108601
  10. Ogilvy, J. (2011). Facing the Fold: Essays on Scenario Planning (pp. 11-29). Devon: Triarchy Press.
  11. Park. J., Park, J., & Sohn, J. (2013). Acoustic parameters for induced emotion categorizing and dimensional approach. Science of Emotion and Sensibility, 16(1), 117-124.
  12. Russell, J. A. (1980). A circumplex model of affect. Journal of personality and social psychology, 39(6), 1161-1178. DOI: 10.1037/h0077714
  13. Schuller, B., Lang, M., & Rigoll, G. (2006). Recognition of spontaneous emotions by speech within automotive environment. Proceedings of German Annual Conference of Acoustics, Braunschweig, Germany, Mar, 2006.
  14. Swain, M., Routray, A., & Kabisatpathy, P. (2018). Databases, features and classifiers for speech emotion recognition: a review. International Journal of Speech Technology, 21(1), 93-120. DOI: 10.1007/s10772-018-9491-z
  15. Voicebot. ai. (2020). In-car voice assistant consumer adoption report. Retrieved from https://voicebot.ai/wp-content/uploads/2020/02/in_car_voice_assistant_consumer_adoption_report_2020_voicebot.pdf
  16. Wiegand, G., Mai, C., Hollander, K., & Hussmann, H. (2019). InCarAR: A Design Space Towards 3D Augmented Reality Applications in Vehicles. In Proceedings of the 11th International Conference on Automotive User Interfaces and Interactive Vehicular Applications, Utrecht, Netherlands (pp. 1-13), DOI: 10.1145/3342197.3344539