• Title/Summary/Keyword: 감정 음성

Search Result 235, Processing Time 0.029 seconds

A Preliminary Study for Emotional Expression of Software Robot -Development of Hangul Processing Technique for Inference of Emotional Words- (소프트웨어 로봇의 감성 표현을 위한 기반연구 - 감성어 추론을 위한 한글 처리 기술 개발 -)

  • Song, Bok-Hee;Yun, Han-Kyung
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2012.05a
    • /
    • pp.3-4
    • /
    • 2012
  • 사용자 중심의 man machine interface 기술의 발전은 사용자 인터페이스 기술과 인간공학의 접목으로 인하여 많은 진전이 있으며 계속 진행되고 있다. 근래의 정보전달은 사운드와 텍스트 또는 영상을 통하여 이루어지고 있으나, 감성적인 측면에서의 정보전달에 관한 연구는 활발하지 못한 실정이다. 특히, Human Computer Interaction분야에서 음성이나 표정의 전달에 관한 감성연구는 초기단계로 이모티콘이나 플래쉬콘 등이 감정전달을 위하여 사용되고 있으나 부자연스럽고 기계적인 실정이다. 본 연구는 사용자와 상호작용에서 컴퓨터 또는 응용소프트웨어 등이 자신의 가상객체(Software Robot, Sobot)를 활용하여 인간친화적인 상호작용을 제공하기위한 기반연구로써 한글에서 감성어를 추출하여 분류하고 처리하는 기술을 개발하여 컴퓨터가 전달하고자하는 정보에 인공감정을 이입시켜 사용자들의 감성만족도를 향상시키는데 적용하고자한다.

  • PDF

Learning/Training System Supporting Real Time Video Chatting on Web-based 3D Virtual Space (웹 기반 3차원 가상 공간에서 실시간 화상 대화 지원 학습/훈련 시스템)

  • 정헌만;탁진현;이세훈;왕창종
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.571-573
    • /
    • 2000
  • 기존 분산 가상환경 시스템에서는 참여자들 사이의 언어 외적인 의사교환을 지원하기 위해 참여자의 아바타에 몸짓이나 얼굴 표정 등을 표현할 수 있도록 애니메이션 가능한 아바타를 사용한다. 하지만 아바타 애니메이션으로 참여자의 의사 및 감정 표현을 표현하는데는 한계가 있다. 따라서, 이 논문에서는 가상 환경 내의 다중 사용자들의 의사 교환 및 감정 표현을 극대화할 수 있는 방법으로 실시간 화상 대화 가상 환경 학습.훈련 시스템을 설계하였다. 설계한 시스템은 학습 참여자의 화상 및 음성 스트림을 전달함으로써 기존 응용들에 비해 풍부한 의사 교환을 지원하고, 가상 공간에서 학습에 필요한 다양한 모듈들을 포함하고 있다.

  • PDF

Multi-modal Emotion Recognition using Semi-supervised Learning and Multiple Neural Networks in the Wild (준 지도학습과 여러 개의 딥 뉴럴 네트워크를 사용한 멀티 모달 기반 감정 인식 알고리즘)

  • Kim, Dae Ha;Song, Byung Cheol
    • Journal of Broadcast Engineering
    • /
    • v.23 no.3
    • /
    • pp.351-360
    • /
    • 2018
  • Human emotion recognition is a research topic that is receiving continuous attention in computer vision and artificial intelligence domains. This paper proposes a method for classifying human emotions through multiple neural networks based on multi-modal signals which consist of image, landmark, and audio in a wild environment. The proposed method has the following features. First, the learning performance of the image-based network is greatly improved by employing both multi-task learning and semi-supervised learning using the spatio-temporal characteristic of videos. Second, a model for converting 1-dimensional (1D) landmark information of face into two-dimensional (2D) images, is newly proposed, and a CNN-LSTM network based on the model is proposed for better emotion recognition. Third, based on an observation that audio signals are often very effective for specific emotions, we propose an audio deep learning mechanism robust to the specific emotions. Finally, so-called emotion adaptive fusion is applied to enable synergy of multiple networks. The proposed network improves emotion classification performance by appropriately integrating existing supervised learning and semi-supervised learning networks. In the fifth attempt on the given test set in the EmotiW2017 challenge, the proposed method achieved a classification accuracy of 57.12%.

Voice Recognition Chatbot System for an Aging Society: Technology Development and Customized UI/UX Design (고령화 사회를 위한 음성 인식 챗봇 시스템 : 기술 개발과 맞춤형 UI/UX 설계)

  • Yun-Ji Jeong;Min-Seong Yu;Joo-Young Oh;Hyeon-Seok Hwang;Won-Whoi Hun
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.24 no.4
    • /
    • pp.9-14
    • /
    • 2024
  • This study developed a voice recognition chatbot system to address depression and loneliness among the elderly in an aging society. The system utilizes the Whisper model, GPT 2.5, and XTTS2 to provide high-performance voice recognition, natural language processing, and text-to-speech conversion. Users can express their emotions and states and receive appropriate responses, with voice recognition functionality using familiar voices for comfort and reassurance. The UX/UI design considers the cognitive responses, visual impairments, and physical limitations of the smart senior generation, using high contrast colors and readable fonts for enhanced usability. This research is expected to improve the quality of life for the elderly through voice-based interfaces.

A Study on the Perceptual Aspects of an Emotional Voice Using Prosody Transplantation (운율이식을 통해 나타난 감정인지 양상 연구)

  • Yi, So-Pae
    • MALSORI
    • /
    • no.62
    • /
    • pp.19-32
    • /
    • 2007
  • This study investigated the perception of emotional voices by transplanting some or all of the prosodic aspects, i.e. pitch, duration, and intensity, of the utterances produced with emotional voices onto those with normal voices and vice versa. Listening evaluation by 24 raters revealed that prosodic effect was greater than segmental & vocal quality effect on the preception of the emotion. The degree of influence of prosody and that of segments & vocal quality varied according to the type of emotion. As for fear, prosodic elements had far greater influence than segmental & vocal quality elements whereas segmental and vocal elements had as much effect as prosody on the perception of happy voices. Different amount of contribution to the perception of emotion was found among prosodic features with the descending order of pitch, duration and intensity. As for the length of the utterances, the perception of emotion was more effective with long utterances than with short utterances.

  • PDF

Speech Parameters for the Robust Emotional Speech Recognition (감정에 강인한 음성 인식을 위한 음성 파라메터)

  • Kim, Weon-Goo
    • Journal of Institute of Control, Robotics and Systems
    • /
    • v.16 no.12
    • /
    • pp.1137-1142
    • /
    • 2010
  • This paper studied the speech parameters less affected by the human emotion for the development of the robust speech recognition system. For this purpose, the effect of emotion on the speech recognition system and robust speech parameters of speech recognition system were studied using speech database containing various emotions. In this study, mel-cepstral coefficient, delta-cepstral coefficient, RASTA mel-cepstral coefficient and frequency warped mel-cepstral coefficient were used as feature parameters. And CMS (Cepstral Mean Subtraction) method were used as a signal bias removal technique. Experimental results showed that the HMM based speaker independent word recognizer using vocal tract length normalized mel-cepstral coefficient, its derivatives and CMS as a signal bias removal showed the best performance of 0.78% word error rate. This corresponds to about a 50% word error reduction as compare to the performance of baseline system using mel-cepstral coefficient, its derivatives and CMS.

Design of Musical Talent Evaluation Index Using Change Analysis of Voice Energy (음성 에너지의 변화 분석을 이용한 음악적 재능 평가 지표 설계)

  • Kim, Bong-Hyun;Ka, Min-Kyoung;Lee, Se-Hwan;Cho, Dong-Uk;Min, Byong-Seok
    • Proceedings of the KAIS Fall Conference
    • /
    • 2009.05a
    • /
    • pp.713-716
    • /
    • 2009
  • 현대 사회에서 문화산업은 삶의 질을 누릴 수 있는 기회와 안식을 제공해 주는 분야라고 할 수 있을 정도로 많은 관심을 받고 있다. 특히 음악 분야는 대중성과 독창성이 함께 공존하여 감정을 표출하고 쉽게 접근할 수 있는 예술적 가치로 인정받고 있다. 본 논문에서는 이와 같은 음악 분야에 대한 일반인의 재능을 평가 할 수 있는 지표를 설계하기 위해 목소리가 발산하고 있는 에너지를 분석하고자 한다. 이를 위해 동일한 음악에 대한 가수의 목소리와 일반인의 목소리에서 성도의 모양 변화에 대한 결과 파형의 패턴 분석을 실험하여 두 집단간의 비교, 분석을 행하고자 한다. 따라서 실험에 사용될 대중적 음악을 선정하고 동일 부분에 대한 가수와 일반인의 목소리를 수집하여 시간의 흐름에 따른 음성 에너지의 변화를 패턴 분석하고 이를 비교하여 음악적 재능을 평가할 수 있는 지표를 설계하고자 한다.

  • PDF

Extracting Speech Parameters for intonational Differences between the Seoul Dialect and the other Dialects of Korean (서울말과 방언사이의 억양차이 파라미터 추출)

  • Lee, Kang-Hee
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.01a
    • /
    • pp.211-212
    • /
    • 2016
  • 음성 인식 기술은 상당 기간 연구 개발이 계속적으로 되었는데 최근에 이르러 스마트 폰이 급속히 확산되면서 그 필요성, 즉, 고품질의 상용 서비스에 대한 욕구가 널리 확산되고 있다. 이런 환경에서도 사실 한국어는 상대적으로 소홀히 다뤄 질 수 있는 가능성이 매우 높다. 이러한 소외는 기술적인 문제로만 남겨지는 것이 아니라 언어라는 측면에서 문화와 직결된다. 이에 한국어 음성 인식 연구는 꼭 필요한 것이고 많은 부분 국가가 정책적으로 지원을 하는 것이 마땅하나 현 상황은 많이 미흡하나 아마도 곧 그 필요성이 대두 될 것이라 예상하며 그를 준비하는 연구로 특화된 분야, 즉, 표준어와 방언들 그리고 감정 표현 언어에 관한 연구를 한다.

  • PDF

Implementation of interaction to increase user immersion in VR conferencing applications (VR 회의 어플리케이션의 사용자의 몰입도 증가를 위한 상호작용 구현)

  • You, Do-jin;Kim, Su-ji;Kang, Ye-jin;Kim, Hwi-jun;Park, Eun-ji;Lee, Chae-hee;Chang, Yu-jin;Jeong, Min-hyuk;Kim, Sang-kyun
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.117-119
    • /
    • 2021
  • 본 논문에서는 VR 기반 원격 회의 어플리케이션에서 높은 사용자의 몰입도를 제공하기 위한 상호작용 기능들을 제안한다. 우선, 향기 효과를 구성하여 감각 효과 제공을 통한 상호작용 방법을 제안한다. 다음으로 이모티콘과 아바타의 애니메이션을 통해 다양한 감정적 상호작용을 제안한다. 마지막으로 다수 사용자의 원활한 음성 커뮤니케이션을 위한 테이블 별 음성 채널 분리를 기능을 제안한다. 본 어플리케이션은 Oculus Quest 2 기기를 통하여 VR 환경에서 구현되었다.

  • PDF

Speaker and Context Independent Emotion Recognition using Speech Signal (음성을 이용한 화자 및 문장독립 감정인식)

  • 강면구;김원구
    • Proceedings of the IEEK Conference
    • /
    • 2002.06d
    • /
    • pp.377-380
    • /
    • 2002
  • In this paper, speaker and context independent emotion recognition using speech signal is studied. For this purpose, a corpus of emotional speech data recorded and classified according to the emotion using the subjective evaluation were used to make statical feature vectors such as average, standard deviation and maximum value of pitch and energy and to evaluate the performance of the conventional pattern matching algorithms. The vector quantization based emotion recognition system is proposed for speaker and context independent emotion recognition. Experimental results showed that vector quantization based emotion recognizer using MFCC parameters showed better performance than that using the Pitch and energy Parameters.

  • PDF