• Title/Summary/Keyword: 동영상 감정 인식

Search Result 13, Processing Time 0.029 seconds

Audio and Image based Emotion Recognition Framework on Real-time Video Streaming (실시간 동영상 스트리밍 환경에서 오디오 및 영상기반 감정인식 프레임워크)

  • Bang, Jaehun;Lim, Ho Jun;Lee, Sungyoung
    • Annual Conference of KIPS
    • /
    • 2017.04a
    • /
    • pp.1108-1111
    • /
    • 2017
  • 최근 감정인식 기술은 다양한 IoT 센서 디바이스의 등장으로 단일 소스기반의 감정인식 기술 연구에서 멀티모달 센서기반 감정인식 연구로 변화하고 있으며, 특히 오디오와 영상을 이용한 감정인식 기술의 연구가 활발하게 진행되는 있다. 기존의 오디오 및 영상기반 감정신 연구는 두 개의 센서 테이터를 동시에 입력 저장한 오픈 데이터베이스를 활용하여 다른 이벤트 처리 없이 각각의 데이터에서 특징을 추출하고 하나의 분류기를 통해 감정을 인식한다. 이러한 기법은 사람이 말하지 않는 구간, 얼굴이 보이지 않는 구간의 이벤트 정보처리에 대한 대처가 떨어지고 두 개의 정보를 종합하여 하나의 감정도 도출하는 디시전 레벨의 퓨저닝 연구가 부족하다. 본 논문에서는 이러한 문제를 해결하기 위해 오디오 및 영상에 내포되어 있는 이벤트 정보를 추출하고 오디오 및 영상 기반의 분리된 인지모듈을 통해 감정들을 인식하며, 도출된 감정들을 시간단위로 통합하여 디시전 퓨전하는 실시간 오디오 및 영상기반의 감정인식 프레임워크를 제안한다.

Face Emotion Recognition by Fusion Model based on Static and Dynamic Image (정지영상과 동영상의 융합모델에 의한 얼굴 감정인식)

  • Lee Dae-Jong;Lee Kyong-Ah;Go Hyoun-Joo;Chun Myung-Geun
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.15 no.5
    • /
    • pp.573-580
    • /
    • 2005
  • In this paper, we propose an emotion recognition using static and dynamic facial images to effectively design human interface. The proposed method is constructed by HMM(Hidden Markov Model), PCA(Principal Component) and wavelet transform. Facial database consists of six basic human emotions including happiness, sadness, anger, surprise, fear and dislike which have been known as common emotions regardless of nation and culture. Emotion recognition in the static images is performed by using the discrete wavelet. Here, the feature vectors are extracted by using PCA. Emotion recognition in the dynamic images is performed by using the wavelet transform and PCA. And then, those are modeled by the HMM. Finally, we obtained better performance result from merging the recognition results for the static images and dynamic images.

Multi-Modal Emotion Recognition in Videos Based on Pre-Trained Models (사전학습 모델 기반 발화 동영상 멀티 모달 감정 인식)

  • Eun Hee Kim;Ju Hyun Shin
    • Smart Media Journal
    • /
    • v.13 no.10
    • /
    • pp.19-27
    • /
    • 2024
  • Recently, as the demand for non-face-to-face counseling has rapidly increased, the need for emotion recognition technology that combines various aspects such as text, voice, and facial expressions is being emphasized. In this paper, we address issues such as the dominance of non-Korean data and the imbalance of emotion labels in existing datasets like FER-2013, CK+, and AFEW by using Korean video data. We propose methods to enhance multimodal emotion recognition performance in videos by integrating the strengths of image modality with text modality. A pre-trained model is used to overcome the limitations caused by small training data. A GPT-4-based LLM model is applied to text, and a pre-trained model based on VGG-19 architecture is fine-tuned to facial expression images. The method of extracting representative emotions by combining the emotional results of each aspect extracted using a pre-trained model is as follows. Emotion information extracted from text was combined with facial expression changes in a video. If there was a sentiment mismatch between the text and the image, we applied a threshold that prioritized the text-based sentiment if it was deemed trustworthy. Additionally, as a result of adjusting representative emotions using emotion distribution information for each frame, performance was improved by 19% based on F1-Score compared to the existing method that used average emotion values for each frame.

The effect of media modality and the valence of risk messages on affective risk perception and behavioral intention (미디어 형식과 위험 메시지 구성이 감정적 위험인식과 행위의도에 미치는 영향)

  • Lee, Jae-Shin
    • Korean Journal of Cognitive Science
    • /
    • v.23 no.4
    • /
    • pp.457-485
    • /
    • 2012
  • The current study explores how media modality and message frame interact to form individuals' affective risk perception and behavioral intention. Specifically, participants were exposed to positive and negative messages on irradiated foods in text, audio, and audio/video formats and their affective risk perception and purchase intention were measured. Results indicate that individuals' affective risk perception and purchase intention were influenced by media modality and message frame. The significant interaction effects between the two variables were also observed. The results indicate that the appropriate media modality should be carefully selected based on the message content for effective risk communication.

  • PDF

Deep Neural Network Architecture for Video - based Facial Expression Recognition (동영상 기반 감정인식을 위한 DNN 구조)

  • Lee, Min Kyu;Choi, Jun Ho;Song, Byung Cheol
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.06a
    • /
    • pp.35-37
    • /
    • 2019
  • 최근 딥 러닝의 급격한 발전과 함께 얼굴표정인식 기술이 상당한 진보를 이루었다. 그러나 기존 얼굴표정인식 기법들은 제한된 환경에서 취득한 인위적인 동영상에 대해 주로 개발되었기 때문에 실제 wild 한 환경에서 취득한 동영상에 대해 강인하게 동작하지 않을 수 있다. 이런 문제를 해결하기 위해 3D CNN, 2D CNN 그리고 RNN 의 새로운 결합으로 이루어진 Deep neural network 구조를 제안한다. 제안 네트워크는 주어진 동영상으로부터 두 가지 서로 다른 CNN 을 통해서 영상 내 공간적 정보뿐만 아니라 시간적 정보를 담고 있는 특징 벡터를 추출할 수 있다. 그 다음, RNN 이 시간 도메인 학습을 수행할 뿐만 아니라 상기 네트워크들에서 추출된 특징 벡터들을 융합한다. 상기 기술들이 유기적으로 연동하는 제안된 네트워크는 대표적인 wild 한 공인 데이터세트인 AFEW 로 실험한 결과 49.6%의 정확도로 종래 기법 대비 향상된 성능을 보인다.

  • PDF

Design for Mood-Matched Music Based on Deep Learning Emotion Recognition (딥러닝 감정 인식 기반 배경음악 매칭 설계)

  • Chung, Moonsik;Moon, Nammee
    • Annual Conference of KIPS
    • /
    • 2021.11a
    • /
    • pp.834-836
    • /
    • 2021
  • 멀티모달 감정인식을 통해 사람의 감정을 정확하게 분류하고, 사람의 감정에 어울리는 음악을 매칭하는 시스템을 설계한다. 멀티모달 감정 인식 방법으로는 IEMOCAP(Interactive Emotional Dyadic Motion Capture) 데이터셋을 활용해 감정을 분류하고, 분류된 감정의 분위기에 맞는 음악을 매칭시키는 시스템을 구축하고자 한다. 유니모달 대비 멀티모달 감정인식의 정확도를 개선한 시스템을 통해 텍스트, 음성, 표정을 포함하고 있는 동영상의 감성 분위기에 적합한 음악 매칭 시스템을 연구한다.

Exploration of the Emotion for Daily Conversation on Facebook (페이스북 일상담화의 감정 탐색)

  • Hwang, Yoosun
    • The Journal of the Korea Contents Association
    • /
    • v.16 no.2
    • /
    • pp.1-13
    • /
    • 2016
  • The purpose of this study is to explore the emotions of Facebook. Various types of emotions are being exchanged on Facebook. The emotional reactions make the Facebook different from previous electronic bulletin board. According to previous researches, computer-mediated communication can deliver visual symbols and non-verbal cues to enhance the abundance of meanings. Data were collected from 205 Facebook users and the number of users' posts were total 10308. The contents analysis was conducted to explore emotions of the 10308 Facebook posts. The results showed that the most frequent emotion was pleasure. The emotional distributions were different according to the contents types; text, video, photo, and link. For the text content type, emotion of curiosity was apparent and for the photo content type, emotion of love was more frequent than others, and for the video content type, emotion of surprise was salient. The results of the analysis for the shared contents also revealed that pleasure and hope were more frequent emotions than other emotions.

Development of Emotional Messenger for IPTV (IPTV를 위한 감성 메신저의 개발)

  • Sung, Min-Young;Paek, Seon-Uck;Ahn, Seong-Hye;Lee, Jun-Ha
    • The Journal of the Korea Contents Association
    • /
    • v.10 no.12
    • /
    • pp.51-58
    • /
    • 2010
  • In the environment of instant messengers, the recognition of human emotions and its automated representation with personalized 3D character animations facilitate the use of affectivity in the machine-based communication, which will contribute to enhanced communication. This paper describes an emotional messenger system developed for the automated recognition and expression of emotions for IPTVs (Internet Protocol televisions). Aiming for efficient delivery of users' emotions, we propose emotion estimation that assesses the affective contents of given textual messages, character animation that supports both 3D rendering and video playback, and smart phone-based input method. Demonstration and experiments validate the usefulness and performance of the proposed system.

SVM Based Facial Expression Recognition for Expression Control of an Avatar in Real Time (실시간 아바타 표정 제어를 위한 SVM 기반 실시간 얼굴표정 인식)

  • Shin, Ki-Han;Chun, Jun-Chul;Min, Kyong-Pil
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.1057-1062
    • /
    • 2007
  • 얼굴표정 인식은 심리학 연구, 얼굴 애니메이션 합성, 로봇공학, HCI(Human Computer Interaction) 등 다양한 분야에서 중요성이 증가하고 있다. 얼굴표정은 사람의 감정 표현, 관심의 정도와 같은 사회적 상호작용에 있어서 중요한 정보를 제공한다. 얼굴표정 인식은 크게 정지영상을 이용한 방법과 동영상을 이용한 방법으로 나눌 수 있다. 정지영상을 이용할 경우에는 처리량이 적어 속도가 빠르다는 장점이 있지만 얼굴의 변화가 클 경우 매칭, 정합에 의한 인식이 어렵다는 단점이 있다. 동영상을 이용한 얼굴표정 인식 방법은 신경망, Optical Flow, HMM(Hidden Markov Models) 등의 방법을 이용하여 사용자의 표정 변화를 연속적으로 처리할 수 있어 실시간으로 컴퓨터와의 상호작용에 유용하다. 그러나 정지영상에 비해 처리량이 많고 학습이나 데이터베이스 구축을 위한 많은 데이터가 필요하다는 단점이 있다. 본 논문에서 제안하는 실시간 얼굴표정 인식 시스템은 얼굴영역 검출, 얼굴 특징 검출, 얼굴표정 분류, 아바타 제어의 네 가지 과정으로 구성된다. 웹캠을 통하여 입력된 얼굴영상에 대하여 정확한 얼굴영역을 검출하기 위하여 히스토그램 평활화와 참조 화이트(Reference White) 기법을 적용, HT 컬러모델과 PCA(Principle Component Analysis) 변환을 이용하여 얼굴영역을 검출한다. 검출된 얼굴영역에서 얼굴의 기하학적 정보를 이용하여 얼굴의 특징요소의 후보영역을 결정하고 각 특징점들에 대한 템플릿 매칭과 에지를 검출하여 얼굴표정 인식에 필요한 특징을 추출한다. 각각의 검출된 특징점들에 대하여 Optical Flow알고리즘을 적용한 움직임 정보로부터 특징 벡터를 획득한다. 이렇게 획득한 특징 벡터를 SVM(Support Vector Machine)을 이용하여 얼굴표정을 분류하였으며 추출된 얼굴의 특징에 의하여 인식된 얼굴표정을 아바타로 표현하였다.

  • PDF

Video Content Editing System for Senior Video Creator based on Video Analysis Techniques (영상분석 기술을 활용한 시니어용 동영상 편집 시스템)

  • Jang, Dalwon;Lee, Jaewon;Lee, JongSeol
    • Journal of Broadcast Engineering
    • /
    • v.27 no.4
    • /
    • pp.499-510
    • /
    • 2022
  • This paper introduces a video editing system for senior creator who is not familiar to video editing. Based on video analysis techniques, it provide various information and delete unwanted shot. The system detects shot boundaries based on RNN(Recurrent Neural Network), and it determines the deletion of video shots. The shots can be deleted using shot-level significance, which is computed by detecting focused area. It is possible to delete unfocused shots or motion-blurred shots using the significance. The system detects object and face, and extract the information of emotion, age, and gender from face image. Users can create video contents using the information. Decorating tools are also prepared, and in the tools, the preferred design, which is determined from user history, places in the front of the design element list. With the video editing system, senior creators can make their own video contents easily and quickly.