• 제목/요약/키워드: 동영상 감정 인식

검색결과 13건 처리시간 0.022초

실시간 동영상 스트리밍 환경에서 오디오 및 영상기반 감정인식 프레임워크 (Audio and Image based Emotion Recognition Framework on Real-time Video Streaming)

  • 방재훈;임호준;이승룡
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.1108-1111
    • /
    • 2017
  • 최근 감정인식 기술은 다양한 IoT 센서 디바이스의 등장으로 단일 소스기반의 감정인식 기술 연구에서 멀티모달 센서기반 감정인식 연구로 변화하고 있으며, 특히 오디오와 영상을 이용한 감정인식 기술의 연구가 활발하게 진행되는 있다. 기존의 오디오 및 영상기반 감정신 연구는 두 개의 센서 테이터를 동시에 입력 저장한 오픈 데이터베이스를 활용하여 다른 이벤트 처리 없이 각각의 데이터에서 특징을 추출하고 하나의 분류기를 통해 감정을 인식한다. 이러한 기법은 사람이 말하지 않는 구간, 얼굴이 보이지 않는 구간의 이벤트 정보처리에 대한 대처가 떨어지고 두 개의 정보를 종합하여 하나의 감정도 도출하는 디시전 레벨의 퓨저닝 연구가 부족하다. 본 논문에서는 이러한 문제를 해결하기 위해 오디오 및 영상에 내포되어 있는 이벤트 정보를 추출하고 오디오 및 영상 기반의 분리된 인지모듈을 통해 감정들을 인식하며, 도출된 감정들을 시간단위로 통합하여 디시전 퓨전하는 실시간 오디오 및 영상기반의 감정인식 프레임워크를 제안한다.

정지영상과 동영상의 융합모델에 의한 얼굴 감정인식 (Face Emotion Recognition by Fusion Model based on Static and Dynamic Image)

  • 이대종;이경아;고현주;전명근
    • 한국지능시스템학회논문지
    • /
    • 제15권5호
    • /
    • pp.573-580
    • /
    • 2005
  • 본 논문에서는 인간과 컴퓨터의 인터페이스를 좀더 자연스럽고 쉬운 형태의 능동적인 휴먼 인터페이스로 구현하기 위해 정지영상 및 동영상에서의 감정인식기법을 제안하고자 한다. 제안된 얼굴의 감정인식 기법은 Hidden Markov Model(HMM), 주성분분석기법(PCA)와 웨이블렛 변환을 기반으로 구성하였다. 얼굴의 감정인식을 위하여 심리학자인 Ekman과 Friesen의 연구에 의해 문화에 영향을 받지 않고 공통으로 인식하는 6개의 기본 감정인 기쁨, 슬픔, 화남, 놀람, 공포, 혐오를 바탕으로 실험하였다. 감정인식에서 입력영상은 이산 웨이블렛을 기반으로 한 다해상도 분석기법을 사용하여 데이터 수를 압축한 후, 각각의 영상에서 PCA 특징벡터를 추출한 후 이를 사용하여 HMM의 모델을 생성한다. 인식단계에서는 정지영상에서의 인식값과 동영상에서의 인식값을 정규화 과정을 통하여 상호보완 함으로써 인식률을 높일 수 있었다.

사전학습 모델 기반 발화 동영상 멀티 모달 감정 인식 (Multi-Modal Emotion Recognition in Videos Based on Pre-Trained Models)

  • 김은희;신주현
    • 스마트미디어저널
    • /
    • 제13권10호
    • /
    • pp.19-27
    • /
    • 2024
  • 최근 비대면 상담의 수요가 급증하면서, 텍스트뿐만 아니라 음성, 얼굴 표정 등 다양한 모달리티를 결합한 감정 인식 기술의 필요성이 강조되고 있다. 본 논문에서는 FER-2013, CK+, AFEW와 같은 기존 데이터셋의 외국인 중심, 감정 라벨 불균형 등의 문제를 해결하기 위해 한국어 동영상 데이터를 활용하고, 텍스트 모달리티를 기반으로 이미지 모달리티의 장점을 결합하여 동영상에서 멀티모달 감정 인식의 성능을 향상시키는 방법을 제안하고자 한다. 적은 데이터 학습 데이터로 인한 한계를 극복하기 위해 사전학습 모델을 활용하였는데, 텍스트는 GPT-4 기반의 LLM 모델을 적용하고, 얼굴 표정 이미지는 VGG-19 아키텍처 기반의 사전학습 모델을 파인튜닝하여 적용하였다. 사전 학습을 활용하여 추출된 각 모달리티별 감정 결과를 결합하여 대표 감정을 추출하는 방법은 텍스트에서 추출한 감정 정보와 동영상에서의 얼굴 표정 변화를 결합하는 방법으로 텍스트와 이미지 간 감정 불일치 상황에서 임곗값을 적용하여 텍스트 기반 감정을 신뢰할 수 있을 때 우선 선택하는 전략과 프레임별 감정 분포 정보를 활용하여 대표 감정을 조정하는 전략을 적용하여 기존 프레임별 감정 평균값을 사용하는 방법에 비해 F1-Score를 기준으로 19%의 성능을 향상시킬 수 있었다.

미디어 형식과 위험 메시지 구성이 감정적 위험인식과 행위의도에 미치는 영향 (The effect of media modality and the valence of risk messages on affective risk perception and behavioral intention)

  • 이재신
    • 인지과학
    • /
    • 제23권4호
    • /
    • pp.457-485
    • /
    • 2012
  • 본 연구에서는 미디어 형식과 위험 메시지 구성에 따라 방사선 조사식품에 대한 즉각적이고 감정적인 반응과 숙고적 행동의도가 어떻게 형성되는가를 살펴보고자 했다. 이를 위해 $3{\times}2$ 피험자간 실험을 통해 방사선 조사식품과 관련된 문자, 음성, 동영상 형태의 정보를 긍정 혹은 부정적으로 서술하여 피험자에게 제공했다. 이후 암묵적 측정법의 일환인 수정된 EAST 방법을 이용하여 피험자의 감정적 위험인식을 측정하고 설문을 이용해 방사선 조사식품의 구매의도를 측정했다. 연구결과는 전반적으로 미디어 형식과 메시지 구성이 피험자의 감정적 위험인식과 구매의도에 유의미한 영향을 주는 것으로 나타났다. 특히 미디어 형식의 효과는 메시지 구성간의 상호작용 효과가 유의미하였다. 즉 문자와 동영상 정보의 경우 긍정적 메시지가 위험인식을 낮추고 구매의도를 높이지만 부정적 메시지는 반대의 결과를 보였다. 그러나 음성 조건에서는 긍정적 정보와 부정적 정보가 감정적 위험인식과 구매의도에 차별적인 영향을 주지 못했다. 이러한 결과는 같은 정보라도 어떠한 미디어를 통해 전달되는가에 따라 위험인식이 다르게 형성될 수 있으며 이 때 메시지의 내용구성에 따라 미디어 형식의 효과는 다르게 나타날 수 있다는 것을 시사한다.

  • PDF

동영상 기반 감정인식을 위한 DNN 구조 (Deep Neural Network Architecture for Video - based Facial Expression Recognition)

  • 이민규;최준호;송병철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 하계학술대회
    • /
    • pp.35-37
    • /
    • 2019
  • 최근 딥 러닝의 급격한 발전과 함께 얼굴표정인식 기술이 상당한 진보를 이루었다. 그러나 기존 얼굴표정인식 기법들은 제한된 환경에서 취득한 인위적인 동영상에 대해 주로 개발되었기 때문에 실제 wild 한 환경에서 취득한 동영상에 대해 강인하게 동작하지 않을 수 있다. 이런 문제를 해결하기 위해 3D CNN, 2D CNN 그리고 RNN 의 새로운 결합으로 이루어진 Deep neural network 구조를 제안한다. 제안 네트워크는 주어진 동영상으로부터 두 가지 서로 다른 CNN 을 통해서 영상 내 공간적 정보뿐만 아니라 시간적 정보를 담고 있는 특징 벡터를 추출할 수 있다. 그 다음, RNN 이 시간 도메인 학습을 수행할 뿐만 아니라 상기 네트워크들에서 추출된 특징 벡터들을 융합한다. 상기 기술들이 유기적으로 연동하는 제안된 네트워크는 대표적인 wild 한 공인 데이터세트인 AFEW 로 실험한 결과 49.6%의 정확도로 종래 기법 대비 향상된 성능을 보인다.

  • PDF

딥러닝 감정 인식 기반 배경음악 매칭 설계 (Design for Mood-Matched Music Based on Deep Learning Emotion Recognition)

  • 정문식;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.834-836
    • /
    • 2021
  • 멀티모달 감정인식을 통해 사람의 감정을 정확하게 분류하고, 사람의 감정에 어울리는 음악을 매칭하는 시스템을 설계한다. 멀티모달 감정 인식 방법으로는 IEMOCAP(Interactive Emotional Dyadic Motion Capture) 데이터셋을 활용해 감정을 분류하고, 분류된 감정의 분위기에 맞는 음악을 매칭시키는 시스템을 구축하고자 한다. 유니모달 대비 멀티모달 감정인식의 정확도를 개선한 시스템을 통해 텍스트, 음성, 표정을 포함하고 있는 동영상의 감성 분위기에 적합한 음악 매칭 시스템을 연구한다.

페이스북 일상담화의 감정 탐색 (Exploration of the Emotion for Daily Conversation on Facebook)

  • 황유선
    • 한국콘텐츠학회논문지
    • /
    • 제16권2호
    • /
    • pp.1-13
    • /
    • 2016
  • 본 연구에서는 페이스북 이용자들이 업로드, 공유하는 게시물 감정의 내용분석을 수행했다. 페이스북은 최근 사회적인 소통 수단으로 유용하게 사용되고 있는 SNS의 한 종류로서 그 이용자수는 전 세계적으로 늘어나고 있는 추세다. 페이스북에서는 다양한 인간적 감정이 교류되고 있으며 사진, 동영상 등의 여러 콘텐츠 유형이 동원된다는 점에서 페이스북은 단순한 전자 게시판과 다르다. 기존의 연구에 의하면 특정한 미디어에 의해 매개되는 컴퓨터 매개 커뮤니케이션(computer-mediated communication)에서도 시각적 심볼 및 각종 비언어적 단서(non-verbal cues)들을 통해 풍부한 의미 전달을 수행한다. 본 연구에서는 페이스북 게시물 감정의 종류를 구체적으로 탐색 했으며 콘텐츠 타입과 감정 간의 관계를 통해 페이스북 이용자들이 각 유형의 콘텐츠를 어떻게 인식하는지도 분석했다. 자료 수집은 페이스북 게시물을 수집하는 소프트웨어를 개발해 사용했다. 페이스북 이용자 205명의 총 10,308개 게시물을 바탕을 내용 분석을 수행했다. 분석 결과 기쁨 감정의 빈도가 가장 높았다. 콘텐츠 타입에 따라서도 감정 분포의 차이가 확인됐다. 텍스트로만 이루어진 상태 콘텐츠에서는 의문의 감정이 부각됐고, 사진 콘텐츠에서는 사랑의 감정이 두드러졌으며 동영상 콘텐츠에서는 놀람 감정이 비교적 빈번했다. 결과를 바탕으로 학문적 및 실무적 함의를 논했다.

IPTV를 위한 감성 메신저의 개발 (Development of Emotional Messenger for IPTV)

  • 성민영;백선욱;안성혜;이준하
    • 한국콘텐츠학회논문지
    • /
    • 제10권12호
    • /
    • pp.51-58
    • /
    • 2010
  • 인스턴트 메신저 기반 통신에서 사용자의 감정을 자동으로 인식하고 이를 개인화된 3D 캐릭터 애니메이션으로 표현한다면 기기를 통한 통신에 더 많은 감성을 부여할 수 있고 궁극적으로 의사소통의 효과를 제고할 수 있다. 본 논문은 IPTV (Internet Protocol Television) 환경에서 자동화된 감정 인식 및 표현을 위해 개발된 감성 메신저 시스템에 대해 기술한다. 효율적인 사용자 감정 전달을 위해 텍스트 기반 감정 추측, 3D 렌더링 및 동영상 재생 방식을 동시 지원하는 캐릭터 애니메이션, 스마트폰을 통한 메시지 입력 등을 제안한다. 개발된 감성 메신저의 효과와 성능은 시연 및 실험을 통해 검증하였다.

실시간 아바타 표정 제어를 위한 SVM 기반 실시간 얼굴표정 인식 (SVM Based Facial Expression Recognition for Expression Control of an Avatar in Real Time)

  • 신기한;전준철;민경필
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.1057-1062
    • /
    • 2007
  • 얼굴표정 인식은 심리학 연구, 얼굴 애니메이션 합성, 로봇공학, HCI(Human Computer Interaction) 등 다양한 분야에서 중요성이 증가하고 있다. 얼굴표정은 사람의 감정 표현, 관심의 정도와 같은 사회적 상호작용에 있어서 중요한 정보를 제공한다. 얼굴표정 인식은 크게 정지영상을 이용한 방법과 동영상을 이용한 방법으로 나눌 수 있다. 정지영상을 이용할 경우에는 처리량이 적어 속도가 빠르다는 장점이 있지만 얼굴의 변화가 클 경우 매칭, 정합에 의한 인식이 어렵다는 단점이 있다. 동영상을 이용한 얼굴표정 인식 방법은 신경망, Optical Flow, HMM(Hidden Markov Models) 등의 방법을 이용하여 사용자의 표정 변화를 연속적으로 처리할 수 있어 실시간으로 컴퓨터와의 상호작용에 유용하다. 그러나 정지영상에 비해 처리량이 많고 학습이나 데이터베이스 구축을 위한 많은 데이터가 필요하다는 단점이 있다. 본 논문에서 제안하는 실시간 얼굴표정 인식 시스템은 얼굴영역 검출, 얼굴 특징 검출, 얼굴표정 분류, 아바타 제어의 네 가지 과정으로 구성된다. 웹캠을 통하여 입력된 얼굴영상에 대하여 정확한 얼굴영역을 검출하기 위하여 히스토그램 평활화와 참조 화이트(Reference White) 기법을 적용, HT 컬러모델과 PCA(Principle Component Analysis) 변환을 이용하여 얼굴영역을 검출한다. 검출된 얼굴영역에서 얼굴의 기하학적 정보를 이용하여 얼굴의 특징요소의 후보영역을 결정하고 각 특징점들에 대한 템플릿 매칭과 에지를 검출하여 얼굴표정 인식에 필요한 특징을 추출한다. 각각의 검출된 특징점들에 대하여 Optical Flow알고리즘을 적용한 움직임 정보로부터 특징 벡터를 획득한다. 이렇게 획득한 특징 벡터를 SVM(Support Vector Machine)을 이용하여 얼굴표정을 분류하였으며 추출된 얼굴의 특징에 의하여 인식된 얼굴표정을 아바타로 표현하였다.

  • PDF

영상분석 기술을 활용한 시니어용 동영상 편집 시스템 (Video Content Editing System for Senior Video Creator based on Video Analysis Techniques)

  • 장달원;이재원;이종설
    • 방송공학회논문지
    • /
    • 제27권4호
    • /
    • pp.499-510
    • /
    • 2022
  • 본 논문에서는 영상 편집이 익숙하지 않은 시니어 동영상 크리에이터를 위한 동영상 편집 시스템을 설명한다. 영상분석 기술을 이용하여 편집소스 동영상을 분석하여 각종 정보를 제공하고, 자동으로 일부 장면을 삭제한다. 사용자가 다수의 소스 콘텐츠를 입력하였을 때, RNN(Recurrent Neural Network) 기술을 기반으로 샷 단위로 분할하고, 이 중 동영상 편집에서 배제할 부분을 구분한다. 각 샷 별로 중요도를 계산하여 샷 단위로 자동 삭제가 가능하도록 한다. 중요도 계산을 위해서 동영상 초점 정보를 추출하여 활용하는데, 이는 초점이 맞지 않는 영상 또는 흔들린 영상을 배제할 수 있도록 한다. 이후 시스템은 객체 인식을 수행하고, 얼굴이 나온 영상에 대해서 감정, 나이, 성별 등의 정보를 추출하여 사용자에게 제공한다. 사용자는 이런 정보를 활용하여 동영상을 제작한다. 동영상에 자막을 삽입하는 등 동영상을 꾸미기 위한 기능들도 포함되어 있으며, 이런 기능들을 활용할 시, 사용자의 과거 정보를 이용해서 선호 디자인을 쉽게 찾을 수 있도록 앞서 배치하고 있다. 시니어 동영상 크리에이터들이 본 시스템을 통해서 쉽고 빠르게 동영상 콘텐츠를 제작할 수 있다.