• 제목/요약/키워드: Multimodal Learning

검색결과 75건 처리시간 0.029초

음성-영상 특징 추출 멀티모달 모델을 이용한 감정 인식 모델 개발 (Development of Emotion Recognition Model Using Audio-video Feature Extraction Multimodal Model)

  • 김종구;권장우
    • 융합신호처리학회논문지
    • /
    • 제24권4호
    • /
    • pp.221-228
    • /
    • 2023
  • 감정으로 인해 생기는 신체적 정신적인 변화는 운전이나 학습 행동 등 다양한 행동에 영향을 미칠 수 있다. 따라서 이러한 감정을 인식하는 것은 운전 중 위험한 감정 인식 및 제어 등 다양한 산업에서 이용될 수 있기 때문에 매우 중요한 과업이다. 본 논문에는 서로 도메인이 다른 음성과 영상 데이터를 모두 이용하여 감정을 인식하는 멀티모달 모델을 구현하여 감정 인식 연구를 진행했다. 본 연구에서는 RAVDESS 데이터를 이용하여 영상 데이터에 음성을 추출한 뒤 2D-CNN을 이용한 모델을 통해 음성 데이터 특징을 추출하였으며 영상 데이터는 Slowfast feature extractor를 통해 영상 데이터 특징을 추출하였다. 감정 인식을 위한 제안된 멀티모달 모델에서 음성 데이터와 영상 데이터의 특징 벡터를 통합하여 감정 인식을 시도하였다. 또한 멀티모달 모델을 구현할 때 많이 쓰인 방법론인 각 모델의 결과 스코어를 합치는 방법, 투표하는 방법을 이용하여 멀티모달 모델을 구현하고 본 논문에서 제안하는 방법과 비교하여 각 모델의 성능을 확인하였다.

Audio and Video Bimodal Emotion Recognition in Social Networks Based on Improved AlexNet Network and Attention Mechanism

  • Liu, Min;Tang, Jun
    • Journal of Information Processing Systems
    • /
    • 제17권4호
    • /
    • pp.754-771
    • /
    • 2021
  • In the task of continuous dimension emotion recognition, the parts that highlight the emotional expression are not the same in each mode, and the influences of different modes on the emotional state is also different. Therefore, this paper studies the fusion of the two most important modes in emotional recognition (voice and visual expression), and proposes a two-mode dual-modal emotion recognition method combined with the attention mechanism of the improved AlexNet network. After a simple preprocessing of the audio signal and the video signal, respectively, the first step is to use the prior knowledge to realize the extraction of audio characteristics. Then, facial expression features are extracted by the improved AlexNet network. Finally, the multimodal attention mechanism is used to fuse facial expression features and audio features, and the improved loss function is used to optimize the modal missing problem, so as to improve the robustness of the model and the performance of emotion recognition. The experimental results show that the concordance coefficient of the proposed model in the two dimensions of arousal and valence (concordance correlation coefficient) were 0.729 and 0.718, respectively, which are superior to several comparative algorithms.

신경교종 등급 분류를 위한 심층신경망 기반 멀티모달 MRI 영상 분석 모델 (Multimodal MRI analysis model based on deep neural network for glioma grading classification)

  • 김종훈;박현진
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.425-427
    • /
    • 2022
  • 신경교종의 등급은 생존과 관련된 중요한 정보로 종양 진행을 평가하고 치료 계획을 세우기 위해 치료 전 신경교종의 등급을 분류하는 것이 중요하다. 신경교종 등급의 분류는 주로 고등급 신경교종과 저등급 신경교종으로 나누는 방식을 주로 사용한다. 본 연구에서는 심층신경망 모델을 활용하여 촬영된 MRI 영상을 분석하기 위해 이미지 전처리 기법을 적용하고 심층신경망 모델의 분류 성능을 평가한다. 가장 높은 성능의 EfficientNet-B6 모델은 5-fold 교차 검증에서 정확도 0.9046, 민감도 0.9570, 특이도 0.7976, AUC 0.8702, F1-Score 0.8152의 결과값을 보여준다.

  • PDF

ICT 인프라 이상탐지를 위한 조건부 멀티모달 오토인코더에 관한 연구 (A Study of Anomaly Detection for ICT Infrastructure using Conditional Multimodal Autoencoder)

  • 신병진;이종훈;한상진;박충식
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.57-73
    • /
    • 2021
  • ICT 인프라의 이상탐지를 통한 유지보수와 장애 예방이 중요해지고 있다. 장애 예방을 위해서 이상탐지에 대한 관심이 높아지고 있으며, 지금까지의 다양한 이상탐지 기법 중 최근 연구들에서는 딥러닝을 활용하고 있으며 오토인코더를 활용한 모델을 제안하고 있다. 이는 오토인코더가 다차원 다변량에 대해서도 효과적으로 처리가 가능하다는 것이다. 한편 학습 시에는 많은 컴퓨터 자원이 소모되지만 추론과정에서는 연산을 빠르게 수행할 수 있어 실시간 스트리밍 서비스가 가능하다. 본 연구에서는 기존 연구들과 달리 오토인코더에 2가지 요소를 가미하여 이상탐지의 성능을 높이고자 하였다. 먼저 다차원 데이터가 가지고 있는 속성별 특징을 최대한 부각하여 활용하기 위해 멀티모달 개념을 적용한 멀티모달 오토인코더를 적용하였다. CPU, Memory, network 등 서로 연관이 있는 지표들을 묶어 5개의 모달로 구성하여 학습 성능을 높이고자 하였다. 또한, 시계열 데이터의 특징을 데이터의 차원을 늘리지 않고 효과적으로 학습하기 위하여 조건부 오토인코더(conditional autoencoder) 구조를 활용하는 조건부 멀티모달 오토인코더(Conditional Multimodal Autoencoder, CMAE)를 제안하였다. 제안한 CAME 모델은 비교 실험을 통해 검증했으며, 기존 연구들에서 많이 활용된 오토인코더와 비교하여 AUC, Accuracy, Precision, Recall, F1-score의 성능 평가를 진행한 결과 유니모달 오토인코더(UAE)와 멀티모달 오토인코더(Multimodal Autoencoder, MAE)의 성능을 상회하는 결과를 얻어 이상탐지에 있어 효과적이라는 것을 확인하였다.

뇌 종양 등급 분류를 위한 심층 멀티모달 MRI 통합 모델 (Deep Multimodal MRI Fusion Model for Brain Tumor Grading)

  • 나인예;박현진
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.416-418
    • /
    • 2022
  • 신경교종(glioma)은 신경교세포에서 발생하는 뇌 종양으로 low grade glioma와 예후가 나쁜 high grade glioma로 분류된다. 자기공명영상(magnetic Resonance Imaging, MRI)은 비침습적 수단으로 이를 이용한 신경교종 진단에 대한 연구가 활발히 진행되고 있다. 또한, 단일 modality의 정보 한계를 극복하기 위해 다중 modality를 조합하여 상호 보완적인 정보를 얻는 연구도 진행되고 있다. 본 논문은 네가지 modality(T1, T1Gd, T2, T2-FLAIR)의 MRI 영상에 입력단 fusion을 적용한 3D CNN 기반의 모델을 제안한다. 학습된 모델은 검증 데이터에 대해 정확도 0.8926, 민감도 0.9688, 특이도 0.6400, AUC 0.9467의 분류 성능을 보였다. 이를 통해 여러 modality 간의 상호관계를 학습하여 신경교종의 등급을 효과적으로 분류함을 확인하였다.

  • PDF

주얼리 비즈니스를 위한 협업형 AI의 분석 연구 (An Analysis Study on Collaborative AI for the Jewelry Business)

  • 강혜림
    • 문화기술의 융합
    • /
    • 제10권4호
    • /
    • pp.305-310
    • /
    • 2024
  • 생성형 AI의 등장으로 AI는 인류와 본격적인 공존을 시작하였다. 방대한 데이터 기반의 AI 학습역량은 인간의 학습과는 다른 차원의 생산성으로 산업체에서 활용되고 있다. 그럼에도 불구하고 AI는 테크노포비아와 같은 어두운 이면의 사회적 현상도 보인다. AI에 대한 이해를 바탕으로 협업이 가능한 AI 모델을 분석하고 주얼리 산업에서 활용이 가능한 분야를 확인한다. 협업형 AI 모델을 활용하면 '아이디어 전개의 가속화', '디자인 역량의 강화', '생산성 강화' , '멀티모달 기능의 내재화' 등을 기대할 수 있다. 결국 AI는 협업이 가능한 도구적 관점에서 활용해야 하며, 이를 위해서는 주체성 있는 인간 중심의 마인드 셋이 필요하다. 본 연구의 주얼리 비즈니스를 위한 AI 협업방안 제언을 통해 주얼리 산업의 경쟁력 강화에 도움이 되기를 바란다.

Improving Transformer with Dynamic Convolution and Shortcut for Video-Text Retrieval

  • Liu, Zhi;Cai, Jincen;Zhang, Mengmeng
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권7호
    • /
    • pp.2407-2424
    • /
    • 2022
  • Recently, Transformer has made great progress in video retrieval tasks due to its high representation capability. For the structure of a Transformer, the cascaded self-attention modules are capable of capturing long-distance feature dependencies. However, the local feature details are likely to have deteriorated. In addition, increasing the depth of the structure is likely to produce learning bias in the learned features. In this paper, an improved Transformer structure named TransDCS (Transformer with Dynamic Convolution and Shortcut) is proposed. A Multi-head Conv-Self-Attention module is introduced to model the local dependencies and improve the efficiency of local features extraction. Meanwhile, the augmented shortcuts module based on a dual identity matrix is applied to enhance the conduction of input features, and mitigate the learning bias. The proposed model is tested on MSRVTT, LSMDC and Activity-Net benchmarks, and it surpasses all previous solutions for the video-text retrieval task. For example, on the LSMDC benchmark, a gain of about 2.3% MdR and 6.1% MnR is obtained over recently proposed multimodal-based methods.

교육용 로봇과 증강 현실 결합을 통한 인터랙티브 학습 경험 (The Interactive Learning Experience by Integrating Educational Robots into the Augmented Reality)

  • 유정수
    • 정보교육학회논문지
    • /
    • 제16권4호
    • /
    • pp.419-427
    • /
    • 2012
  • 본 논문에서는 학교 교실 수업에 교육용 로봇과 증강 현실 기술을 결합하여 적용하였을 때 증강 현실과 로봇이라는 기술적인 요소가 학습자의 학습 경험에 어떤 영향을 미치는지를 알아보는데 중점을 두었다. 이를 위해 증강현실과 로봇 기술을 결합한 인터랙티브 학습 환경과 수업 모형을 개발하고 교실 수업에 적용하였다. 개발된 학습모형은 기존의 문제중심학습 모형을 기반으로 하였다. 개발된 시스템은 초등학교 5,6학년 18명을 대상으로 정규수업 시간에 8주간 적용하였다. 본 연구를 통해 얻은 결과는 로봇과 증강 현실을 결합한 인터랙티브 학습 경험을 통해서 학생들의 창의성을 높일 수 있음을 알 수 있었다. 연구결과 특이점은 증강현실과 로봇이라는 새로운 기술테크놀로지를 통해 성적이 하위권 학생들이 상위권 학생들보다 창의성 점수가 크게 증가함을 알 수 있었다.

  • PDF

지능형 전시 서비스 구현을 위한 멀티모달 감정 상태 추정 모형 (Multimodal Emotional State Estimation Model for Implementation of Intelligent Exhibition Services)

  • 이기천;최소윤;김재경;안현철
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.1-14
    • /
    • 2014
  • 최근 관람객의 반응에 따라 실시간으로 대응하여 관객의 몰입과 만족도를 증대시키는 인터랙티브 전시 서비스에 대한 학계와 산업계의 관심이 높아지고 있다. 이러한 인터랙티브 전시 서비스를 효과적으로 구현하기 위해서는 관객의 반응을 통해 해당 관객이 느끼는 감정 상태를 추정할 수 있는 지능형 기술의 도입이 요구된다. 인간의 감정 상태를 추정하기 위한 시도들은 많은 연구들에서 이루어져 왔고, 그 중 대부분은 사람의 얼굴 표정이나 소리 반응을 통해 감정 상태를 추정하는 방식을 도입하고 있다. 하지만, 최근 소개되고 있는 연구들에 따르면 단일 반응이 아닌 여러 반응을 종합적으로 고려하는 이른바 멀티 모달(multimodal) 접근을 사용했을 경우, 인간의 감정 상태를 보다 정확하게 추정할 수 있다. 이러한 배경에서 본 연구는 키넥트 센서를 통해 측정되는 관객의 얼굴 표정, 몸짓, 움직임 등을 종합적으로 고려한 새로운 멀티모달 감정 상태 추정 모형을 제안하고 있다. 제안모형의 예측 기법으로는 방대한 양의 데이터를 효과적으로 처리하기 위해, 몬테칼로(Monte Carlo) 방법인 계층화 샘플링(stratified sampling) 방법에 기반한 다중회귀분석을 적용하였다. 제안 모형의 성능을 검증하기 위해, 15명의 피실험자로부터 274개의 독립 및 종속변수들로 구성된 602,599건의 관측 데이터를 수집하여 여기에 제안 모형을 적용해 보았다. 그 결과 10~15% 이내의 평균오차 범위 내에서 피실험자의 쾌/불쾌도(valence) 및 각성도(arousal) 상태를 정확하게 추정할 수 있음을 확인할 수 있었다. 이러한 본 연구의 제안 모형은 비교적 구현이 간단하면서도 안정성이 높아, 향후 지능형 전시 서비스 및 기타 원격학습이나 광고 분야 등에 효과적으로 활용될 수 있을 것으로 기대된다.

Human Action Recognition Using Pyramid Histograms of Oriented Gradients and Collaborative Multi-task Learning

  • Gao, Zan;Zhang, Hua;Liu, An-An;Xue, Yan-Bing;Xu, Guang-Ping
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제8권2호
    • /
    • pp.483-503
    • /
    • 2014
  • In this paper, human action recognition using pyramid histograms of oriented gradients and collaborative multi-task learning is proposed. First, we accumulate global activities and construct motion history image (MHI) for both RGB and depth channels respectively to encode the dynamics of one action in different modalities, and then different action descriptors are extracted from depth and RGB MHI to represent global textual and structural characteristics of these actions. Specially, average value in hierarchical block, GIST and pyramid histograms of oriented gradients descriptors are employed to represent human motion. To demonstrate the superiority of the proposed method, we evaluate them by KNN, SVM with linear and RBF kernels, SRC and CRC models on DHA dataset, the well-known dataset for human action recognition. Large scale experimental results show our descriptors are robust, stable and efficient, and outperform the state-of-the-art methods. In addition, we investigate the performance of our descriptors further by combining these descriptors on DHA dataset, and observe that the performances of combined descriptors are much better than just using only sole descriptor. With multimodal features, we also propose a collaborative multi-task learning method for model learning and inference based on transfer learning theory. The main contributions lie in four aspects: 1) the proposed encoding the scheme can filter the stationary part of human body and reduce noise interference; 2) different kind of features and models are assessed, and the neighbor gradients information and pyramid layers are very helpful for representing these actions; 3) The proposed model can fuse the features from different modalities regardless of the sensor types, the ranges of the value, and the dimensions of different features; 4) The latent common knowledge among different modalities can be discovered by transfer learning to boost the performance.