• 제목/요약/키워드: Multimodal model

검색결과 142건 처리시간 0.031초

적은 양의 음성 및 텍스트 데이터를 활용한 멀티 모달 기반의 효율적인 감정 분류 기법 (Efficient Emotion Classification Method Based on Multimodal Approach Using Limited Speech and Text Data)

  • 신미르;신유현
    • 정보처리학회 논문지
    • /
    • 제13권4호
    • /
    • pp.174-180
    • /
    • 2024
  • 본 논문에서는 wav2vec 2.0과 KcELECTRA 모델을 활용하여 멀티모달 학습을 통한 감정 분류 방법을 탐색한다. 음성 데이터와 텍스트 데이터를 함께 활용하는 멀티모달 학습이 음성만을 활용하는 방법에 비해 감정 분류 성능을 유의미하게 향상시킬 수 있음이 알려져 있다. 본 연구는 자연어 처리 분야에서 우수한 성능을 보인 BERT 및 BERT 파생 모델들을 비교 분석하여 텍스트 데이터의 효과적인 특징 추출을 위한 최적의 모델을 선정하여 텍스트 처리 모델로 활용한다. 그 결과 KcELECTRA 모델이 감정 분류 작업에서 뛰어난 성능이 보임을 확인하였다. 또한, AI-Hub에 공개되어 있는 데이터 세트를 활용한 실험을 통해 텍스트 데이터를 함께 활용하면 음성 데이터만 사용할 때보다 더 적은 양의 데이터로도 더 우수한 성능을 달성할 수 있음을 발견하였다. 실험을 통해 KcELECTRA 모델을 활용한 경우가 정확도 96.57%로 가장 우수한 성능을 보였다. 이는 멀티모달 학습이 감정 분류와 같은 복잡한 자연어 처리 작업에서 의미 있는 성능 개선을 제공할 수 있음을 보여준다.

조명을 위한 인간 자세와 다중 모드 이미지 융합 - 인간의 이상 행동에 대한 강력한 탐지 (Multimodal Image Fusion with Human Pose for Illumination-Robust Detection of Human Abnormal Behaviors)

  • ;공성곤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.637-640
    • /
    • 2023
  • This paper presents multimodal image fusion with human pose for detecting abnormal human behaviors in low illumination conditions. Detecting human behaviors in low illumination conditions is challenging due to its limited visibility of the objects of interest in the scene. Multimodal image fusion simultaneously combines visual information in the visible spectrum and thermal radiation information in the long-wave infrared spectrum. We propose an abnormal event detection scheme based on the multimodal fused image and the human poses using the keypoints to characterize the action of the human body. Our method assumes that human behaviors are well correlated to body keypoints such as shoulders, elbows, wrists, hips. In detail, we extracted the human keypoint coordinates from human targets in multimodal fused videos. The coordinate values are used as inputs to train a multilayer perceptron network to classify human behaviors as normal or abnormal. Our experiment demonstrates a significant result on multimodal imaging dataset. The proposed model can capture the complex distribution pattern for both normal and abnormal behaviors.

정신분열병 환자의 인지적/행동적 특성평가를 위한 가상현실시스템 구현 (A Virtual Reality System for the Cognitive and Behavioral Assessment of Schizophrenia)

  • Lee, Jang-Han;Cho, Won-Geun;Kim, Ho-Sung;Ku, Jung-Hun;Kim, Jae-Hun;Kim, Byoung-Nyun;Kim, Sun-I.
    • 감성과학
    • /
    • 제6권3호
    • /
    • pp.55-62
    • /
    • 2003
  • 정신분열병은 망상이나 환각과 같은 양성증상과 감정적 둔마와 같은 음성증상이 대표적인 사고장애로서 외부입력 정보를 통합하거나 체계적으로 처리하는 능력이 매우 부족하다. 즉, 정신분열병 환자는 시각, 청각, 촉각 등의 자극을 종합하고 통합하여 인지하지 못한다. 본 연구에서는 뇌 인지 통합 모델(Brain Multimodal Integration Model)에 기반하여 정신분열병 환자의 인지 능력을 측정하기 위한 가상현실시스템을 제안한다. 정신분열병 환자의 지각, 인지, 운동능력을 측정하기 위한 가상현실시스템은 환자에게 시각과 청각의 멀티모달 자극을 제시하여, 환자로 하여금 일정시간 동안 자극을 기억하고 처리하여 주어진 과제를 수행하도록 하였다. 수행 결과를 통해 환자의 멀티모달 자극 통합능력 및 작업기억 통합능력, 네비게이션 능력을 평가한다. 임상연구를 통해 개발된 가상현실시스템을 WCST과 같은 기존 검사방법들과 비교하여 검증하였는데, 가상현실로 측정한 파라미터와 WCST의 파라미터 및 SPM 점수 사이에 매우 유의미한 상관관계를 보여 가상현실시스템의 유용성을 확인할 수 있었다.

  • PDF

멀티모달 개념계층모델을 이용한 만화비디오 컨텐츠 학습을 통한 등장인물 기반 비디오 자막 생성 (Character-based Subtitle Generation by Learning of Multimodal Concept Hierarchy from Cartoon Videos)

  • 김경민;하정우;이범진;장병탁
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.451-458
    • /
    • 2015
  • 기존 멀티모달 학습 기법의 대부분은 데이터에 포함된 컨텐츠 모델링을 통한 지식획득보다는 이미지나 비디오 검색 및 태깅 등 구체적 문제 해결에 집중되어 있었다. 본 논문에서는 멀티모달 개념계층모델을 이용하여 만화 비디오로부터 컨텐츠를 학습하는 기법을 제안하고 학습된 모델로부터 등장인물의 특성을 고려한 자막을 생성하는 방법을 제시한다. 멀티모달 개념계층 모델은 개념변수층과 단어와 이미지 패치의 고차 패턴을 표현하는 멀티모달 하이퍼네트워크층으로 구성되며 이러한 모델구조를 통해 각각의 개념변수는 단어와 이미지패치 변수들의 확률분포로 표현된다. 제안하는 모델은 비디오의 자막과 화면 이미지로부터 등장 인물의 특성을 개념으로서 학습하며 이는 순차적 베이지안 학습으로 설명된다. 그리고 학습된 개념을 기반으로 텍스트 질의가 주어질 때 등장인물의 특성을 고려한 비디오 자막을 생성한다. 실험을 위해 총 268분 상영시간의 유아용 비디오 '뽀로로'로부터 등장인물들의 개념이 학습되고 학습된 모델로부터 각각의 등장인물의 특성을 고려한 자막 문장을 생성했으며 이를 기존의 멀티모달 학습모델과 비교했다. 실험결과는 멀티모달 개념계층모델은 다른 모델들에 비해 더 정확한 자막 문장이 생성됨을 보여준다. 또한 동일한 질의어에 대해서도 등장인물의 특성을 반영하는 다양한 문장이 생성됨을 확인하였다.

지속가능 물류를 위한 TP-SD 방법론 기반의 복합운송체계 시뮬레이션 모델 개발 (Development of TP-SD Methodology-based Simulation Models to Improve Multimodal Transport Systems for Sustainable Logistics)

  • 정재운;김현수;최형림;홍순구
    • 한국시스템다이내믹스연구
    • /
    • 제11권2호
    • /
    • pp.45-75
    • /
    • 2010
  • Today, the logistics industry has played a critical role in national economy activities. The low cost and high efficiency of the logistics industry are meaningful in the improvement of national competitiveness and the logistics industry. However, efficiency of logistics is lower than that of the United States and Japan since most quantities are processed in road transportation in Korea. With regard to this, existing studies expected a saving of social and environmental costs due to a decrease of road transportation as well as improvement of logistics productivity due to bulk transportation through activation of rail and costal transport. For the expectation, the existing multimodal transport systems should be improved first. Therefore it aimed to develop scenario-based simulation models of multimodal transport systems for decision makers in charge of improvement in the logistics area. For model development, this study utilized Thinking Process and System Dynamics(TP-SD) methodology.

  • PDF

Dialog-based multi-item recommendation using automatic evaluation

  • Euisok Chung;Hyun Woo Kim;Byunghyun Yoo;Ran Han;Jeongmin Yang;Hwa Jeon Song
    • ETRI Journal
    • /
    • 제46권2호
    • /
    • pp.277-289
    • /
    • 2024
  • In this paper, we describe a neural network-based application that recommends multiple items using dialog context input and simultaneously outputs a response sentence. Further, we describe a multi-item recommendation by specifying it as a set of clothing recommendations. For this, a multimodal fusion approach that can process both cloth-related text and images is required. We also examine achieving the requirements of downstream models using a pretrained language model. Moreover, we propose a gate-based multimodal fusion and multiprompt learning based on a pretrained language model. Specifically, we propose an automatic evaluation technique to solve the one-to-many mapping problem of multi-item recommendations. A fashion-domain multimodal dataset based on Koreans is constructed and tested. Various experimental environment settings are verified using an automatic evaluation method. The results show that our proposed method can be used to obtain confidence scores for multi-item recommendation results, which is different from traditional accuracy evaluation.

Couple Particle Swarm Optimization for Multimodal Functions

  • ;;고창섭
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 춘계학술대회 논문집 전기기기 및 에너지변환시스템부문
    • /
    • pp.44-46
    • /
    • 2008
  • This paper Proposes a new couple particle swarm optimization (CPSO) for multimodal functions. In this method, main particles are generated uniformly using Faure-sequences, and move accordingly to cognition only model. If any main particle detects the movement direction which has local optimum, this particle would create a new particle beside itself and make a couple. After that, all couples move accordingly to conventional particle swarm optimization (PSO) model. If these couples tend toward the same local optimum, only the best couple would be kept and the others would be eliminated. We had applied this method to some analytic multimodal functions and successfully locate all local optima.

  • PDF

멀티모달 맥락정보 융합에 기초한 다중 물체 목표 시각적 탐색 이동 (Multi-Object Goal Visual Navigation Based on Multimodal Context Fusion)

  • 최정현;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권9호
    • /
    • pp.407-418
    • /
    • 2023
  • MultiOn(Multi-Object Goal Visual Navigation)은 에이전트가 미지의 실내 환경 내 임의의 위치에 놓인 다수의 목표 물체들을 미리 정해준 일정한 순서에 따라 찾아가야 하는 매우 어려운 시각적 탐색 이동 작업이다. MultiOn 작업을 위한 기존의 모델들은 행동 선택을 위해 시각적 외관 지도나 목표 지도와 같은 단일 맥락 지도만을 이용할 뿐, 다양한 멀티모달 맥락정보에 관한 종합적인 관점을 활용할 수 없다는 한계성을 가지고 있다. 이와 같은 한계성을 극복하기 위해, 본 논문에서는 MultiOn 작업을 위한 새로운 심층 신경망 기반의 에이전트 모델인 MCFMO(Multimodal Context Fusion for MultiOn tasks)를 제안한다. 제안 모델에서는 입력 영상의 시각적 외관 특징외에 환경 물체의 의미적 특징, 목표 물체 특징도 함께 포함한 멀티모달 맥락 지도를 행동 선택에 이용한다. 또한, 제안 모델은 점-단위 합성곱 신경망 모듈을 이용하여 3가지 서로 이질적인 맥락 특징들을 효과적으로 융합한다. 이 밖에도 제안 모델은 효율적인 이동 정책 학습을 유도하기 위해, 목표 물체의 관측 여부와 방향, 그리고 거리를 예측하는 보조 작업 학습 모듈을 추가로 채용한다. 본 논문에서는 Habitat-Matterport3D 시뮬레이션 환경과 장면 데이터 집합을 이용한 다양한 정량 및 정성 실험들을 통해, 제안 모델의 우수성을 확인하였다.

정신분열병 환자의 인지적/행동적 특성평가를 위한 가상현실시스템 구현 (A Virtual Reality System for the Cognitive and Behavioral Assessment of Schizophrenia)

  • Cho, Won-Geun;Kim, Ho-Sung;Ku, Jung-Hun;Kim, Jae-Hun;Kim, Byoung-Nyun;Lee, Jang-Han;Kim, Sun I.
    • 한국감성과학회:학술대회논문집
    • /
    • 한국감성과학회 2003년도 춘계학술대회 논문집
    • /
    • pp.94-100
    • /
    • 2003
  • Patients with schizophrenia have thinking disorders such as delusion or hallucination, because they have a deficit in the ability which to systematize and integrate information. Therefore, they cannot integrate or systemize visual, auditory and tactile stimuli. In this study we suggest a virtual reality system for the assessment of cognitive ability of schizophrenia patients, based on the brain multimodal integration model. The virtual reality system provides multimodal stimuli, such as visual and auditory stimuli, to the patient, and can evaluate the patient's multimodal integration and working memory integration abilities by making the patient interpret and react to multimodal stimuli, which must be remembered for a given period of time. The clinical study showed that the virtual reality program developed is comparable to those of the WCST and the SPM.

  • PDF

이중스케일분해기와 미세정보 보존모델에 기반한 다중 모드 의료영상 융합연구 (Multimodal Medical Image Fusion Based on Two-Scale Decomposer and Detail Preservation Model)

  • 장영매;이효종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.655-658
    • /
    • 2021
  • The purpose of multimodal medical image fusion (MMIF) is to integrate images of different modes with different details into a result image with rich information, which is convenient for doctors to accurately diagnose and treat the diseased tissues of patients. Encouraged by this purpose, this paper proposes a novel method based on a two-scale decomposer and detail preservation model. The first step is to use the two-scale decomposer to decompose the source image into the energy layers and structure layers, which have the characteristic of detail preservation. And then, structure tensor operator and max-abs are combined to fuse the structure layers. The detail preservation model is proposed for the fusion of the energy layers, which greatly improves the image performance. The fused image is achieved by summing up the two fused sub-images obtained by the above fusion rules. Experiments demonstrate that the proposed method has superior performance compared with the state-of-the-art fusion methods.