• Title/Summary/Keyword: multi-modal

Search Result 629, Processing Time 0.031 seconds

Improving Transformer with Dynamic Convolution and Shortcut for Video-Text Retrieval

  • Liu, Zhi;Cai, Jincen;Zhang, Mengmeng
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • v.16 no.7
    • /
    • pp.2407-2424
    • /
    • 2022
  • Recently, Transformer has made great progress in video retrieval tasks due to its high representation capability. For the structure of a Transformer, the cascaded self-attention modules are capable of capturing long-distance feature dependencies. However, the local feature details are likely to have deteriorated. In addition, increasing the depth of the structure is likely to produce learning bias in the learned features. In this paper, an improved Transformer structure named TransDCS (Transformer with Dynamic Convolution and Shortcut) is proposed. A Multi-head Conv-Self-Attention module is introduced to model the local dependencies and improve the efficiency of local features extraction. Meanwhile, the augmented shortcuts module based on a dual identity matrix is applied to enhance the conduction of input features, and mitigate the learning bias. The proposed model is tested on MSRVTT, LSMDC and Activity-Net benchmarks, and it surpasses all previous solutions for the video-text retrieval task. For example, on the LSMDC benchmark, a gain of about 2.3% MdR and 6.1% MnR is obtained over recently proposed multimodal-based methods.

Driving School Attendance Management System based on Multi-modal Biometrics (다중 바이오인식 기반 운전면허학원 근태관리 시스템)

  • Kim, Yong-Joong;Park, Sung-Ho;Choi, Woo-Joon;Seo, Dae-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.506-509
    • /
    • 2010
  • 본 논문에서는 지문과 얼굴정보를 이용한 다중 바이오인식 기술(Multi-modal Biometric Technology)을 이용한 운전면허학원 근태관리 시스템 구현에 대해 논한다. 지문인식은 Neurotechnology사의 Free Fingerprint Verification SDK를 사용하였으며, 얼굴인식은 얼굴검출 단계에 Adaboost, 특징추출 단계에 Gabor Wavelet Transform을 이용하였다. 마지막 단계인 인식단계는 두 특징벡터 간의 유클리디언 거리를 이용한다. 두 바이오정보를 통한 인증(Verification)의 결정여부는 AND규칙을 이용하여 두 가지의 바이오정보 인증과정을 모두 통과하여야만 최종 인증확인이 되도록 구현하였다. 성능테스트는 10명의 적은 테스트 집합을 이용하였으며 지문과 얼굴정보를 각각 이용하였을 때보다 두 정보를 결합하였을 때 더 나은 인식률을 보였다.

Fusion-in-Decoder for Open Domain Multi-Modal Question Answering (FiD를 이용한 멀티 모달 오픈 도메인 질의 응답)

  • Eunhwan Park;Sung-Min Lee;Daeryong Seo;Donghyeon Jeon;Inho Kang;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.95-99
    • /
    • 2022
  • 오픈 도메인 질의 응답 (ODQA, Open-Domain Question Answering)은 주어진 질문에 대한 답을 찾는 과업으로서 질문과 관련있는 지식을 찾는 "검색" 단계를 필요로 한다. 최근 이미지, 테이블 등의 검색을 요구하는 멀티 모달 ODQA에 대한 연구가 많이 진행되었을 뿐만 아니라 산업에서의 중요도 또한 높아지고 있다. 본 논문은 여러 종류의 멀티 모달 ODQA 중에서도 테이블 - 텍스트 기반 멀티 모달 ODQA 데이터 집합으로 Fusion-in-Decoder (FiD)를 이용한 멀티 모달 오픈 도메인 질의 응답 연구를 제안하며 베이스라인 대비 최대 EM 20.5, F1 23.2 향상을 보였다.

  • PDF

MMA: Multi-modal Message Aggregation for Korean VQA (MMA: 한국어 시각적 질의응답을 위한 멀티 모달 메시지 통합)

  • Park, Sungjin;Park, Chanjun;Seo, Jaehyung;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.468-472
    • /
    • 2020
  • 시각적 질의응답(Visual Question Answering, VQA)은 주어진 이미지에 연관된 다양한 질문에 대한 올바른 답변을 예측하는 기술이다. 해당 기술은 컴퓨터 비전-자연어 처리 연구분야에서 활발히 연구가 진행되고 있으며, 질문의 의도를 정확히 파악하고, 주어진 이미지에서 관련 단서 정보를 찾는 것이 중요하다. 또한, 서로 이질적인 특성을 지닌 정보(이미지 객체, 객체 위치, 질문)를 통합하는 과정도 중요하다. 본 논문은 질문의 의도에 알맞은 정보를 효율적으로 사용하기 위해 멀티 모달 입력 이미지 객체, 객체 위치, 질문)에 대한 Multi-modal Message Aggregation (MMA) 제안하며 이를 통해 한국어 시각적 질의응답 KVQA에서 다른 모델보다 더 좋은 성능을 확인하였다.

  • PDF

Experimental validation of dynamic based damage locating indices in RC structures

  • Fayyadh, Moatasem M.;Razak, Hashim Abdul
    • Structural Engineering and Mechanics
    • /
    • v.84 no.2
    • /
    • pp.181-206
    • /
    • 2022
  • This paper presents experimental modal analysis and static load testing results to validate the accuracy of dynamic parameters-based damage locating indices in RC structures. The study investigates the accuracy of different dynamic-based damage locating indices compared to observed crack patterns from static load tests and how different damage levels and scenarios impact them. The damage locating indices based on mode shape curvature and mode shape fourth derivate in their original forms were found to show anomalies along the beam length and at the supports. The modified forms of these indices show higher sensitivity in locating single and multi-cracks at different damage scenarios. The proposed stiffness reduction index shows good sensitivity in detecting single and multi-cracks. The proposed anomalies elimination procedure helps to remove the anomalies along the beam length. Also, the adoption of the proposed weighting method averaging procedure and normalization procedure help to draw the overall crack pattern based on the adopted set of modes.

Development of a Depression Prevention Platform using Multi-modal Emotion Recognition AI Technology (멀티모달 감정 인식 AI 기술을 이용한 우울증 예방 플랫폼 구축)

  • HyunBeen Jang;UiHyun Cho;SuYeon Kwon;Sun Min Lim;Selin Cho;JeongEun Nah
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.916-917
    • /
    • 2023
  • 본 연구는 사용자의 음성 패턴 분석과 텍스트 분류를 중심으로 이루어지는 한국어 감정 인식 작업을 개선하기 위해 Macaron Net 텍스트 모델의 결과와 MFCC 음성 모델의 결과 가중치 합을 분류하여 최종 감정을 판단하는 기존 82.9%였던 정확도를 텍스트 모델 기준 87.0%, Multi-Modal 모델 기준 88.0%로 개선한 모델을 제안한다. 해당 모델을 우울증 예방 플랫폼의 핵심 모델에 탑재하여 covid-19 팬데믹 이후 사회의 문제점으로 부상한 우울증 문제 해소에 기여 하고자 한다.