• 제목/요약/키워드: 멀티모달 학습

검색결과 77건 처리시간 0.028초

멀티모달 방식을 통한 가스 종류 인식 딥러닝 모델 개발 (Development of Gas Type Identification Deep-learning Model through Multimodal Method)

  • 안서희;김경영;김동주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권12호
    • /
    • pp.525-534
    • /
    • 2023
  • 가스 누출 감지 시스템은 가스의 폭발성과 독성으로 인한 인명 피해를 최소화할 핵심적인 장치이다. 누출 감지 시스템은 대부분 단일 센서를 활용한 방식으로, 가스 센서나 열화상 카메라를 통한 검출 방식으로 진행되고 있다. 이러한 단일 센서 활용의 가스 누출감지 시스템 성능을 고도화하기 위하여, 본 연구에서는 가스 센서와 열화상 이미지 데이터에 멀티모달형 딥러닝을 적용한 연구를 소개한다. 멀티모달 공인 데이터셋인 MultimodalGasData를 통해 기존 논문과의 성능을 비교하였고, 가스 센서와 열화상 카메라의 단일모달 모델을 기반하여 네 가지 멀티모달 모델을 설계 및 학습하였다. 이를 통해 가스 센서와 열화상 카메라는 각각 1D CNN, GasNet 모델이 96.3%와 96.4%의 가장 높은 성능을 보였다. 앞선 두 단일모달 모델을 기반한 Early Fusion 형식의 멀티모달 모델 성능은 99.3%로 가장 높았으며, 또한 기존 논문의 멀티모달 모델 대비 3.3% 높았다. 본 연구의 높은 신뢰성을 갖춘 가스 누출 감지 시스템을 통해 가스 누출로 인한 추가적인 피해가 최소화되길 기대한다.

실감형 교과서를 위한 멀티모달 콘텐츠 저작 및 재생 프레임워크 설계 (Designing a Framework of Multimodal Contents Creation and Playback System for Immersive Textbook)

  • 김석열;박진아
    • 한국콘텐츠학회논문지
    • /
    • 제10권8호
    • /
    • pp.1-10
    • /
    • 2010
  • 가상교육 환경에 있어서 보다 효과적인 지식 전달을 위해서는 시청각적 정보에만 의존하는 기존의 학습 매체에서 탈피하여 상황에 맞는 촉각 피드백이 포함된 '실감형 교과서'의 도입이 필요하다. 그러나 저작 및 재생 환경상의 제약으로 인해 실감형 교과서를 위한 학습 콘텐츠의 확보와 활용은 아직 요원한 실정이다. 우리는 이러한 문제점에 착안하여 실감형 교과서를 위한 접근성 높은 멀티모달 학습 콘텐츠 저작 및 재생 프레임워크를 제안하였다. 본 프레임워크는 직관적인 콘텐츠 저작을 위한 스크립트 포맷과 이를 재생하기 위한 콘텐츠 재생부로 구성되어 있다. 스크립트 규격 정의 단계에서는 학습 콘텐츠에 요구되는 요소들을 규명하고 이를 반영한 XML 기반의 메타언어를 정의하였다. 그리고 콘텐츠 재생부는 작성된 콘텐츠를 해석하고 사용자로부터의 입력에 대응하여 시각 및 촉각 렌더링 루프를 통해 사용자에게 멀티모달피드백을 제공하도록 설계되었다. 이렇게 제안된 내용을 바탕으로 프로토타입을 구현하고 사용자 평가를 수행하여 본 프레임워크의 효용성을 검증하는 한편 앞으로의 개선 방향에 대해 논의하였다.

ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론 (High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training)

  • 성진;한승헌;신종훈;임수종;권오욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF

독감 확산 예측을 위한 멀티모달 학습과 웨어러블 센서 기반의 기침 감지 시스템 설계 (Design of Cough Detection System Based on Mutimodal Learning & Wearable Sensor to Predict the Spread of Influenza)

  • 강재식;백문기;최형탁;이규철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.428-430
    • /
    • 2018
  • 본 논문에서는 독감확산 예측을 위한 웨어러블 센서를 이용한 기침 감지 모델을 제안한다. 서로 상이한 기침 신체데이터를 사용하고 기침 감지 알고리즘의 구현없이 기계가 학습하는 방식인 멀티모달 DNN을 이용하여 설계하였다. 또한 웨어러블 센서를 통해 실생활의 기침 오디오 데이터와 기침 3축 가속도 데이터를 수집하였고, 두 개의 데이터중 하나의 데이터만으로도 감지를 위한 학습이 가능토록하기 위해 각각 MFCC와 FFT를 이용하여 특징 벡터를 추출하는 방법을 이용하였다.

DNN 학습을 이용한 퍼스널 비디오 시퀀스의 멀티 모달 기반 이벤트 분류 방법 (A Personal Video Event Classification Method based on Multi-Modalities by DNN-Learning)

  • 이유진;낭종호
    • 정보과학회 논문지
    • /
    • 제43권11호
    • /
    • pp.1281-1297
    • /
    • 2016
  • 최근 스마트 기기의 보급으로 자유롭게 비디오 컨텐츠를 생성하고 이를 빠르고 편리하게 공유할 수 있는 네트워크 환경이 갖추어지면서, 퍼스널 비디오가 급증하고 있다. 그러나, 퍼스널 비디오는 비디오라는 특성 상 멀티 모달리티로 구성되어 있으면서 데이터가 시간의 흐름에 따라 변화하기 때문에 이벤트 분류를 할 때 이에 대한 고려가 필요하다. 본 논문에서는 비디오 내의 멀티 모달리티들로부터 고수준의 특징을 추출하여 시간 순으로 재배열한 것을 바탕으로 모달리티 사이의 연관관계를 Deep Neural Network(DNN)으로 학습하여 퍼스널 비디오 이벤트를 분류하는 방법을 제안한다. 제안하는 방법은 비디오에 내포된 이미지와 오디오를 시간적으로 동기화하여 추출한 후 GoogLeNet과 Multi-Layer Perceptron(MLP)을 이용하여 각각 고수준 정보를 추출한다. 그리고 이들을 비디오에 표현된 시간순으로 재 배열하여 비디오 한 편당 하나의 특징으로 재 생성하고 이를 바탕으로 학습한 DNN을 이용하여 퍼스널 비디오 이벤트를 분류한다.

Prompting 기반 매개변수 효율적인 멀티 모달 영상 하이라이트 검출 연구 (Parameter-Efficient Multi-Modal Highlight Detection via Prompting)

  • 한동훈;남성욱;박은환;곽노준
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.372-376
    • /
    • 2023
  • 본 연구에서는 비디오 하이라이트 검출 및 장면 추출을 위한 경량화된 모델인 Visual Context Learner (VCL)을 제안한다. 기존 연구에서는 매개변수가 고정된 CLIP을 비롯한 여러 피쳐 추출기에 학습 가능한 DETR과 같은 트랜스포머를 이어붙여서 학습을 한다. 하지만 본 연구는 경량화된 구조로 하이라이트 검출 성능을 개선시킬 수 있음을 보인다. 그리고 해당 형태로 장면 추출도 가능함을 보이며 장면 추출의 추가 연구 가능성을 시사한다. VCL은 매개변수가 고정된 CLIP에 학습가능한 프롬프트와 MLP로 하이라이트 검출과 장면 추출을 진행한다. 총 2,141개의 학습가능한 매개변수를 사용하여 하이라이트 검출의 HIT@1(>=Very Good) 성능을 기존 CLIP보다 2.71% 개선된 성능과 최소한의 장면 추출 성능을 보인다.

  • PDF

수입물품의 품목 분류를 위한 멀티모달 표현 학습 (Multi-modal Representation Learning for Classification of Imported Goods)

  • 이앞길;최근호;김건우
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.203-214
    • /
    • 2023
  • 우리나라 관세청은 효과적인 원스톱(One-stop) 업무 처리가 가능한 전자통관 시스템으로 효율적으로 업무처리를 하고 있지만 기술의 발달과 비대면 서비스의 증가로 매년 수출입건수가 증가하고 있으며 그에 따른 업무량도 폭증하고 있는 실정으로 이에 따른 보다 효과적인 방법이 매우 필요하다. 수입과 수출은 모든 물품에 대한 분류 및 세율 적용을 위한 HS Code(Harmonized system code)가 필요하고 해당 HS Code를 분류하는 품목 분류는 전문지식과 경험이 필요한 업무 난이도가 높고 관세 통관절차에서 중요한 부분이다. 이에 본 연구는 품목 분류 의뢰서의 물품명, 물품상세설명, 물품 이미지 등의 다양한 유형의 데이터 정보를 활용하여 멀티모달 표현 학습(Multimodal representation learning) 기반으로 정보를 잘 반영할 수 있도록 딥러닝 모델을 학습 및 구축하여 HS Code를 분류 및 추천해 줌으로써 관세 업무 부담을 줄이고 신속한 품목 분류를 하여 통관절차에 도움을 줄 것으로 기대한다.

음성-영상 특징 추출 멀티모달 모델을 이용한 감정 인식 모델 개발 (Development of Emotion Recognition Model Using Audio-video Feature Extraction Multimodal Model)

  • 김종구;권장우
    • 융합신호처리학회논문지
    • /
    • 제24권4호
    • /
    • pp.221-228
    • /
    • 2023
  • 감정으로 인해 생기는 신체적 정신적인 변화는 운전이나 학습 행동 등 다양한 행동에 영향을 미칠 수 있다. 따라서 이러한 감정을 인식하는 것은 운전 중 위험한 감정 인식 및 제어 등 다양한 산업에서 이용될 수 있기 때문에 매우 중요한 과업이다. 본 논문에는 서로 도메인이 다른 음성과 영상 데이터를 모두 이용하여 감정을 인식하는 멀티모달 모델을 구현하여 감정 인식 연구를 진행했다. 본 연구에서는 RAVDESS 데이터를 이용하여 영상 데이터에 음성을 추출한 뒤 2D-CNN을 이용한 모델을 통해 음성 데이터 특징을 추출하였으며 영상 데이터는 Slowfast feature extractor를 통해 영상 데이터 특징을 추출하였다. 감정 인식을 위한 제안된 멀티모달 모델에서 음성 데이터와 영상 데이터의 특징 벡터를 통합하여 감정 인식을 시도하였다. 또한 멀티모달 모델을 구현할 때 많이 쓰인 방법론인 각 모델의 결과 스코어를 합치는 방법, 투표하는 방법을 이용하여 멀티모달 모델을 구현하고 본 논문에서 제안하는 방법과 비교하여 각 모델의 성능을 확인하였다.

비디오 질의 응답 시스템을 위한 전이 학습 기반의 멀티 모달 퓨전 정답 선택 모델 (Transfer Learning-based Multi-Modal Fusion Answer Selection Model for Video Question Answering System)

  • 박규민;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.548-553
    • /
    • 2021
  • 비디오 질의 응답은 입력으로 주어진 비디오와 질문에 적절할 정답을 제공하기 위해 텍스트, 이미지 등 다양한 정보처리가 요구되는 대표적인 multi-modal 문제이다. 질의 응답 시스템은 질의 응답의 성능을 높이기 위해 다수의 서로 다른 응답 모듈을 사용하기도 하며 생성된 정답 후보군 중 가장 적절할 정답을 선택하는 정답 선택 모듈이 필요하다. 정답 선택 모듈은 응답 모듈의 서로 다른 관점을 고려하여 응답 선택을 선택할 필요성이 있다. 하지만 응답 모듈이 black-box 모델인 경우 정답 선택 모듈은 응답 모듈의 parameter와 예측 분포를 통해 지식을 전달 받기 어렵다. 그리고 학습 데이터셋은 응답 모듈이 학습에 사용했기 때문에 과적합 문제로 각 모듈의 관점을 학습하기엔 어려우며 학습 데이터셋 이외 비교적 적은 데이터셋으로 학습해야 하는 문제점이 있다. 본 논문에서는 정답 선택 성능을 높이기 위해 전이 학습 기반의 멀티모달 퓨전 정답 선택 모델을 제안한다. DramaQA 데이터셋을 통해 성능을 측정하여 제안된 모델의 우수성을 실험적으로 증명하였다.

  • PDF

소리와 가속도 데이터를 이용한 멀티모달 기침 감지 모델 (Multimodal Cough Detection Model Using Audio and Acceleration Data)

  • 강재식;백문기;최형탁;윤승원;이규철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.746-748
    • /
    • 2018
  • 전 세계적으로 인플루엔자에 의해 매년 29~64만의 사망자가 발생하며 사회, 경제적 피해를 일으키고 있다. 기침에 의해 생성된 비말은 인플루엔자의 주요 전파 방법으로, 기침 감지 기술을 통해 확산 방지가 가능하다. 이전의 기침 감지에 대한 연구는 기침 소리와 전통적인 기계학습기법을 사용하였다. 본 논문은 기침 소리와 더불어 기침 시 발생하는 신체의 움직임 정보를 동시에 학습하는 멀티모달 딥러닝 기반의 기침 감지 모델을 제안한다. 도출된 모델과 기존의 모델과의 성능 비교를 통해 제안한 모델이 이전의 기침 감지 모델보다 정확한 기침 인식이 가능함을 보였다. 본 논문이 제안하는 모델은 스마트 워치와 같은 웨어러블 기기에 적용되면 인플루엔자의 확산 방지에 크게 기여할 수 있을 것이다.