• 제목/요약/키워드: 멀티모달정보

검색결과 187건 처리시간 0.025초

이미지 캡션 생성을 위한 심층 신경망 모델 학습과 전이 (Learning and Transferring Deep Neural Network Models for Image Caption Generation)

  • 김동하;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.617-620
    • /
    • 2016
  • 본 논문에서는 이미지 캡션 생성과 모델 전이에 효과적인 심층 신경망 모델을 제시한다. 본 모델은 멀티 모달 순환 신경망 모델의 하나로서, 이미지로부터 시각 정보를 추출하는 컨볼루션 신경망 층, 각 단어를 저차원의 특징으로 변환하는 임베딩 층, 캡션 문장 구조를 학습하는 순환 신경망 층, 시각 정보와 언어 정보를 결합하는 멀티 모달 층 등 총 5 개의 계층들로 구성된다. 특히 본 모델에서는 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛을 이용하여 순환 신경망 층을 구성하고, 컨볼루션 신경망 층의 출력을 임베딩 층뿐만 아니라 멀티 모달 층에도 연결함으로써, 캡션 문장 생성을 위한 매 단계마다 이미지의 시각 정보를 이용할 수 있는 연결 구조를 가진다. Flickr8k, Flickr30k, MSCOCO 등의 공개 데이터 집합들을 이용한 다양한 비교 실험을 통해, 캡션의 정확도와 모델 전이의 효과 면에서 본 논문에서 제시한 멀티 모달 순환 신경망 모델의 우수성을 입증하였다.

모달리티 반영 뷰를 활용하는 대조 학습 기반의 멀티미디어 추천 시스템 (Multimedia Recommender System Based on Contrastive Learning with Modality-Reflective View)

  • 반소희;김태리;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.635-638
    • /
    • 2024
  • 최근, 대조 학습 기반의 멀티미디어 추천 시스템들이 활발하게 연구되고 있다. 이들은 아이템의 다양한 모달리티 피처들을 활용하여 사용자와 아이템에 대한 임베딩들(뷰들)을 생성하고, 이들을 통해 대조 학습을 진행한다. 학습한 뷰들을 추천에 활용함으로써, 이들은 기존 멀티미디어 추천 시스템들보다 상당히 향상된 추천 정확도를 획득했다. 그럼에도 불구하고, 우리는 기존 대조 학습 기반의 멀티미디어 추천 시스템들이 아이템의 뷰들을 생성하는 데에 아이템의 모달리티 피처들을 올바르게 반영하는 것의 중요성을 간과하며, 그 결과 추천 정확도 향상에 제약을 갖는다고 주장한다. 이는 아이템 임베딩에 아이템 자신의 모달리티 피처를 올바르게 반영하는 것이 추천 정확도에 향상에 도움이 된다는 기존 멀티미디어 추천 시스템의 발견에 기반한다. 따라서 본 논문에서 우리는 아이템의 모달리티 피처들을 올바르게 반영할 수 있는 뷰(구체적으로, 모달리티 반영 뷰)를 통해 대조 학습을 진행하는 새로운 멀티미디어 추천 시스템을 제안한다. 제안 방안은 두 가지 실세계 공개 데이터 집합들에 대해 최신 멀티미디어 추천 시스템보다 6.78%까지 향상된 추천 정확도를 보였다.

자바 RMI를 이용한 브라우저 통합에 의한 멀티-모달 브라우징 시스템에 관한 연구 (A Study on the Multi-Modal Browsing System by Integration of Browsers Using lava RMI)

  • 장준식;윤재석;김국보
    • 인터넷정보학회논문지
    • /
    • 제6권1호
    • /
    • pp.95-103
    • /
    • 2005
  • 최근 단일 정보기기 시스템에서 다양한 채널을 동시에 접근할 수 있도록 하는 멀티-모달 시스템에 관한 연구가 많이 진행되고 있다. 이와 같은 멀티-모달 시스템은 정보 제공 및 e-비즈니스 어플리케이션에 유비쿼터스적인 접근이 가능하게 하며 HCI(Human-computer Interaction)의 실현 가능성을 높일 수 있다. 향후 더욱 발달되고 안정화 된 멀티-모달 브라우징 시스템을 구현할 수 있다면 사용자는 hands-free, eyes-fee의 환경에서 정보기기와의 상호작용을 최대화할 수 있을 것이다. 본 연구에서는 표준 입출력 모드(키보드, 마우스, 디스플레이)를 지원하는 웹 브라우저와 음성인식 및 음성합성을 지원하는 보이스 브라우저를 통합하는 멀티-모달 브라우징 시스템의 구조를 제시하였고, 이러한 시스템의 예로 영영 사전 검색 어플리케이션을 구현하였다.

  • PDF

멀티모달 방식을 통한 가스 종류 인식 딥러닝 모델 개발 (Development of Gas Type Identification Deep-learning Model through Multimodal Method)

  • 안서희;김경영;김동주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권12호
    • /
    • pp.525-534
    • /
    • 2023
  • 가스 누출 감지 시스템은 가스의 폭발성과 독성으로 인한 인명 피해를 최소화할 핵심적인 장치이다. 누출 감지 시스템은 대부분 단일 센서를 활용한 방식으로, 가스 센서나 열화상 카메라를 통한 검출 방식으로 진행되고 있다. 이러한 단일 센서 활용의 가스 누출감지 시스템 성능을 고도화하기 위하여, 본 연구에서는 가스 센서와 열화상 이미지 데이터에 멀티모달형 딥러닝을 적용한 연구를 소개한다. 멀티모달 공인 데이터셋인 MultimodalGasData를 통해 기존 논문과의 성능을 비교하였고, 가스 센서와 열화상 카메라의 단일모달 모델을 기반하여 네 가지 멀티모달 모델을 설계 및 학습하였다. 이를 통해 가스 센서와 열화상 카메라는 각각 1D CNN, GasNet 모델이 96.3%와 96.4%의 가장 높은 성능을 보였다. 앞선 두 단일모달 모델을 기반한 Early Fusion 형식의 멀티모달 모델 성능은 99.3%로 가장 높았으며, 또한 기존 논문의 멀티모달 모델 대비 3.3% 높았다. 본 연구의 높은 신뢰성을 갖춘 가스 누출 감지 시스템을 통해 가스 누출로 인한 추가적인 피해가 최소화되길 기대한다.

ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론 (High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training)

  • 성진;한승헌;신종훈;임수종;권오욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF

음성과 영상정보를 결합한 멀티모달 제어기의 구현 (Implementation of a Multimodal Controller Combining Speech and Lip Information)

  • 김철;최승호
    • 한국음향학회지
    • /
    • 제20권6호
    • /
    • pp.40-45
    • /
    • 2001
  • 본 논문에서는 음성과 영상정보를 결합한 멀티모달시스템을 구현하고 그 성능을 평가하였다. 음성정보를 이용해서 음성인식기를, 영상정보를 이용해서 입술인식기를 설계하였으며, 두 인식기는 HMM (Hidden Markov Model) 기반의 인식엔진을 사용하였다. 음성과 영상인식의 결과는 각각 8:2의 가중치를 부여하여 통합하였다. 한편, 구축된 멀티모달 인식시스템은 DARC (data radio channel)시스템과 통합되어 응용프로그램인 Comdio(computer radio)를 제어하도록 구현하였다. 멀티모달과 DARC시스템, 멀티모달시스템 내에서 두 인식기간의 정보교환은TCP/IP소켓 방식을 사용하였다. 통합시스템의 Comdio 제어실험의 결과는 입술인식이 음성인식기의 보조수단으로 사용될 수 있음을 보였으며, 향후교통정보 및 자동차항법장치에 적용되어짐으로써 그 적용분야를 넓힐 수 있을 것으로 기대된다.

  • PDF

웹 서비스를 위한 멀티 모달 사용자 인터페이스 (Multimodal User Interfaces for Web Services)

  • 송기섭;김연석;이경호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.46-48
    • /
    • 2006
  • 본 논문에서는 웹 서비스의 WSDL 문서로부터 멀티 모달 유저 인터페이스를 동적으로 생성하는 방법을 제안한다. 이를 위해 W3C에서 제안한 사용자 인터페이스 관련 기술인 XForms와 VoiceXML을 소개하고. XForms에 기반한 사용자 인터페이스 생성 알고리즘을 제안한다. 제안된 방법은 WSDL 문서의 구조를 분석하고. 스키마로부터 데이터의 타입에 따른 적합한 컨트롤을 매핑하여 최적의 멀티 모달 사용자 인터페이스를 구성한다.

  • PDF

멀티모달 특징 결합을 통한 감정인식 연구 (The Research on Emotion Recognition through Multimodal Feature Combination)

  • 김성식;양진환;최혁순;고준혁;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.739-740
    • /
    • 2024
  • 본 연구에서는 음성과 텍스트라는 두 가지 모달리티의 데이터를 효과적으로 결합함으로써, 감정 분류의 정확도를 향상시키는 새로운 멀티모달 모델 학습 방법을 제안한다. 이를 위해 음성 데이터로부터 HuBERT 및 MFCC(Mel-Frequency Cepstral Coefficients)기법을 통해 추출한 특징 벡터와 텍스트 데이터로부터 RoBERTa를 통해 추출한 특징 벡터를 결합하여 감정을 분류한다. 실험 결과, 제안한 멀티모달 모델은 F1-Score 92.30으로 유니모달 접근 방식에 비해 우수한 성능 향상을 보였다.

반자율주행 맥락에서 AI 에이전트의 멀티모달 인터랙션이 운전자 경험에 미치는 효과 : 시각적 캐릭터 유무를 중심으로 (The Effect of AI Agent's Multi Modal Interaction on the Driver Experience in the Semi-autonomous Driving Context : With a Focus on the Existence of Visual Character)

  • 서민수;홍승혜;이정명
    • 한국콘텐츠학회논문지
    • /
    • 제18권8호
    • /
    • pp.92-101
    • /
    • 2018
  • 대화형 AI 스피커가 보편화되면서 음성인식은 자율주행 상황에서의 중요한 차량-운전자 인터랙션 방식으로 인식되고 있다. 이 연구의 목적은 반자율주행 상황에서 음성뿐만 아니라 AI 캐릭터의 시각적 피드백을 함께 전달하는 멀티모달 인터랙션이 음성 단일 모드 인터랙션보다 사용자 경험 최적화에 효과적인지를 확인하는 것이다. 실험 참가자에게 주행 중 AI 스피커와 캐릭터를 통해 음악 선곡과 조정을 위한 인터랙션 태스크를 수행하게 하고, 정보 및 시스템 품질, 실재감, 지각된 유용성과 용이성, 그리고 지속 사용 의도를 측정하였다. 평균차이 분석 결과, 대부분의 사용자 경험 요인에서 시각적 캐릭터의 멀티모달 효과는 나타나지 않았으며, 지속사용 의도에서도 효과는 나타나지 않았다. 오히려, 정보품질 요인에서 음성 단일 모드가 멀티모달보다 효과적인 것으로 나타났다. 운전자의 인지적 노력이 필요한 반자율주행 단계에서는 멀티모달 인터랙션이 단일 모드 인터랙션에 비해 사용자 경험 최적화에 효과적이지 않았다.

추천을 위한 키워드 가중치를 이용한 멀티모달 미디어 콘텐츠 분류 (Multimodal Media Content Classification using Keyword Weighting for Recommendation)

  • 강지수;백지원;정경용
    • 융합정보논문지
    • /
    • 제9권5호
    • /
    • pp.1-6
    • /
    • 2019
  • 모바일 시장의 확장과 함께 멀티모달 미디어 콘텐츠의 제공을 위한 플랫폼이 다양해지고 있다. 멀티모달 미디어 콘텐츠에는 이종데이터들이 복합적으로 포함되어 있어 사용자들이 선호 콘텐츠를 선택하기 위해 시간과 노력이 요구된다. 따라서 본 논문에서는 추천을 위한 키워드 가중치를 이용한 멀티모달 미디어 콘텐츠 분류를 제안한다. 제안하는 방법은 멀티모달 미디어 콘텐츠의 텍스트 데이터에서 키워드 가중치를 통해 콘텐츠를 가장 잘 나타내는 키워드를 추출한다. 추출된 키워드를 기반으로 서브클래스를 갖는 장르 클래스를 생성하고 이에 적절한 멀티모달 미디어 콘텐츠를 분류한다. 또한 개인화된 추천을 위해 사용자의 선호도 평가를 진행하여 사용자의 콘텐츠 선호도 분석 결과를 기반으로 멀티모달 콘텐츠를 추천한다. 성능평가는 추천 결과의 정확도와 만족도를 통해 우수함을 검증한다. 이는 사용자가 선호하는 장르와 키워드를 모두 고려하여 추천하기 때문에 정확도는 74.62%, 만족도는 69.1%로 높게 나타난다.