• Title/Summary/Keyword: 멀티모달정보

Search Result 187, Processing Time 0.023 seconds

Sensitivity Lighting System Based on multimodal (멀티모달 기반의 감성 조명 시스템)

  • Kwon, Sun-Min;Jung, In-Bum
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.16 no.4
    • /
    • pp.721-729
    • /
    • 2012
  • In this paper, human sensibility is measured on multi-modal environment and a sensitivity lighting system is implemented according to driven emotional indexes. We use LED lighting because it supports ecological circumstance, high efficiency, and long lifetime. In particular, the LED lighting provides various color schemes even in single lighting bulb. To cognize the human sensibility, we use the image information and the arousal state information, which are composed of multi-modal basis and calculates emotional indexes. In experiments, as the LED lighting color vision varies according to users' emotional index, we show that it provides human friendly lighting system compared to the existing systems.

MMA: Multi-modal Message Aggregation for Korean VQA (MMA: 한국어 시각적 질의응답을 위한 멀티 모달 메시지 통합)

  • Park, Sungjin;Park, Chanjun;Seo, Jaehyung;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.468-472
    • /
    • 2020
  • 시각적 질의응답(Visual Question Answering, VQA)은 주어진 이미지에 연관된 다양한 질문에 대한 올바른 답변을 예측하는 기술이다. 해당 기술은 컴퓨터 비전-자연어 처리 연구분야에서 활발히 연구가 진행되고 있으며, 질문의 의도를 정확히 파악하고, 주어진 이미지에서 관련 단서 정보를 찾는 것이 중요하다. 또한, 서로 이질적인 특성을 지닌 정보(이미지 객체, 객체 위치, 질문)를 통합하는 과정도 중요하다. 본 논문은 질문의 의도에 알맞은 정보를 효율적으로 사용하기 위해 멀티 모달 입력 이미지 객체, 객체 위치, 질문)에 대한 Multi-modal Message Aggregation (MMA) 제안하며 이를 통해 한국어 시각적 질의응답 KVQA에서 다른 모델보다 더 좋은 성능을 확인하였다.

  • PDF

Design for Mood-Matched Music Based on Deep Learning Emotion Recognition (딥러닝 감정 인식 기반 배경음악 매칭 설계)

  • Chung, Moonsik;Moon, Nammee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.834-836
    • /
    • 2021
  • 멀티모달 감정인식을 통해 사람의 감정을 정확하게 분류하고, 사람의 감정에 어울리는 음악을 매칭하는 시스템을 설계한다. 멀티모달 감정 인식 방법으로는 IEMOCAP(Interactive Emotional Dyadic Motion Capture) 데이터셋을 활용해 감정을 분류하고, 분류된 감정의 분위기에 맞는 음악을 매칭시키는 시스템을 구축하고자 한다. 유니모달 대비 멀티모달 감정인식의 정확도를 개선한 시스템을 통해 텍스트, 음성, 표정을 포함하고 있는 동영상의 감성 분위기에 적합한 음악 매칭 시스템을 연구한다.

A Full Body Gumdo Game with an Intelligent Cyber Fencer using Multi-modal(3D Vision and Speech) Interface (멀티모달 인터페이스(3차원 시각과 음성 )를 이용한 지능적 가상검객과의 전신 검도게임)

  • 윤정원;김세환;류제하;우운택
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.9 no.4
    • /
    • pp.420-430
    • /
    • 2003
  • This paper presents an immersive multimodal Gumdo simulation game that allows a user to experience the whole body interaction with an intelligent cyber fencer. The proposed system consists of three modules: (i) a nondistracting multimodal interface with 3D vision and speech (ii) an intelligent cyber fencer and (iii) an immersive feedback by a big screen and sound. First, the multimodal Interface with 3D vision and speech allows a user to move around and to shout without distracting the user. Second, an intelligent cyber fencer provides the user with intelligent interactions by perception and reaction modules that are created by the analysis of real Gumdo game. Finally, an immersive audio-visual feedback by a big screen and sound effects helps a user experience an immersive interaction. The proposed system thus provides the user with an immersive Gumdo experience with the whole body movement. The suggested system can be applied to various applications such as education, exercise, art performance, etc.

Multimodal Context-aware Service (멀티모달 상황인지 서비스)

  • Jeong, Yeong-Joon;Park, Seong-Soo;Ahn, Se-Yeol
    • 한국IT서비스학회:학술대회논문집
    • /
    • 2006.11a
    • /
    • pp.400-406
    • /
    • 2006
  • 다양한 서비스와의 서비스간 융합이 활발히 이루어지는 유비쿼터스 서비스 환경에서 사용자에게 보다 편리하게 맞춤 서비스를 제공하기 위해서는 다양한 입출력 수단을 통해 상황에 따라 적절한 서비스를 제공할 수 있는 기술이 필요하다. 멀티모달 상황인지 기술은 언제, 어디서나 사용자에게 최적의 서비스를 제공할 수 있도록 다양한 상황정보를 인지하여 적절한 입출력 수단을 사용할 수 있는 UI를 제공함으로써 사용자별 맞춤형 서비스가 가능하게 하는 기술이다. 본 고에서는 멀티모달 및 상황인지 기술에 대한 개요와 KT에서 개발하고 있는 멀티모달 상황인지 플랫폼 및 이를 기반으로 한 홈네트워크 서비스를 소개하고자 한다.

  • PDF

Multi-Modal Recommendation System for Web Novels (멀티 모달 딥러닝을 활용한 웹소설 추천 시스템)

  • Mi Ryeo Kim;Hyon Hee Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.552-554
    • /
    • 2023
  • 웹소설 시장의 성장에 따라 웹소설 추천 시스템의 중요성이 높아지고 있다. 본 연구에서는 작품의 특성 및 선호도를 나타낼 수 있는 다양한 데이터를 활용하여 추천시스템을 구현하고 그 성능을 평가하여 표지 이미지와 작품 특성을 모두 고려한 멀티 모달 추천 시스템이 가장 효율적임을 보여주었다. 연구 결과, 단일 변수 추천에서는 작품 소개글과 표지 이미지 기반 추천이 가장 좋은 성능을 보였고, 멀티 모달 추천 시스템에서는 작품 소개글, 이미지, 키워드 순으로 성능에 좋은 영향을 끼치는 것으로 나타났다. 이번 연구 결과는 한국콘텐츠진흥원에서 조사한 웹소설 이용자 실태조사와는 조금 다른 결과를 보여주었다. 설문조사에서는 인기도를 웹소설 선택 시 가장 중요한 영향으로 봤으나, 본 연구에서는 작품 소개글이 가장 중요한 영향을 미친다는 결과가 나타났다. 이러한 연구 결과는 웹소설 추천 시스템의 개발과 운영에 있어서 중요한 참고 자료가 될 것으로 예상된다.

Convolutional neural network for multi polarization SAR recognition (다중 편광 SAR 영상 목표물 인식을 위한 딥 컨볼루션 뉴럴 네트워크)

  • Youm, Gwang-Young;Kim, Munchurl
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2017.06a
    • /
    • pp.102-104
    • /
    • 2017
  • 최근 Convolutional neural network (CNN)을 도입하여, SAR 영상의 목표물 인식 알고리즘이 높은 성능을 보여주었다. SAR 영상은 4 종류의 polarization 정보로 구성되어있다. 기계와 신호처리의 비용으로 인하여 일부 데이터는 적은 수의 polarization 정보를 가지고 있다. 따라서 우리는 SAR 영상 data 를 멀티모달 데이터로 해석하였다. 그리고 우리는 이러한 멀티모달 데이터에 잘 작동할 수 있는 콘볼루션 신경망을 제안하였다. 우리는 데이터가 포함하는 모달의 수에 반비례 하도록 scale factor 구성하고 이를 입력 크기조절에 사용하였다. 입력의 크기를 조절하여, 네트워크는 특징맵의 크기를 모달의 수와 상관없이 일정하게 유지할 수 있었다. 또한 제안하는 입력 크기조절 방법은 네트워크의 dead filter 의 수를 감소 시켰고, 이는 네트워크가 자신의 capacity 를 잘 활용한다는 것을 의미한다. 또 제안된 네트워크는 특징맵을 구성할 때 다양한 모달을 활용하였고, 이는 네트워크가 모달간의 상관관계를 학습했다는 것을 의미한다. 그 결과, 제안된 네트워크의 성능은 입력 크기조절이 없는 일반적인 네트워크보다 높은 성능을 보여주었다. 또한 우리는 전이학습의 개념을 이용하여 네트워크를 모달의 수가 많은 데이터부터 차례대로 학습시켰다. 전이학습을 통하여 네트워크가 학습되었을 때, 제안된 네트워크는 특정 모달의 조합 경우만을 위해 학습된 네트워크보다 높은 성능을 보여준다.

  • PDF

Design of Agent Technology based on Device Collaboration for Personal Multi-modal Services (개인형 멀티모달 서비스를 위한 디바이스 협업 기반 에이전트 기술 설계)

  • Kim, Jae-Su;Kim, Hyeong-Seon;Kim, Chi-Su;Kim, Hwang-Rae;Im, Jae-Hyeon
    • Proceedings of the Korean Society for Emotion and Sensibility Conference
    • /
    • 2009.11a
    • /
    • pp.254-257
    • /
    • 2009
  • 유비쿼터스 시대가 도래하면서 사용자를 중심으로 하는 서비스에 대한 관심이 증가하고 있다. 더불어 사용자의 특성에 맞는 개인화 된 서비스를 요구하고 있다. 본 논문에서는 유비쿼터스 공간에서 소형화, 지능화되고 있는 개인형 이종 디바이스 간의 협업을 통해 사용자에게 보다 직관적이고 편리한 개인화된 서비스를 제공하기 위한 디바이스 협업 기반 에이전트 기술을 제안한다. 본 연구에서는 센서를 통해 사용자 환경에 대한 정보 및 사용자 정보를 수집하여 기본적인 서비스에 필요한 상황정보를 처리한다. 또한, 유비쿼터스 사용자에게 필요한 멀티모달 서비스를 제공한다. 따라서 일반적인 자동화 서비스 이상의 개인 특성에 맞는 고품질의 서비스를 제공할 수 있다.

  • PDF

Character-based Subtitle Generation by Learning of Multimodal Concept Hierarchy from Cartoon Videos (멀티모달 개념계층모델을 이용한 만화비디오 컨텐츠 학습을 통한 등장인물 기반 비디오 자막 생성)

  • Kim, Kyung-Min;Ha, Jung-Woo;Lee, Beom-Jin;Zhang, Byoung-Tak
    • Journal of KIISE
    • /
    • v.42 no.4
    • /
    • pp.451-458
    • /
    • 2015
  • Previous multimodal learning methods focus on problem-solving aspects, such as image and video search and tagging, rather than on knowledge acquisition via content modeling. In this paper, we propose the Multimodal Concept Hierarchy (MuCH), which is a content modeling method that uses a cartoon video dataset and a character-based subtitle generation method from the learned model. The MuCH model has a multimodal hypernetwork layer, in which the patterns of the words and image patches are represented, and a concept layer, in which each concept variable is represented by a probability distribution of the words and the image patches. The model can learn the characteristics of the characters as concepts from the video subtitles and scene images by using a Bayesian learning method and can also generate character-based subtitles from the learned model if text queries are provided. As an experiment, the MuCH model learned concepts from 'Pororo' cartoon videos with a total of 268 minutes in length and generated character-based subtitles. Finally, we compare the results with those of other multimodal learning models. The Experimental results indicate that given the same text query, our model generates more accurate and more character-specific subtitles than other models.

Design and Implementation of a Character Agent based Multimodal Presentation Authoring Tool (캐릭터 에이전트 기반 멀티모달 프리젠테이션 저작도구 설계 및 구현)

  • 정성태;정석태
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.7 no.5
    • /
    • pp.941-948
    • /
    • 2003
  • Character agent based Multimodal Presentation Markup Language(MPML) has been developed to increase the efficiency of the presentation using a computer. However, authoring of a presentation by using MPML is not simple because MPML describes only the behavior of the character agent. It describes the presentation background by importing HTML documents. This paper proposes EMPML(Extended MPML) which describes not only the behavior of the character agent but also the presentation background. And an authoring tool for the EMPML has been designed and implemented. By integrating the editing of the presentation background and character agent behavior, the proposed authoring tool supports WYSIWIG(What You See Is What You Get) mode designing. By using the proposed authoring tool, users can make a multimodal presentation without knowing the details of EMPML.