• Title/Summary/Keyword: 모달 특성

Search Result 204, Processing Time 0.033 seconds

MMA: Multi-modal Message Aggregation for Korean VQA (MMA: 한국어 시각적 질의응답을 위한 멀티 모달 메시지 통합)

  • Park, Sungjin;Park, Chanjun;Seo, Jaehyung;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.468-472
    • /
    • 2020
  • 시각적 질의응답(Visual Question Answering, VQA)은 주어진 이미지에 연관된 다양한 질문에 대한 올바른 답변을 예측하는 기술이다. 해당 기술은 컴퓨터 비전-자연어 처리 연구분야에서 활발히 연구가 진행되고 있으며, 질문의 의도를 정확히 파악하고, 주어진 이미지에서 관련 단서 정보를 찾는 것이 중요하다. 또한, 서로 이질적인 특성을 지닌 정보(이미지 객체, 객체 위치, 질문)를 통합하는 과정도 중요하다. 본 논문은 질문의 의도에 알맞은 정보를 효율적으로 사용하기 위해 멀티 모달 입력 이미지 객체, 객체 위치, 질문)에 대한 Multi-modal Message Aggregation (MMA) 제안하며 이를 통해 한국어 시각적 질의응답 KVQA에서 다른 모델보다 더 좋은 성능을 확인하였다.

  • PDF

Predicting User Personality Based on Dynamic Keyframes Using Video Stream Structure (비디오 스트림 구조를 활용한 동적 키프레임 기반 사용자 개성 예측)

  • Mira Lee;Simon S.Woo;Hyedong Jung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.601-604
    • /
    • 2023
  • 기술이 발전함에 따라 복합적인 모달리티 정보를 포함하는 멀티미디어 데이터의 수집이 용이해지면서, 사람의 성격 특성을 이해하고 이를 개인화된 에이전트에 적용하고자 하는 연구가 활발히 진행되고 있다. 본 논문에서는 비디오 스트림 구조를 활용하여 사용자 특성을 예측하기 위한 동적 키프레임 추출 방법을 제안한다. 비디오 데이터를 효과적으로 활용하기 위해서는 무작위로 선택한 프레임에서 특징을 추출하던 기존의 방법을 개선하여 영상 내 시간에 따른 정보와 변화량을 기반으로 중요한 프레임을 선택하는 방법이 필요하다. 본 논문에서는 제 3자가 평가한 Big-five 지표 값이 레이블링된 대표적인 데이터셋인 First Impressions V2 데이터셋을 사용하여 외면에서 발현되는 특징들을 기반으로 영상에서 등장하는 인물들의 성격 특성을 예측했다. 결론에서는 선택된 키프레임에서 멀티 모달리티 정보를 조합하여 성격 특성을 예측한 결과와 베이스라인 모델과의 성능을 비교한다.

Impact of the Aerodynamic Characteristics of Twin Buildings on Wind Responses (트윈 빌딩의 공력 특성이 풍응답에 미치는 영향 평가)

  • Kim, Bub-Ryur
    • Journal of the Computational Structural Engineering Institute of Korea
    • /
    • v.33 no.1
    • /
    • pp.1-7
    • /
    • 2020
  • The wind responses of twin buildings are determined by the characteristics of wind loads and the dynamic characteristics of the structural systems of the buildings. In this study, the characteristics of wind pressure that influence wind responses were identified for two different spacings between the twin buildings using a wind tunnel test and the proper orthogonal decomposition (POD) method. Structural dynamic characteristics were also identified using 3D structural system modeling. The double modal transformation method was utilized to evaluate the characteristics of wind pressure for across-wind and along-wind conditions and the effect of the dynamic characteristics of each structure on the wind responses. The channeling and vortex effects were identified through the POD method. Across-wind loads were significantly affected by the spacings between the twin buildings, whereas along-wind loads were minimally affected. Similarly, while using the double modal transformation method, a significant difference was noticed in case of the cross-participation coefficients in the across-wind direction condition for the different spacings between the buildings; however, the along-wind direction condition showed negligible difference. Therefore, the spacing between the two buildings plays a more important role in across-wind responses compared to along-wind responses.

Multi-modal Meteorological Data Fusion based on Self-supervised Learning for Graph (Self-supervised Graph Learning을 통한 멀티모달 기상관측 융합)

  • Hyeon-Ju Jeon;Jeon-Ho Kang;In-Hyuk Kwon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.589-591
    • /
    • 2023
  • 현재 수치예보 시스템은 항공기, 위성 등 다양한 센서에서 얻은 다종 관측 데이터를 동화하여 대기 상태를 추정하고 있지만, 관측변수 또는 물리량이 서로 다른 관측들을 처리하기 위한 계산 복잡도가 매우 높다. 본 연구에서 기존 시스템의 계산 효율성을 개선하여 관측을 평가하거나 전처리하는 데에 효율적으로 활용하기 위해, 각 관측의 특성을 고려한 자기 지도학습 방법을 통해 멀티모달 기상관측으로부터 실제 대기 상태를 추정하는 방법론을 제안하고자 한다. 비균질적으로 수집되는 멀티모달 기상관측 데이터를 융합하기 위해, (i) 기상관측의 heterogeneous network를 구축하여 개별 관측의 위상정보를 표현하고, (ii) pretext task 기반의 self-supervised learning을 바탕으로 개별 관측의 특성을 표현한다. (iii) Graph neural network 기반의 예측 모델을 통해 실제에 가까운 대기 상태를 추정한다. 제안하는 모델은 대규모 수치 시뮬레이션 시스템으로 수행되는 기존 기술의 한계점을 개선함으로써, 이상 관측 탐지, 관측의 편차 보정, 관측영향 평가 등 관측 전처리 기술로 활용할 수 있다.

Multi-Modal Scheme for Music Mood Classification (멀티 모달 음악 무드 분류 기법)

  • Choi, Hong-Gu;Jun, Sang-Hoon;Hwang, Een-Jun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.259-262
    • /
    • 2011
  • 최근 들어 소리의 세기나 하모니, 템포, 리듬 등의 다양한 음악 신호 특성을 기반으로 한 음악 무드 분류에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 음악 무드 분류의 정확도를 높이기 위하여 음악 신호 특성과 더불어 노래 가사와 소셜 네트워크 상에서의 사용자 평가 등을 함께 고려하는 멀티 모달 음악 무드 분류 기법을 제안한다. 이를 위해, 우선 음악 신호 특성에 대해 퍼지 추론 기반의 음악 무드 추출 기법을 적용하여 다수의 가능한 음악 무드를 추출한다. 다음으로 음악 가사에 대해 TF-IDF 기법을 적용하여 대표 감정 키워드를 추출하고 학습시킨 가사 무드 분류기를 사용하여 가사 음악 무드를 추출한다. 마지막으로 소셜 네트워크 상에서의 사용자 태그 등 사용자 피드백을 통한 음악 무드를 추출한다. 특정 음악에 대해 이러한 다양한 경로를 통한 음악 무드를 교차 분석하여 최종적으로 음악 무드를 결정한다. 음악 분류를 기반한 자동 음악 추천을 수행하는 사용자 만족도 평가 실험을 통해서 제안하는 기법의 효율성을 검증한다.

A Personal Video Event Classification Method based on Multi-Modalities by DNN-Learning (DNN 학습을 이용한 퍼스널 비디오 시퀀스의 멀티 모달 기반 이벤트 분류 방법)

  • Lee, Yu Jin;Nang, Jongho
    • Journal of KIISE
    • /
    • v.43 no.11
    • /
    • pp.1281-1297
    • /
    • 2016
  • In recent years, personal videos have seen a tremendous growth due to the substantial increase in the use of smart devices and networking services in which users create and share video content easily without many restrictions. However, taking both into account would significantly improve event detection performance because videos generally have multiple modalities and the frame data in video varies at different time points. This paper proposes an event detection method. In this method, high-level features are first extracted from multiple modalities in the videos, and the features are rearranged according to time sequence. Then the association of the modalities is learned by means of DNN to produce a personal video event detector. In our proposed method, audio and image data are first synchronized and then extracted. Then, the result is input into GoogLeNet as well as Multi-Layer Perceptron (MLP) to extract high-level features. The results are then re-arranged in time sequence, and every video is processed to extract one feature each for training by means of DNN.

The Relationship between the Mineral Characteristics and Spectral Induced Polarization for the Core Rock Samples from the Gagok Skarn Deposit (가곡 스카른 광상의 암석시료에 대한 광물특성과 광대역 유도분극 반응과의 관련성)

  • Heo, Seo-Young;Oh, Ji-Ho;Yang, Kyoung-Hee;Hwang, Jin-Yeon;Park, Sam-Gyu
    • Economic and Environmental Geology
    • /
    • v.45 no.4
    • /
    • pp.351-363
    • /
    • 2012
  • In order to develop the evaluation techniques for the potential sulfide ore reserves, the relationships between the modal vol.%, grain sizes and textural characteristics of the constituent minerals (e.g., sulfides, oxides and skarn minerals) and the Spectral Induced Polarization (SIP) phase differences are examined for the nine rock cores collected from the Gagok Pb-Zn skarn deposit. The Gagok Pb-Zn skarn deposit occurs mainly along the intrusive contact between the Cretaceous granitic rocks and Cambrian Myobong slate and Pungchon limestone. The nine rock cores have been grouped into three showing distinctive SIP phase differences: the highest (Group I), intermediate (Group II) and lowest (Group III). In relation with the modal vol.% of minerals, Group I is characterized by higher pyrrhotite (25-38 vol.%) and amphibole (40-55 vol.%); Group II by intermediate pyrrhotite (7-13 vol.%) and higher garnet (44-68 vol.%); and lower pyrrhotite (1-7 vol.%) and higher pyroxene (24-66 vol.%) stand for Group III. Furthermore, the grains of all the major constituent minerals become smaller from Group I (<5 mm) through Group II (<2.5 mm) to Group III (<1.6 mm). In particular, the pyrrhotite contents and their grain sizes show logarithmic correlation with the SIP phase differences, Although we present here the results solely from nine samples, the systematic interrelations especially for pyrrhotite indicate the potential ability of SIP measurements as a new mine-evaluation technique for the sulfide ore reservoir.

Bone Segmentation Method of Visible Human using Multimodal Registration (다중 모달 정합에 의한 Visible Human의 뼈 분할 방법)

  • Lee, Ho;Kim, Dong-Sung;Kang, Heung-Sik
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.7_8
    • /
    • pp.719-726
    • /
    • 2003
  • This paper proposes a multimodal registration method for segmentation of the Visible Human color images, in which color characteristics of bones are very similar to those of its surrounding fat areas. Bones are initially segmented in CT images, and then registered into color images to lineate their boundaries in the color images. For the segmentation of bones in CT images, a thresholding method is developed. The registration method registers boundaries of bodies in CT and color images using a cross-correlation approach, in which the boundaries of bodies are extracted by thresholding segmentation methods. The proposed method has been applied to segmentation of bones in a head and legs whose boundary is ambiguous due to surrounding fat areas with similar color characteristics, and produced promising results.

Attention based multimodal model for Korean speech recognition post-editing (한국어 음성인식 후처리를 위한 주의집중 기반의 멀티모달 모델)

  • Jeong, Yeong-Seok;Oh, Byoung-Doo;Heo, Tak-Sung;Choi, Jeong-Myeong;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.145-150
    • /
    • 2020
  • 최근 음성인식 분야에서 신경망 기반의 종단간 모델이 제안되고 있다. 해당 모델들은 음성을 직접 입력받아 전사된 문장을 생성한다. 음성을 직접 입력받는 모델의 특성상 데이터의 품질이 모델의 성능에 많은 영향을 준다. 본 논문에서는 이러한 종단간 모델의 문제점을 해결하고자 음성인식 결과를 후처리하기 위한 멀티모달 기반 모델을 제안한다. 제안 모델은 음성과 전사된 문장을 입력 받는다. 입력된 각각의 데이터는 Encoder를 통해 자질을 추출하고 주의집중 메커니즘을 통해 Decoder로 추출된 정보를 전달한다. Decoder에서는 전달받은 주의집중 메커니즘의 결과를 바탕으로 후처리된 토큰을 생성한다. 본 논문에서는 후처리 모델의 성능을 평가하기 위해 word error rate를 사용했으며, 실험결과 Google cloud speech to text모델에 비해 word error rate가 8% 감소한 것을 확인했다.

  • PDF