• 제목/요약/키워드: 멀티모달 학습

검색결과 73건 처리시간 0.026초

기능성 Bio-Game의 활용 방안에 관한 연구 (Research on Effective Use of A Serious Bio-Game)

  • 박성준;이준;김지인
    • 한국게임학회 논문지
    • /
    • 제9권1호
    • /
    • pp.93-103
    • /
    • 2009
  • 기능성 게임은 게임기술과 게임이론을 바탕으로 개발된 하드웨어 및 소프트웨어 애플리케이션으로 즐거움 외에 교육 및 특정 분야의 문제해결 등의 다른 목적을 가지는 게임을 말한다. 이러한 기능성 게임은 게임적인 재미뿐만 아니라 교육적인 효과 때문에 과학기술 분야 및 산업 기술 분야의 교육 및 훈련에 유용하다. 본 연구에서는 사용자가 직관적인 멀티 모달 인터페이스를 사용하여 생명공학에 적용한 기능성 게임을 제안한다. 이를 위하여 3차원 분자 구조를 특수 모니터를 사용하여 입체 시각화 하였으며 입체 영상화된 분자 구조를 효율적으로 제어하기 위하여 멀티 모달 인터페이스인 WiiRemote를 사용하였다. 본 논문에서 제안된 시스템은 분자도킹 시뮬레이션이 가지던 문제점인 3차원 분자 모델들의 결합 및 조작이 사용자의 직관과 경험에 많이 의존하기 때문에 초보자들의 접근이 어려운 점을 게임적 요소를 적용하여 재미를 느끼게 하면서 해결하도록 하였다. 이를 위해 사용자가 조작을 하는 객체와 사용자의 수에 따른 게임적 요소인 레벨 업 개념을 적용하여 반복학습이 이루어지도록 하였다. 실험은 AIDS 바이러스와 신약 치료 후보 물질을 대상으로 사용자가 바이러스와 후보 물질이 결합되는 위치인 Active Site를 찾는 도킹 실험을 하였으며 바이오 기능성 게임을 적용하지 않은 기존의 방법과 비교를 하였다.

  • PDF

고위험 현장의 안전관리를 위한 AI 클라우드 플랫폼 설계 (A Design of AI Cloud Platform for Safety Management on High-risk Environment)

  • 김기봉
    • 미래기술융합논문지
    • /
    • 제1권2호
    • /
    • pp.01-09
    • /
    • 2022
  • 최근 기업과 공공기관에서 안전 이슈는 더는 미룰 수 있는 상황이 아니며, 대형 안전사고가 발생했을 때 직접적인 금전적 손실뿐 아니라 해당 기업 및 공공기관에 대한 사회적 신뢰가 함께 떨어지는 간접적인 손실도 매우 커진다. 특히 사망 사고의 경우는 더욱 피해가 심각하다. 이에 따라 기업 및 공공기관은 산업 안전 교육과 예방에 대한 투자를 확대함에 따라, 고위험 상황이 존재하는 산업현장에서 사용자 행동반경에 영향을 받지 않고 안전관리 서비스가 가능한 개방형 AI 학습모델 생성 기술, 에지단말간 AI협업 기술, 클라우드-에지단말 연동 기술, 멀티모달 위험상황 판단기술, AI 모델 학습 지원 기술을 이용한 시스템 개발이 이루어지고 있다. 특히 인공지능 기술의 발전과 확산으로 안전 이슈에도 해당 기술을 적용하기 위한 연구가 활발해지고 있다. 따라서 본 논문에서는 고위험 현장 안전관리를 위해 AI 모델 학습 지원이 가능한 개방형 클라우드 플랫폼 설계 방안을 제시하였다.

IoE 환경에서 공장에너지 관리를 위한 빅시맨틱 시스템 설계 (Design of Big Semantic System for Factory Energy Management in IoE environments)

  • 권순현;이좌형;김선혁;이상금;신영미;도윤미;허태욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.37-39
    • /
    • 2022
  • 기존 IoE 환경에서 수집데이터는 특정 서비스를 위한 도메인 지식과 연계되어 서비스를 제공한다. 하지만 수집되는 데이터의 유형이 다양하고, 정적인 지식베이스가 상황에 따라 동적으로 변화하는 IoE 환경에서는 기존의 지식베이스 시스템을 통하여 원활한 서비스를 제공할 수 없었다. 따라서, 본 논문에서는 IoE 환경에서 발생하는 대용량/실시간성 데이터를 시맨틱으로 처리하여 공통 도메인 지식베이스와 연계하고 기존의 지식베이스 추론 방법과 기계학습 기반 지식 임베딩 기법을 통하여 지식 증강을 유기적으로 진행하는 빅시맨틱 시스템을 제시한다. 제시한 시스템은 IoE 환경의 멀티모달(정형, 비정형) 데이터를 수집하고 반자동적으로 시맨틱 변환을 수행하여 도메인 지식베이스에 저장하고, 시맨틱 추론을 통해 지식베이스를 증강 시키며 증강된 지식베이스를 포함한 전체 지식베이스를 정형 및 반정형 사용자 쿼리를 통해 지식정보를 사용자에게 제공한다. 또한, 기계학습 기반 지식 임베딩 기법을 통해 학습·예측을 함으로써, 기존의 지식베이스를 증강하는 기능을 수행한다. 본 논문에서 제시한 시스템은 공장내의 에너지 정보를 수집하여 공정 및 설비 상태 및 운영정보를 바탕으로 실시간 제어를 통한 에너지 절감 시스템인 공장 에너지 관리 시스템의 기반 기술로 구현될 예정이다.

멀티 모달 지도 대조 학습을 이용한 농작물 병해 진단 예측 방법 (Multimodal Supervised Contrastive Learning for Crop Disease Diagnosis)

  • 이현석;여도엽;함규성;오강한
    • 대한임베디드공학회논문지
    • /
    • 제18권6호
    • /
    • pp.285-292
    • /
    • 2023
  • With the wide spread of smart farms and the advancements in IoT technology, it is easy to obtain additional data in addition to crop images. Consequently, deep learning-based crop disease diagnosis research utilizing multimodal data has become important. This study proposes a crop disease diagnosis method using multimodal supervised contrastive learning by expanding upon the multimodal self-supervised learning. RandAugment method was used to augment crop image and time series of environment data. These augmented data passed through encoder and projection head for each modality, yielding low-dimensional features. Subsequently, the proposed multimodal supervised contrastive loss helped features from the same class get closer while pushing apart those from different classes. Following this, the pretrained model was fine-tuned for crop disease diagnosis. The visualization of t-SNE result and comparative assessments of crop disease diagnosis performance substantiate that the proposed method has superior performance than multimodal self-supervised learning.

멀티모달 감정인식률 향상을 위한 웨이블릿 기반의 통계적 잡음 검출 및 감정분류 방법 연구 (Wavelet-based Statistical Noise Detection and Emotion Classification Method for Improving Multimodal Emotion Recognition)

  • 윤준한;김진헌
    • 전기전자학회논문지
    • /
    • 제22권4호
    • /
    • pp.1140-1146
    • /
    • 2018
  • 최근 인간의 감정을 인식하는 연구 중 딥러닝 모델을 사용하여 복합적인 생체 신호를 분석하는 방법론이 대두되고 있다. 이때 학습하고자 하는 데이터의 종류에 따른 평가 방법 및 신뢰성은 감정 분류의 정확성에 있어 중요한 요소이다. 생체 신호의 경우 데이터의 신뢰성이 잡음 비율에 따라 결정되므로 잡음 검출 방법이 우수할수록 신뢰도가 올라가며, 감정을 정의하는 방법론에 따라 그에 맞는 적절한 감정 평가 방법이 수반될 때보다 정확하게 감정을 분류할 수 있다. 본 논문에서는 Valence와 Arousal로 라벨링 된 멀티모달 생체 신호 데이터에 대해 데이터의 신뢰성을 검증하기 위한 웨이블릿 기반의 잡음 임곗값 설정 알고리듬 및 감정 평가 시 데이터 신뢰도와 Valence-Arousal 값에 따른 가중치를 부여하여 감정 인식률을 향상하는 방법을 제안한다. 웨이블릿 변환을 이용해 신호의 웨이블릿 성분을 추출 후, 해당 성분의 왜도와 첨도를 구하여 햄펄 식별자를 통해 계산된 임곗값으로 잡음을 검출한 후, 원신호에 대한 잡음 비율을 고려하여 데이터의 신뢰성을 평가하고 가중치로 환산한다. 더불어 감정 데이터 분류 시 Valence-Arousal 평면의 중앙값과의 유클리디언 거리를 가중치로 환산하고, 감정 인식률에 대한 종합 평가 시 두 요소를 반영한다. ASCERTAIN 데이터셋을 활용하여 나타난 감정 인식률 개선 정도를 통해 제안된 알고리듬의 성능을 검증한다.

뇌 종양 등급 분류를 위한 심층 멀티모달 MRI 통합 모델 (Deep Multimodal MRI Fusion Model for Brain Tumor Grading)

  • 나인예;박현진
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.416-418
    • /
    • 2022
  • 신경교종(glioma)은 신경교세포에서 발생하는 뇌 종양으로 low grade glioma와 예후가 나쁜 high grade glioma로 분류된다. 자기공명영상(magnetic Resonance Imaging, MRI)은 비침습적 수단으로 이를 이용한 신경교종 진단에 대한 연구가 활발히 진행되고 있다. 또한, 단일 modality의 정보 한계를 극복하기 위해 다중 modality를 조합하여 상호 보완적인 정보를 얻는 연구도 진행되고 있다. 본 논문은 네가지 modality(T1, T1Gd, T2, T2-FLAIR)의 MRI 영상에 입력단 fusion을 적용한 3D CNN 기반의 모델을 제안한다. 학습된 모델은 검증 데이터에 대해 정확도 0.8926, 민감도 0.9688, 특이도 0.6400, AUC 0.9467의 분류 성능을 보였다. 이를 통해 여러 modality 간의 상호관계를 학습하여 신경교종의 등급을 효과적으로 분류함을 확인하였다.

  • PDF

Gait Type Classification Using Multi-modal Ensemble Deep Learning Network

  • Park, Hee-Chan;Choi, Young-Chan;Choi, Sang-Il
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권11호
    • /
    • pp.29-38
    • /
    • 2022
  • 본 논문에서는 멀티 센서가 장착된 스마트 인솔로 측정한 보행 데이터에 대해 앙상블 딥러닝 네트워크를 이용하여 보행의 타입을 분류하는 시스템을 제안한다. 보행 타입 분류 시스템은 인솔에 의해 측정된 데이터를 정규화하는 부분과 딥러닝 네트워크를 이용하여 보행의 특징을 추출하는 부분, 그리고 추출된 특징을 입력으로 보행의 타입을 분류하는 부분으로 구성되어 있다. 서로 다른 특성을 가지는 CNN과 LSTM을 기반으로 하는 네트워크를 독립적으로 학습하여 두 종류의 보행 특징 맵을 추출하였으며, 각각의 분류 결과를 결합하여 최종적인 앙상블 네트워크의 분류 결과를 도출하였다. 20~30대 성인의 걷기, 뛰기, 빠르게 걷기, 계단 오르기와 내려가기, 언덕 오르기와 내려가기의 7종류의 보행에 대해, 스마트 인솔을 이용하여 실측한 멀티 센서 데이터를 제안한 앙상블 네트워크로 분류해 본 결과 90% 이상의 높은 분류율을 보이는 것을 확인하였다.

CogTV를 위한 생체신호기반 시청자 선호도 모델 (A Viewer Preference Model Based on Physiological Feedback)

  • 박태서;김병희;장병탁
    • 한국지능시스템학회논문지
    • /
    • 제24권3호
    • /
    • pp.316-322
    • /
    • 2014
  • 본 논문은 TV를 이용한 영화시청 환경에서 해당 컨텐트에 대한 시청자의 암묵적 반응과 컨텐트의 멀티모달 피쳐를 실시간으로 측정 및 동기화하여 이를 기반으로 동영상 선호모델을 지속적으로 개선하고 필요시 영화추천을 수행하는 시스템을 제안한다. 제안한 시스템에선 이미지, 소리, 자막 스트림으로부터 실시간 추출되는 저수준 피쳐들과 동기화되어 측정된 얼굴표정, 자세 및 생체신호로부터 해당 동영상이 유발한 시청자의 감정상태를 추정하여 선호모델 학습에 사용한다. 제안한 컨텐트-시청자 연계 추천모델의 일례로서 컨텐트의 오디오 및 자막 정보를 이용하여 시청자의 피부전기활성도로 측정된 arousal반응을 예측할 수 있음을 보인다.

Text Augmentation Using Hierarchy-based Word Replacement

  • Kim, Museong;Kim, Namgyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.57-67
    • /
    • 2021
  • 최근 딥 러닝(Deep Learning) 분석에 이질적인 데이터를 함께 사용하는 멀티모달(Multi-modal) 딥러닝 기술이 많이 활용되고 있으며, 특히 텍스트로부터 자동으로 이미지를 생성해내는 Text to Image 합성에 관한 연구가 활발하게 수행되고 있다. 이미지 합성을 위한 딥러닝 학습은 방대한 양의 이미지와 이미지를 설명하는 텍스트의 쌍으로 구성된 데이터를 필요로 하므로, 소량의 데이터로부터 다량의 데이터를 생성하기 위한 데이터 증강 기법이 고안되어 왔다. 텍스트 데이터 증강의 경우 유의어 대체에 기반을 둔 기법들이 다수 사용되고 있지만, 이들 기법은 명사 단어의 유의어 대체 시 이미지의 내용과 상이한 텍스트를 생성할 가능성이 있다는 한계를 갖는다. 따라서 본 연구에서는 단어가 갖는 품사별 특징을 활용하는 텍스트 데이터 증강 방안, 즉 일부 품사에 대해 단어 계층 정보를 활용하여 단어를 대체하는 방안을 제시하였다. 또한 제안 방법론의 성능을 평가하기 위해 MSCOCO 데이터를 사용하여 실험을 수행하여 결과를 제시하였다.

준 지도학습과 여러 개의 딥 뉴럴 네트워크를 사용한 멀티 모달 기반 감정 인식 알고리즘 (Multi-modal Emotion Recognition using Semi-supervised Learning and Multiple Neural Networks in the Wild)

  • 김대하;송병철
    • 방송공학회논문지
    • /
    • 제23권3호
    • /
    • pp.351-360
    • /
    • 2018
  • 인간 감정 인식은 컴퓨터 비전 및 인공 지능 영역에서 지속적인 관심을 받는 연구 주제이다. 본 논문에서는 wild 환경에서 이미지, 얼굴 특징점 및 음성신호로 구성된 multi-modal 신호를 기반으로 여러 신경망을 통해 인간의 감정을 분류하는 방법을 제안한다. 제안 방법은 다음과 같은 특징을 갖는다. 첫째, multi task learning과 비디오의 시공간 특성을 이용한 준 감독 학습을 사용함으로써 영상 기반 네트워크의 학습 성능을 크게 향상시켰다. 둘째, 얼굴의 1 차원 랜드 마크 정보를 2 차원 영상으로 변환하는 모델을 새로 제안하였고, 이를 바탕으로 한 CNN-LSTM 네트워크를 제안하여 감정 인식을 향상시켰다. 셋째, 특정 감정에 오디오 신호가 매우 효과적이라는 관측을 기반으로 특정 감정에 robust한 오디오 심층 학습 메커니즘을 제안한다. 마지막으로 소위 적응적 감정 융합 (emotion adaptive fusion)을 적용하여 여러 네트워크의 시너지 효과를 극대화한다. 제안 네트워크는 기존의 지도 학습과 반 지도학습 네트워크를 적절히 융합하여 감정 분류 성능을 향상시켰다. EmotiW2017 대회에서 주어진 테스트 셋에 대한 5번째 시도에서, 제안 방법은 57.12 %의 분류 정확도를 달성하였다.