• 제목/요약/키워드: 멀티모달 학습

검색결과 77건 처리시간 0.036초

한국형 멀티모달 몽타주 앱을 위한 생성형 AI 연구 (Research on Generative AI for Korean Multi-Modal Montage App)

  • 임정현;차경애;고재필;홍원기
    • 서비스연구
    • /
    • 제14권1호
    • /
    • pp.13-26
    • /
    • 2024
  • 멀티모달 (multi-modal) 생성이란 텍스트, 이미지, 오디오 등 다양한 정보를 기반으로 결과를 도출하는 작업을 말한다. AI 기술의 비약적인 발전으로 인해 여러 가지 유형의 데이터를 종합적으로 처리해 결과를 도출하는 멀티모달 기반 시스템 또한 다양해지는 추세이다. 본 논문은 음성과 텍스트 인식을 활용하여 인물을 묘사하면, 몽타주 이미지를 생성하는 AI 시스템의 개발 내용을 소개한다. 기존의 몽타주 생성 기술은 서양인들의 외형을 기준으로 이루어진 반면, 본 논문에서 개발한 몽타주 생성 시스템은 한국인의 안면 특징을 바탕으로 모델을 학습한다. 따라서, 한국어에 특화된 음성과 텍스트의 멀티모달을 기반으로 보다 정확하고 효과적인 한국형 몽타주 이미지를 만들어낼 수 있다. 개발된 몽타주 생성 앱은 몽타주 초안으로 충분히 활용 가능하기 때문에 기존의 몽타주 제작 인력의 수작업을 획기적으로 줄여줄 수 있다. 이를 위해 한국지능정보사회진흥원의 AI-Hub에서 제공하는 페르소나 기반 가상 인물 몽타주 데이터를 활용하였다. AI-Hub는 AI 기술 및 서비스 개발에 필요한 인공지능 학습용 데이터를 구축하여 원스톱 제공을 목적으로 한 AI 통합 플랫폼이다. 이미지 생성 시스템은 고해상도 이미지를 생성하는데 사용하는 딥러닝 모델인 VQGAN과 한국어 기반 영상생성 모델인 KoDALLE 모델을 사용하여 구현하였다. 학습된 AI 모델은 음성과 텍스트를 이용해 묘사한 내용과 매우 유사한 얼굴의 몽타주 이미지가 생성됨을 확인할 수 있다. 개발된 몽타주 생성 앱의 실용성 검증을 위해 10명의 테스터가 사용한 결과 70% 이상이 만족한다는 응답을 보였다. 몽타주 생성 앱은 범죄자 검거 등 얼굴의 특징을 묘사하여 이미지화하는 여러 분야에서 다양하게 사용될 수 있을 것이다.

멀티모달 사용자 중심 인터페이스를 적용한 인체 학습 시스템 (Human body learning system using multimodal and user-centric interfaces)

  • 김기민;김재일;박진아
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.85-90
    • /
    • 2008
  • 본 논문은 유연하고 다각적인 인터페이스를 이용한 사용자 중심의 능동적인 인체 학습 시스템을 제안한다. 기존의 인체 학습 방법은 이미지, 텍스트, 영상자료부터 학습자로의 주입식 학습이었다. 본 논문에서 제안한 인체 학습 시스템은 실제 인체 장기 데이터로 제작된 3D 인체 장기 모델을 제공함으로써 학습자는 사실적인 장기의 형태를 3차원 공간에서 보고, 장기에 대한 촉감을 제공하는 햅틱 인터페이스와 학습자의 의도에 기반한 카메라 시스템으로 써 능동적이고 다각적인 학습을 진행할 수 있다. 그리고 계층 기반 장기 분류를 통하여 구축된 학습 정보를 통하여, 전체적인 시각에 기초한 인체 학습 과정을 진행할 수 있다. 본 인체 학습 시스템으로써 기존의 평면적인 인체 학습교재, 자료 등에서 얻을 수 없는 입체적인 인터페이스를 통한 학습 효율 향상의 가능성을 보고자 한다.

  • PDF

모바일 멀티모달 센서 정보의 앙상블 학습을 이용한 장소 인식 (Place Recognition Using Ensemble Learning of Mobile Multimodal Sensory Information)

  • 이충연;이범진;온경운;하정우;김홍일;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권1호
    • /
    • pp.64-69
    • /
    • 2015
  • 본 논문에서는 시각, 음향, 위치 정보를 포함하는 멀티모달 센서 입력 정보로부터 사용자가 위치한 장소의 환경 정보를 학습하고 기계학습 추론을 통해 장소를 인식하는 방법을 제안한다. 이 방법은 음영 지역에서의 정확도 감소나 추가 하드웨어 필요 등 기존 위치 정보 인식 방법이 가지는 제약을 극복 가능하고, 지도상의 단순 좌표 인식이 아닌 논리적 위치 정보 인식을 수행 가능하다는 점에서 해당 위치와 관련된 특정 정보를 활용하여 다양한 생활편의를 제공하는 위치 기반 서비스를 수행하는데 보다 효과적인 방법이 될 수 있다. 제안하는 방법에서는 스마트폰에 내장된 카메라, 마이크로폰, GPS 센서 모듈로부터 획득한 시각, 음향, 위치 정보로부터 특징 벡터들을 추출하여 학습한다. 이때 서로 다른 특성을 가진 특징 벡터들을 학습하기 위해 각각의 특징 벡터들을 서로 다른 분류기를 통해 학습한 후, 그 결과를 기반으로 최종적인 하나의 분류 결과를 얻어내는 앙상블 기법을 사용한다. 실험 결과에서는 각각의 데이터를 따로 학습하여 분류한 결과와 비교하여 높은 성능을 보였다. 또한 사용자 상황인지 기반 서비스의 성능 향상을 위한 방법으로서 제안하는 모델의 스마트폰 앱 구현을 통한 활용 가능성에 대해 논의한다.

스마트 기기의 멀티 모달 로그 데이터를 이용한 사용자 성별 예측 기법 연구 (A Study on Method for User Gender Prediction Using Multi-Modal Smart Device Log Data)

  • 김윤정;최예림;김소이;박규연;박종헌
    • 한국전자거래학회지
    • /
    • 제21권1호
    • /
    • pp.147-163
    • /
    • 2016
  • 스마트 기기 사용자의 성별 정보는 성공적인 개인화 서비스를 위해 중요하며, 스마트 기기로부터 수집된 멀티 모달 로그 데이터는 사용자의 성별 예측에 중요한 근거가 된다. 하지만 각 멀티 모달 데이터의 특성에 따라 다른 방식으로 성별 예측을 수행해야 한다. 따라서 본 연구에서는 스마트 기기로부터 발생한 로그 데이터 중 텍스트, 어플리케이션, 가속도 데이터에 기반한 각기 다른 분류기의 예측 결과를 다수결 방식으로 앙상블하여 최종 성별을 예측하는 기법을 제안한다. 텍스트 데이터를 이용한 분류기는 데이터 유출에 의한 사생활 침해 문제를 최소화하기 위해 웹 문서로부터 각 성별의 특징적 단어 집합을 도출하고 이를 기기로 전송하여 사용자의 기기 내에서 성별 분류를 수행한다. 어플리케이션 데이터에 기반한 분류기는 사용자가 실행한 어플리케이션들에 성별을 부여하고 높은 비율을 차지하는 성별로 사용자의 성별을 예측한다. 가속도 기반 분류기는 성별에 따른 사용자의 가속도 데이터 인스턴스를 학습한 SVM 모델을 사용하여 주어진 성별을 분류한다. 자체 제작한 안드로이드 어플리케이션을 통해 수집된 실제 스마트 기기 로그 데이터를 사용하여 제안하는 기법을 평가하였으며 그 결과 높은 예측 성능을 보였다.

동적 베이지안 네트워크를 이용한 델티모달센서기반 사용자 행동인식 (Activity Recognition based on Multi-modal Sensors using Dynamic Bayesian Networks)

  • 양성익;홍진혁;조성배
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권1호
    • /
    • pp.72-76
    • /
    • 2009
  • 최근 유비쿼터스 컴퓨팅에 대한 관심이 높아지면서 유비쿼터스 환경에서의 서비스를 위한 인간과 컴퓨터의 상호 작용, 특히 인간의 행동을 인식하는 연구가 활발히 진행되고 있다. 기존의 영상기반 연구와는 달리 모바일 환경에 적합하도록 가속도 센서, 생리신호 센서 등 다양한 센서들을 활용하여 사용자의 행동을 인식하는 기법이 연구되고 있다. 본 논문에서는 멀티모달 센서들을 통합하고 동적 베이지안 네트워크를 계층적으로 구성하여 사용자의 행동을 인식하는 방법을 제안한다. 연산량이 비교적 적은 베이지안 네트워크로 전반적인 사용자 행동을 추론하고 획득된 각 행동의 확률순으로 동적 베이지안 네트워크를 구성한다. 동적 베이지안 네트워크는 OVR(One-Versus-Rest) 전략으로 학습되며, 확률순으로 행동이 검증되어 임계치를 넘는 경우 선택된 행동보다 낮은 확률의 행동에 대한 동적 베이지안 네트워크를 검증하지 않아 추론 연산량을 줄인다. 본 논문에서는 가속도 센서와 생리적 신호 센서를 기반으로 총 8가지의 행동을 인식하는 문제에 제안하는 방법을 적용하여 평균적으로 97.4%의 분류 정확률을 얻었다.

주얼리 비즈니스를 위한 협업형 AI의 분석 연구 (An Analysis Study on Collaborative AI for the Jewelry Business)

  • 강혜림
    • 문화기술의 융합
    • /
    • 제10권4호
    • /
    • pp.305-310
    • /
    • 2024
  • 생성형 AI의 등장으로 AI는 인류와 본격적인 공존을 시작하였다. 방대한 데이터 기반의 AI 학습역량은 인간의 학습과는 다른 차원의 생산성으로 산업체에서 활용되고 있다. 그럼에도 불구하고 AI는 테크노포비아와 같은 어두운 이면의 사회적 현상도 보인다. AI에 대한 이해를 바탕으로 협업이 가능한 AI 모델을 분석하고 주얼리 산업에서 활용이 가능한 분야를 확인한다. 협업형 AI 모델을 활용하면 '아이디어 전개의 가속화', '디자인 역량의 강화', '생산성 강화' , '멀티모달 기능의 내재화' 등을 기대할 수 있다. 결국 AI는 협업이 가능한 도구적 관점에서 활용해야 하며, 이를 위해서는 주체성 있는 인간 중심의 마인드 셋이 필요하다. 본 연구의 주얼리 비즈니스를 위한 AI 협업방안 제언을 통해 주얼리 산업의 경쟁력 강화에 도움이 되기를 바란다.

지능형 전시 서비스 구현을 위한 멀티모달 감정 상태 추정 모형 (Multimodal Emotional State Estimation Model for Implementation of Intelligent Exhibition Services)

  • 이기천;최소윤;김재경;안현철
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.1-14
    • /
    • 2014
  • 최근 관람객의 반응에 따라 실시간으로 대응하여 관객의 몰입과 만족도를 증대시키는 인터랙티브 전시 서비스에 대한 학계와 산업계의 관심이 높아지고 있다. 이러한 인터랙티브 전시 서비스를 효과적으로 구현하기 위해서는 관객의 반응을 통해 해당 관객이 느끼는 감정 상태를 추정할 수 있는 지능형 기술의 도입이 요구된다. 인간의 감정 상태를 추정하기 위한 시도들은 많은 연구들에서 이루어져 왔고, 그 중 대부분은 사람의 얼굴 표정이나 소리 반응을 통해 감정 상태를 추정하는 방식을 도입하고 있다. 하지만, 최근 소개되고 있는 연구들에 따르면 단일 반응이 아닌 여러 반응을 종합적으로 고려하는 이른바 멀티 모달(multimodal) 접근을 사용했을 경우, 인간의 감정 상태를 보다 정확하게 추정할 수 있다. 이러한 배경에서 본 연구는 키넥트 센서를 통해 측정되는 관객의 얼굴 표정, 몸짓, 움직임 등을 종합적으로 고려한 새로운 멀티모달 감정 상태 추정 모형을 제안하고 있다. 제안모형의 예측 기법으로는 방대한 양의 데이터를 효과적으로 처리하기 위해, 몬테칼로(Monte Carlo) 방법인 계층화 샘플링(stratified sampling) 방법에 기반한 다중회귀분석을 적용하였다. 제안 모형의 성능을 검증하기 위해, 15명의 피실험자로부터 274개의 독립 및 종속변수들로 구성된 602,599건의 관측 데이터를 수집하여 여기에 제안 모형을 적용해 보았다. 그 결과 10~15% 이내의 평균오차 범위 내에서 피실험자의 쾌/불쾌도(valence) 및 각성도(arousal) 상태를 정확하게 추정할 수 있음을 확인할 수 있었다. 이러한 본 연구의 제안 모형은 비교적 구현이 간단하면서도 안정성이 높아, 향후 지능형 전시 서비스 및 기타 원격학습이나 광고 분야 등에 효과적으로 활용될 수 있을 것으로 기대된다.

리뷰 데이터와 제품 정보를 이용한 멀티모달 감성분석 (Multimodal Sentiment Analysis Using Review Data and Product Information)

  • 황호현;이경찬;유진이;이영훈
    • 한국전자거래학회지
    • /
    • 제27권1호
    • /
    • pp.15-28
    • /
    • 2022
  • 최근 의류 등의 특정 쇼핑몰의 온라인 시장이 크게 확대되면서, 사용자의 리뷰를 활용하는 것이 주요한 마케팅 방안이 되었다. 이를 이용한 감성분석에 대한 연구들도 많이 진행되고 있다. 감성분석은 사용자의 리뷰를 긍정과 부정 그리고 필요에 따라서 중립으로 분류하는 방법이다. 이 방법은 크게 머신러닝 기반의 감성분석과 사전기반의 감성분석으로 나눌 수 있다. 머신러닝 기반의 감성분석은 사용자의 리뷰 데이터와 그에 대응하는 감성 라벨을 이용해서 분류 모델을 학습하는 방법이다. 감성분석 분야의 연구가 발전하면서 리뷰와 함께 제공되는 이미지나 영상 데이터 등을 함께 고려하여 학습하는 멀티모달 방식의 모델들이 연구되고 있다. 리뷰 데이터에서 제품의 카테고리와 사용자별로 사용되는 단어 등의 특징이 다르다. 따라서 본 논문에서는 리뷰데이터와 제품 정보를 동시에 고려하여 감성분석을 진행한다. 리뷰를 분류하는 모델로는 기본 순환신경망 구조에서 Gate 방식을 도입한 Gated Recurrent Unit(GRU), Long Short-Term Memory(LSTM) 그리고 Self Attention 기반의 Multi-head Attention 모델, Bidirectional Encoder Representation from Transformer(BERT)를 사용해서 각각 성능을 비교하였다. 제품 정보는 모두 동일한 Multi-Layer Perceptron(MLP) 모델을 이용하였다. 본 논문에서는 사용자 리뷰를 활용한 Baseline Classifier의 정보와 제품 정보를 활용한 MLP모델의 결과를 결합하는 방법을 제안하며 실제 데이터를 통해 성능의 우수함을 보인다.

멀티 모달 정보 분석을 이용한 TV 골프 방송 프로그램에서의 이벤트 검출 및 요약 (Event Detection and Summarization of TV Golf Broadcasting Program using Analyzed Multi-modal Information)

  • 남상순;김형국
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2009년도 추계학술대회
    • /
    • pp.173-176
    • /
    • 2009
  • 본 논문에서는 영상 정보와 오디오 정보 분석을 이용하여 TV 골프 방송 프로그램에서 중요 이벤트 구간을 검출하고 요약 하는 알고리즘을 제안한다. 제안하는 알고리즘에서는 입력되는 TV 골프 동영상을 영상 신호와 오디오 신호로 분리한 후에, 연속적인 오디오 스트림을 내용 기반의 오디오 구간으로 분류한 뒤 오디오 이벤트 구간을 검출하고, 이와 병렬적으로 영상정보에서 선수들의 플레이 장면을 검출한다. 플레이 장면 검출에 있어서는 방송 환경이나 날씨 등의 변화하는 다양한 조건에 대해 플레이 장면에 대한 오프라인 모델과 함께 경기 내에서 발생한 온라인 모델에 대한 학습을 혼합 적용함으로써 검출 성능을 높였다. 오디오 신호로부터 관중들의 박수소리와 스윙 사운드를 통해 검출된 오디오 이벤트와 플레이 장면은 이벤트 장면 검출 및 요약본 생성을 위해 사용된다. 제안된 알고리즘은 멀티 모달 정보를 이용하여 이벤트 구간 검출을 수행함으로써 중요 이벤트 구간 검출의 정확도를 높일 수 있었고, 검출된 이벤트 구간에 대한 요약본 생성을 통해 골프 경기를 시청하는 사용자가 원하는 부분을 빠르게 브라우징하여 시청하는 것이 가능하여 높은 사용자 만족도를 얻을 수 있었다.

  • PDF