• 제목/요약/키워드: Multimodal recognition

검색결과 101건 처리시간 0.028초

하이브리드 센싱 기반 다중참여형 가상현실 이동 플랫폼 개발에 관한 연구 (A Study on the Development of Multi-User Virtual Reality Moving Platform Based on Hybrid Sensing)

  • 장용훈;장민혁;정하형
    • 한국멀티미디어학회논문지
    • /
    • 제24권3호
    • /
    • pp.355-372
    • /
    • 2021
  • Recently, high-performance HMDs (Head-Mounted Display) are becoming wireless due to the growth of virtual reality technology. Accordingly, environmental constraints on the hardware usage are reduced, enabling multiple users to experience virtual reality within a single space simultaneously. Existing multi-user virtual reality platforms use the user's location tracking and motion sensing technology based on vision sensors and active markers. However, there is a decrease in immersion due to the problem of overlapping markers or frequent matching errors due to the reflected light. Goal of this study is to develop a multi-user virtual reality moving platform in a single space that can resolve sensing errors and user immersion decrease. In order to achieve this goal hybrid sensing technology was developed, which is the convergence of vision sensor technology for position tracking, IMU (Inertial Measurement Unit) sensor motion capture technology and gesture recognition technology based on smart gloves. In addition, integrated safety operation system was developed which does not decrease the immersion but ensures the safety of the users and supports multimodal feedback. A 6 m×6 m×2.4 m test bed was configured to verify the effectiveness of the multi-user virtual reality moving platform for four users.

한국어 음성인식 후처리를 위한 주의집중 기반의 멀티모달 모델 (Attention based multimodal model for Korean speech recognition post-editing)

  • 정영석;오병두;허탁성;최정명;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.145-150
    • /
    • 2020
  • 최근 음성인식 분야에서 신경망 기반의 종단간 모델이 제안되고 있다. 해당 모델들은 음성을 직접 입력받아 전사된 문장을 생성한다. 음성을 직접 입력받는 모델의 특성상 데이터의 품질이 모델의 성능에 많은 영향을 준다. 본 논문에서는 이러한 종단간 모델의 문제점을 해결하고자 음성인식 결과를 후처리하기 위한 멀티모달 기반 모델을 제안한다. 제안 모델은 음성과 전사된 문장을 입력 받는다. 입력된 각각의 데이터는 Encoder를 통해 자질을 추출하고 주의집중 메커니즘을 통해 Decoder로 추출된 정보를 전달한다. Decoder에서는 전달받은 주의집중 메커니즘의 결과를 바탕으로 후처리된 토큰을 생성한다. 본 논문에서는 후처리 모델의 성능을 평가하기 위해 word error rate를 사용했으며, 실험결과 Google cloud speech to text모델에 비해 word error rate가 8% 감소한 것을 확인했다.

  • PDF

Artificial Intelligence Plant Doctor: Plant Disease Diagnosis Using GPT4-vision

  • Yoeguang Hue;Jea Hyeoung Kim;Gang Lee;Byungheon Choi;Hyun Sim;Jongbum Jeon;Mun-Il Ahn;Yong Kyu Han;Ki-Tae Kim
    • 식물병연구
    • /
    • 제30권1호
    • /
    • pp.99-102
    • /
    • 2024
  • Integrated pest management is essential for controlling plant diseases that reduce crop yields. Rapid diagnosis is crucial for effective management in the event of an outbreak to identify the cause and minimize damage. Diagnosis methods range from indirect visual observation, which can be subjective and inaccurate, to machine learning and deep learning predictions that may suffer from biased data. Direct molecular-based methods, while accurate, are complex and time-consuming. However, the development of large multimodal models, like GPT-4, combines image recognition with natural language processing for more accurate diagnostic information. This study introduces GPT-4-based system for diagnosing plant diseases utilizing a detailed knowledge base with 1,420 host plants, 2,462 pathogens, and 37,467 pesticide instances from the official plant disease and pesticide registries of Korea. The AI plant doctor offers interactive advice on diagnosis, control methods, and pesticide use for diseases in Korea and is accessible at https://pdoc.scnu.ac.kr/.

전시 공간에서 다중 인터랙션을 위한 개인식별 위치 측위 기술 연구 (The Individual Discrimination Location Tracking Technology for Multimodal Interaction at the Exhibition)

  • 정현철;김남진;최이권
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.19-28
    • /
    • 2012
  • 전시 공간에서 관객들의 반응에 따른 다중 인터랙션 서비스를 제공하기 위해서는 관람객의 정확한 위치 및 이동 경로를 얻기 위한 위치 추적 기술이 필요하다. 실외 환경에서 위치 추적을 위한 기술로 GPS가 현재 널리 사용되고 있다. GPS는 빠른 속도로 이동하는 이동체의 위치를 실시간으로 파악할 수 있으므로 위치 추적 서비스(Location Tracking Service)를 요구하는 분야에서 중요한 기술로 활용된다. 하지만 위성을 이용한 위치 추적 기법을 사용하기 때문에 위성 신호를 잡을 수 없는 실내에서는 사용할 수 없다는 단점이 있다(Per Enge et al., 1996). 위와 같은 이유로 Wi-Fi 위치 측위 기술을 비롯하여 ZigBee, UWB, RFID 등의 초단거리 통신 기술 등 다양한 형태의 실내 위치 측위 연구가 진행되고 있다(Schiler and Voisad, 2004). 하지만 이러한 기술들은 전시 공간에서 얻고자 하는 위치정보의 밀도가 높아질수록 구현의 난이도가 높아지고 구축 및 관리 비용도 커지며 구축 가능한 환경이 제약된다는 단점이 있다. 이와 같은 문제를 해결하기 위하여 본 논문에서는 실내 환경에서 스마트폰을 이용한 Wi-Fi 위치 측위 데이터를 기반으로 하여 3D카메라의 Depth Map 정보와의 매핑을 통해 사용자들을 식별하고 위치를 추적하는 시스템을 제안한다.

모바일 멀티모달 센서 정보의 앙상블 학습을 이용한 장소 인식 (Place Recognition Using Ensemble Learning of Mobile Multimodal Sensory Information)

  • 이충연;이범진;온경운;하정우;김홍일;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권1호
    • /
    • pp.64-69
    • /
    • 2015
  • 본 논문에서는 시각, 음향, 위치 정보를 포함하는 멀티모달 센서 입력 정보로부터 사용자가 위치한 장소의 환경 정보를 학습하고 기계학습 추론을 통해 장소를 인식하는 방법을 제안한다. 이 방법은 음영 지역에서의 정확도 감소나 추가 하드웨어 필요 등 기존 위치 정보 인식 방법이 가지는 제약을 극복 가능하고, 지도상의 단순 좌표 인식이 아닌 논리적 위치 정보 인식을 수행 가능하다는 점에서 해당 위치와 관련된 특정 정보를 활용하여 다양한 생활편의를 제공하는 위치 기반 서비스를 수행하는데 보다 효과적인 방법이 될 수 있다. 제안하는 방법에서는 스마트폰에 내장된 카메라, 마이크로폰, GPS 센서 모듈로부터 획득한 시각, 음향, 위치 정보로부터 특징 벡터들을 추출하여 학습한다. 이때 서로 다른 특성을 가진 특징 벡터들을 학습하기 위해 각각의 특징 벡터들을 서로 다른 분류기를 통해 학습한 후, 그 결과를 기반으로 최종적인 하나의 분류 결과를 얻어내는 앙상블 기법을 사용한다. 실험 결과에서는 각각의 데이터를 따로 학습하여 분류한 결과와 비교하여 높은 성능을 보였다. 또한 사용자 상황인지 기반 서비스의 성능 향상을 위한 방법으로서 제안하는 모델의 스마트폰 앱 구현을 통한 활용 가능성에 대해 논의한다.

XML을 활용한 멀티모달 센서기반 실시간 컨텍스트 통합 시스템 (A Real-time Context Integration System for Multimodal Sensor Networks using XML)

  • 양성익;홍진혁;조성배
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.141-146
    • /
    • 2008
  • 최근 유비쿼터스 환경에서의 다양한 서비스에 대한 연구가 활발히 진행되고 있다. 이러한 서비스들은 사용자의 컨텍스트를 해석하는 것이 중요하며, 이를 위해 PDA, GPS, 가속도 센서 등 다양한 센서들이 활용되고 있다. 가속도 센서와 같은 저급의 연속적인 데이터를 수집하는 센서는 그 데이터를 직접 활용하는 것이 어려우므로 전처리 하는 것이 중요하다. 하지만 실시간으로 전처리하고 컨텍스트를 통합하는 시스템에 대한 연구가 미흡하다. 본 논문에서는 XMI 을 활용하여 가속도 센서와 생리적 신호 센서 등과 같은 저급의 데이터를 전처리하고 컨텍스트를 통합하는 시스템을 제안한다. XML을 통하여 센서 네트워크의 구조를 정의하고, 각 센서별로 수집되는 데이터와 데이터에 해당하는 컨텍스트의 룰을 정의할 수 있다. 제안하는 시스템은 XML을 통하여 센서 네트워크에 센서를 추가할 때와 컨텍스트의 룰을 수정할 때 소스의 수정을 줄여준다. 그리고 이 시스템을 활용하여 실시간으로 데이터를 모니터링하는 시스템을 구현하여 난해한 데이터의 변화를 그래프로 표현해 데이터의 검증을 도와주며, 실시간으로 전처리의 결과를 확인하여 변화가 가능하고, 다른 외부 서비스나 어플리케이션에 사용자의 컨텍스트의 제공을 용이하게 해준다.

  • PDF

유비쿼터스 환경에서 오감 정보 장치를 위한 IEEE 1451 표준 기반의 스마트 인터페이스 방안 (A Way to Smart Interface based on the IEEE 1451 Standards for Five-senses Information Device in Ubiquitous Environments)

  • 김동진;김정도;함유경;이정환
    • 한국산학기술학회논문지
    • /
    • 제9권2호
    • /
    • pp.339-346
    • /
    • 2008
  • 유비쿼터스 컴퓨터는 정보 획득을 위해 다수의 주변 장치들과 인터페이스 한다. 사용자는 이러한 장치들이 인터페이스 되었을 때, 새로운 장치의 사용방법 및 호환성 (플러그 앤 플레이, 구동 드라이브 설치) 등을 고려하지 않고 쉽게 사용해야 한다. 또한, 컴퓨터와 사용자의 원활한 상호작용을 할 수 있는 오감 정보 (사용자의 감각의 인식 및 표현)의 인터페이스 기술이 필요하다. 본 논문에서는 유비쿼터스 컴퓨터의 오감 정보 장치 인터페이스를 위해 스마트 인터페이스 표준인 IEEE 1451 사용을 제안한다. IEEE 1451 표준은 변환기의 특성 정보를 TEDS 포맷으로 정의하고, TEDS를 이용하여 플러그 앤 플레이 기능과 구동드라이브 설치에 따른 불편함을 해소하여 장치들 간의 호환성을 가질 수 있다.

메타버스 대화의 몰입감 증진을 위한 대화 감정 기반 실시간 배경음악 시스템 구현 (Real-time Background Music System for Immersive Dialogue in Metaverse based on Dialogue Emotion)

  • 김기락;이상아;김나현;정문열
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제29권4호
    • /
    • pp.1-6
    • /
    • 2023
  • 메타버스 환경에서의 배경음악은 사용자의 몰입감을 증진시키기 위해 사용된다. 하지만 현재 대부분의 메타버스 환경에서는 사전에 매칭시킨 음원을 반복 재생하며, 이는 빠르게 변화하는 사용자의 상호작용 맥락에 어울리지 못해 사용자의 몰입감을 저해시키는 경향이 있다. 본 논문에서는 보다 몰입감 있는 메타버스 대화 경험을 구현하기 위해 1) 한국어 멀티모달 감정 데이터셋인 KEMDy20을 이용하여 발화로부터 감정을 추출하는 회귀 신경망을 구현하고 2) 음원에 arousal-valence 레벨이 태깅되어 있는 DEAM 데이터셋을 이용하여 발화 감정에 대응되는 음원을 선택하여 재생한 후 3) 아바타를 이용한 실시간 대화가 가능한 가상공간과 결합하여 몰입형 메타버스 환경에서 발화의 감정에 어울리는 배경음악을 실시간으로 재생하는 시스템을 구현하였다.

장소 정보를 학습한 딥하이퍼넷 기반 TV드라마 소셜 네트워크 분석 (Social Network Analysis of TV Drama via Location Knowledge-learned Deep Hypernetworks)

  • 남장군;김경민;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권11호
    • /
    • pp.619-624
    • /
    • 2016
  • Social-aware video는 자유로운 스토리 전개를 통해 인물들간의 관계뿐만 아니라 경제, 정치, 문화 등 다양한 지식을 사람에게 전달해주고 있다. 특히 장소에 따른 사람들간의 대화 습성과 행동 패턴은 사회관계를 분석하는데 있어서 아주 중요한 정보이다. 하지만 멀티모달과 동적인 특성으로 인해 컴퓨터가 비디오로부터 자동으로 지식을 습득하기에는 아직 많은 어려움이 있다. 이러한 문제점들을 해결하기 위해 기존의 연구에서는 딥하이퍼넷 모델을 사용하여 드라마 등장인물의 시각과 언어 정보를 기반으로 계층적 구조를 사용해 소셜 네트워크를 분석하였다. 하지만 장소 정보를 사용하지 않아 전반적인 스토리로부터 소셜 네트워크를 분석할 수밖에 없었다. 본 논문에서는 기존 연구를 바탕으로 장소 정보를 추가하여 각 장소에서의 인물 특성을 분석해 보았다. 본 논문에서는 총 4400분 분량의 TV드라마 "Friends"를 사용했고 C-RNN모델을 통해 등장인물을 인식하였으며 Bag of Features로 장소를 분류하였다. 그리고 딥하이퍼넷 모델을 통해 자동으로 소셜 네트워크를 생성하였고 각 장소에서의 인물 관계 변화를 분석하였다.

멀티모달 딥 러닝 기반 이상 상황 탐지 방법론 (Anomaly Detection Methodology Based on Multimodal Deep Learning)

  • 이동훈;김남규
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.101-125
    • /
    • 2022
  • 최근 컴퓨팅 기술의 발전과 클라우드 환경의 개선에 따라 딥 러닝 기술이 발전하게 되었으며, 다양한 분야에 딥 러닝을 적용하려는 시도가 많아지고 있다. 대표적인 예로 정상적인 데이터에서 벗어나는 값이나 패턴을 식별하는 기법인 이상 탐지가 있으며, 이상 탐지의 대표적 유형인 점 이상, 집단적 이상, 맥락적 이중 특히 전반적인 상황을 파악해야 하는 맥락적 이상을 탐지하는 것은 매우 어려운 것으로 알려져 있다. 일반적으로 이미지 데이터의 이상 상황 탐지는 대용량 데이터로 학습된 사전학습 모델을 사용하여 이루어진다. 하지만 이러한 사전학습 모델은 이미지의 객체 클래스 분류에 초점을 두어 생성되었기 때문에, 다양한 객체들이 만들어내는 복잡한 상황을 탐지해야 하는 이상 상황 탐지에 그대로 적용되기에는 한계가 있다. 이에 본 연구에서는 객체 클래스 분류를 학습한 사전학습 모델을 기반으로 이미지 캡셔닝 학습을 추가적으로 수행하여, 객체 파악뿐만 아니라 객체들이 만들어내는 상황까지 이해해야 하는 이상 상황 탐지에 적절한 2 단계 사전학습 모델 구축 방법론을 제안한다. 구체적으로 제안 방법론은 ImageNet 데이터로 클래스 분류를 학습한 사전학습 모델을 이미지 캡셔닝 모델에 전이하고, 이미지가 나타내는 상황을 설명한 캡션을 입력 데이터로 사용하여 학습을 진행한다. 이후 이미지와 캡션을 통해 상황 특질을 학습한 가중치를 추출하고 이에 대한 미세 조정을 수행하여 이상 상황 탐지 모델을 생성한다. 제안 방법론의 성능을 평가하기 위해 직접 구축한 데이터 셋인 상황 이미지 400장에 대해 이상 탐지 실험을 수행하였으며, 실험 결과 제안 방법론이 기존의 단순 사전학습 모델에 비해 이상 상황 탐지 정확도와 F1-score 측면에서 우수한 성능을 나타냄을 확인하였다.