• 제목/요약/키워드: Multimodal Learning

검색결과 75건 처리시간 0.024초

Artificial Intelligence Plant Doctor: Plant Disease Diagnosis Using GPT4-vision

  • Yoeguang Hue;Jea Hyeoung Kim;Gang Lee;Byungheon Choi;Hyun Sim;Jongbum Jeon;Mun-Il Ahn;Yong Kyu Han;Ki-Tae Kim
    • 식물병연구
    • /
    • 제30권1호
    • /
    • pp.99-102
    • /
    • 2024
  • Integrated pest management is essential for controlling plant diseases that reduce crop yields. Rapid diagnosis is crucial for effective management in the event of an outbreak to identify the cause and minimize damage. Diagnosis methods range from indirect visual observation, which can be subjective and inaccurate, to machine learning and deep learning predictions that may suffer from biased data. Direct molecular-based methods, while accurate, are complex and time-consuming. However, the development of large multimodal models, like GPT-4, combines image recognition with natural language processing for more accurate diagnostic information. This study introduces GPT-4-based system for diagnosing plant diseases utilizing a detailed knowledge base with 1,420 host plants, 2,462 pathogens, and 37,467 pesticide instances from the official plant disease and pesticide registries of Korea. The AI plant doctor offers interactive advice on diagnosis, control methods, and pesticide use for diseases in Korea and is accessible at https://pdoc.scnu.ac.kr/.

선박 탑승자를 위한 다중 센서 기반의 스마트폰을 이용한 활동 인식 시스템 (Activity Recognition of Workers and Passengers onboard Ships Using Multimodal Sensors in a Smartphone)

  • 라지브 쿠마 피야레;이성로
    • 한국통신학회논문지
    • /
    • 제39C권9호
    • /
    • pp.811-819
    • /
    • 2014
  • 상황 인식은 유비쿼터스컴퓨팅 환경에 대한 진화를 변화시켰고 무선 센서네트워크 기술은 많은 응용기기에 대한 새로운 방법을 제시하였다. 특히, 행동 인식은 사람의 응용서비스를 제공하는데 있어 특정 사용자의 상황을 인식하는 핵심 요소로 의학, 취미, 군사 분야에서 폭넓은 응용분야를 갖고 있고 사용반경의 확대에서도 효율과 정확도를 높이는 방법에 크게 기여한다. 스마트폰 센서로부터 나오는 데이터로부터 프레임이 512인셈플 데이터를 얻어, 프레임간50%의 오버랩을 갖도록 하고 Machine Learning Algorithm 인 WEKA Experimenter (University of Waikato, Version 3.6.10)을 써서 데이더로부터 시간영역 특징값을 추출함으로써 행동 인식에 대한 99.33%의 정확도를 얻을 수 있었다. 또한, WEKA Experimenter의 사용기법인 C4.5 Decision Tree과 다른 방법인 BN, NB, SMO or Logistic Regression간의 비교실험을 하였다.

감각 되먹임 종류가 건강한 성인 남성의 올바른 앉은 자세 학습에 미치는 영향 (Effect of Sensory Feedback Type on Correct Sitting Posture Learning on Healthy Adults)

  • 신호진;김성현;조휘영
    • 대한물리의학회지
    • /
    • 제16권4호
    • /
    • pp.125-137
    • /
    • 2021
  • PURPOSE: The growing number of people exposed to a static sitting posture has resulted in an increase in people with a poor posture out of the optimally aligned posture because of the low awareness of a correct sitting posture. Learning the correct sitting posture by applying sensory feedback is essential because a poor posture has negative consequences for the spine. Therefore, this study examined the effects of the sensory feedback types on learning correct sitting posture. METHODS: Thirty-six healthy adult males were assigned to a visual feedback group, a tactile feedback group, and a visuotactile feedback group to learn the correct sitting posture by applying sensory feedback. The spine angle, muscle activity, and muscle thickness were measured in the sitting position using retro-reflexive markers, electromyography, and ultrasound immediately after, five minutes, and 10 minutes after intervention. RESULTS: The intervention time was significantly shorter in the visuotactile feedback group than the visual feedback group (p < .05). Compared to the pre-intervention, the repositioning error angles of the thoracic and lumbar vertebrae of all groups were reduced significantly immediately after intervention and after five minutes. After 10 minutes, there was a significant difference in the thoracic and lumbar repositioning error angles of the tactile feedback group and the visuotactile feedback group (p < .05). No significant difference was noted at any time compared to the pre-intervention in all groups (p > .05). CONCLUSION: The use of tactile and visuotactile feedback in intervention to correct the sitting posture is proposed.

Deep Learning-Based Companion Animal Abnormal Behavior Detection Service Using Image and Sensor Data

  • Lee, JI-Hoon;Shin, Min-Chan;Park, Jun-Hee;Moon, Nam-Mee
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권10호
    • /
    • pp.1-9
    • /
    • 2022
  • 본 논문에서는 영상 데이터와 센서 데이터를 활용한 딥러닝 기반의 반려동물 이상행동 탐지 서비스를 제안한다. 최근 반려동물 보유 가구의 증가로 인해 기존 푸드 및 의료 중심의 반려동물 시장에서 인공지능을 더한 펫테크(Pet Tech) 산업이 성장하고 있다. 본 연구에서는 인공지능을 통한 반려동물의 건강관리를 위해 영상 및 센서 데이터를 활용한 딥러닝 모델을 기반으로 반려동물의 행동을 분류하고, 이상행동을 탐지하였다. 자택의 CCTV와 직접 제작한 펫 웨어러블 디바이스를 활용하여 반려동물의 영상 데이터 및 센서 데이터를 수집하고, 모델의 입력 데이터로 활용한다. 행동의 분류를 위해 본 연구에서는 반려동물의 객체를 검출하기 위한 YOLO(You Only Look Once) 모델과 관절 좌표를 추출하기 위한 DeepLabCut을 결합하여 영상 데이터를 처리하였고, 센서 데이터를 처리하기 위해 각 센서 별 연관관계 및 특징을 파악할 수 있는 GAT(Graph Attention Network)를 활용하였다.

텍스트-비디오 검색 모델에서의 캡션을 활용한 비디오 특성 대체 방안 연구 (A Study on the Alternative Method of Video Characteristics Using Captioning in Text-Video Retrieval Model)

  • 이동훈;허찬;박혜영;박상효
    • 대한임베디드공학회논문지
    • /
    • 제17권6호
    • /
    • pp.347-353
    • /
    • 2022
  • In this paper, we propose a method that performs a text-video retrieval model by replacing video properties using captions. In general, the exisiting embedding-based models consist of both joint embedding space construction and the CNN-based video encoding process, which requires a lot of computation in the training as well as the inference process. To overcome this problem, we introduce a video-captioning module to replace the visual property of video with captions generated by the video-captioning module. To be specific, we adopt the caption generator that converts candidate videos into captions in the inference process, thereby enabling direct comparison between the text given as a query and candidate videos without joint embedding space. Through the experiment, the proposed model successfully reduces the amount of computation and inference time by skipping the visual processing process and joint embedding space construction on two benchmark dataset, MSR-VTT and VATEX.

Analysis of AI Model Hub

  • Yo-Seob Lee
    • International Journal of Advanced Culture Technology
    • /
    • 제11권4호
    • /
    • pp.442-448
    • /
    • 2023
  • Artificial Intelligence (AI) technology has recently grown explosively and is being used in a variety of application fields. Accordingly, the number of AI models is rapidly increasing. AI models are adapted and developed to fit a variety of data types, tasks, and environments, and the variety and volume of models continues to grow. The need to share models and collaborate within the AI community is becoming increasingly important. Collaboration is essential for AI models to be shared and improved publicly and used in a variety of applications. Therefore, with the advancement of AI, the introduction of Model Hub has become more important, improving the sharing, reuse, and collaboration of AI models and increasing the utilization of AI technology. In this paper, we collect data on the model hub and analyze the characteristics of the model hub and the AI models provided. The results of this research can be of great help in developing various multimodal AI models in the future, utilizing AI models in various fields, and building services by fusing various AI models.

의과대학생의 VARK 학습양식과 성별, 학년, 학업성취도간의 차이분석 (Assessment of VARK Learning Styles in Medical School and the Influence of Gender Status, Academic Achievement)

  • 유효현;김영전
    • 한국콘텐츠학회논문지
    • /
    • 제19권11호
    • /
    • pp.144-152
    • /
    • 2019
  • 학습양식은 정보를 습득하고 처리하며 해석하고 조직화하는 도구를 의미한다. VARK(Visual Auditory Read Kinesthetic, VARK) 학습양식은 사용하는 감각양식에 따라 시각, 청각, 읽기/쓰기, 운동감각으로 구분된다. 국내 의과대학에서는 학습자 중심의 학습이 강조되지만 학습자의 VARK 학습양식에 대한 연구는 거의 없다. 본 연구에서는 국내 의과대학 학생을 대상으로 VARK 학습양식을 조사하여 각 학습유형과 성별, 학업성취 수준이 어떤 관계를 가지고 있는지 파악하고자 하였다. 본 연구의 대상은 전북지역 C의과대학·의학전문대학원에 재학 중인 394명의 학생이다. 학습양식검사는 VARK 웹 사이트에서 제공하는 Fleming이 개발한 VARK 검사지© 7.0 한국어버전, 총 16문항이다. 학업성취도는 표준화점수(t점수)로 변환하여 사용하였으며 학습유형에 대한 빈도분석과 집단별 비교를 위한 교차분석 및 분산분석(t-test, ANOVA)을 실시하였다. 연구 결과 학습선호 양식은 단일형이 87명(22.1%), 다중형이 307명(77.9%)이다. 남학생과 여학생 모두 4개 연합형인 VARK를 가장 선호하였다. 성별에 따른 전체 학습양식의 유의미한 차이는 없었다. 의학과 1학년은 단일형이 가장 낮고(8.8%), VARK 유형이 가장 높은 반면(47.8%), 의학과 4학년은 단일형이 가장 높고(30.7%), VARK 4개 연합유형(19.8%)과 3개 연합유형(19.8%)이 가장 낮았다. 모든 학습유형에서 학업성취도 차이는 확인되지 않았다(F=1.09, p=0.37). 의과대학 학생의 학습양식의 선호 결과는 추후 학습자 중심의 다양한 교수전략을 적용하는 기초 자료로서 의미가 있다.

텍스트 및 영상의 멀티모달분석을 이용한 트위터 사용자의 감성 흐름 모니터링 기술 (Monitoring Mood Trends of Twitter Users using Multi-modal Analysis method of Texts and Images)

  • 김은이;고은정
    • 한국융합학회논문지
    • /
    • 제9권1호
    • /
    • pp.419-431
    • /
    • 2018
  • 본 논문은 개인 사용자의 트윗을 분석하여 사용자의 감정 흐름을 모니터링할 수 있는 새로운 방법을 제안한다. 본 논문에서는 사용자의 감성 흐름을 정확하게 예측하기 위해서 기존의 텍스트 위주의 시스템과 달리 본 연구에서는 사용자가 쓴 텍스트와 영상 등으로부터 감성을 인식하는 멀티 모달 분석 기법이 개발된다. 제안된 방법에서는 먼저 어휘분석 및 문맥을 이용한 텍스트분석기와 학습기반의 영상감성인식기를 이용하여 텍스트 및 영상 트윗에 숨겨진 개별 감성을 추출한다. 이후 이들은 규칙기반 통합 방법에 의해 날짜별로 통합되고, 마지막으로 개인의 감성흐름을 보다 직관적으로 관측할 수 있도록 감성흐름그래프로 시각화한다. 제안된 방법의 효용성을 평가하기 위해 두 단계의 실험이 수행되었다. 먼저 4만여 개의 트윗으로부터 제안된 방법의 정확도 평가 실험이 수행되고, 최신 트윗 분석 기술과 비교 분석되었다. 두 번째 실험에서는 40명의 우울증을 가진 사용자와 일반사용자를 구분할 수 있는지에 대한 실험이 수행된 결과, 제안된 기술이 실제 사용자의 감성흐름을 모니터하는데 효율적임을 증명하였다.

이미지 캡션 생성을 위한 심층 신경망 모델의 설계 (Design of a Deep Neural Network Model for Image Caption Generation)

  • 김동하;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권4호
    • /
    • pp.203-210
    • /
    • 2017
  • 본 논문에서는 이미지 캡션 생성과 모델 전이에 효과적인 심층 신경망 모델을 제시한다. 본 모델은 멀티 모달 순환 신경망 모델의 하나로서, 이미지로부터 시각 정보를 추출하는 컨볼루션 신경망 층, 각 단어를 저차원의 특징으로 변환하는 임베딩 층, 캡션 문장 구조를 학습하는 순환 신경망 층, 시각 정보와 언어 정보를 결합하는 멀티 모달 층 등 총 5 개의 계층들로 구성된다. 특히 본 모델에서는 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛을 이용하여 순환 신경망 층을 구성하며, 캡션 문장 생성을 위한 매 순환 단계마다 이미지의 시각 정보를 이용할 수 있도록 컨볼루션 신경망 층의 출력을 순환 신경망 층의 초기 상태뿐만 아니라 멀티 모달 층의 입력에도 연결하는 구조를 가진다. Flickr8k, Flickr30k, MSCOCO 등의 공개 데이터 집합들을 이용한 다양한 비교 실험들을 통해, 캡션의 정확도와 모델 전이의 효과 면에서 본 논문에서 제시한 멀티 모달 순환 신경망 모델의 높은 성능을 확인할 수 있었다.

멀티모달 딥 러닝 기반 이상 상황 탐지 방법론 (Anomaly Detection Methodology Based on Multimodal Deep Learning)

  • 이동훈;김남규
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.101-125
    • /
    • 2022
  • 최근 컴퓨팅 기술의 발전과 클라우드 환경의 개선에 따라 딥 러닝 기술이 발전하게 되었으며, 다양한 분야에 딥 러닝을 적용하려는 시도가 많아지고 있다. 대표적인 예로 정상적인 데이터에서 벗어나는 값이나 패턴을 식별하는 기법인 이상 탐지가 있으며, 이상 탐지의 대표적 유형인 점 이상, 집단적 이상, 맥락적 이중 특히 전반적인 상황을 파악해야 하는 맥락적 이상을 탐지하는 것은 매우 어려운 것으로 알려져 있다. 일반적으로 이미지 데이터의 이상 상황 탐지는 대용량 데이터로 학습된 사전학습 모델을 사용하여 이루어진다. 하지만 이러한 사전학습 모델은 이미지의 객체 클래스 분류에 초점을 두어 생성되었기 때문에, 다양한 객체들이 만들어내는 복잡한 상황을 탐지해야 하는 이상 상황 탐지에 그대로 적용되기에는 한계가 있다. 이에 본 연구에서는 객체 클래스 분류를 학습한 사전학습 모델을 기반으로 이미지 캡셔닝 학습을 추가적으로 수행하여, 객체 파악뿐만 아니라 객체들이 만들어내는 상황까지 이해해야 하는 이상 상황 탐지에 적절한 2 단계 사전학습 모델 구축 방법론을 제안한다. 구체적으로 제안 방법론은 ImageNet 데이터로 클래스 분류를 학습한 사전학습 모델을 이미지 캡셔닝 모델에 전이하고, 이미지가 나타내는 상황을 설명한 캡션을 입력 데이터로 사용하여 학습을 진행한다. 이후 이미지와 캡션을 통해 상황 특질을 학습한 가중치를 추출하고 이에 대한 미세 조정을 수행하여 이상 상황 탐지 모델을 생성한다. 제안 방법론의 성능을 평가하기 위해 직접 구축한 데이터 셋인 상황 이미지 400장에 대해 이상 탐지 실험을 수행하였으며, 실험 결과 제안 방법론이 기존의 단순 사전학습 모델에 비해 이상 상황 탐지 정확도와 F1-score 측면에서 우수한 성능을 나타냄을 확인하였다.