• 제목/요약/키워드: 이미지 학습

Search Result 1,414, Processing Time 0.027 seconds

Multi-Modal based ViT Model for Video Data Emotion Classification (영상 데이터 감정 분류를 위한 멀티 모달 기반의 ViT 모델)

  • Yerim Kim;Dong-Gyu Lee;Seo-Yeong Ahn;Jee-Hyun Kim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.01a
    • /
    • pp.9-12
    • /
    • 2023
  • 최근 영상 콘텐츠를 통해 영상물의 메시지뿐 아니라 메시지의 형식을 통해 전달된 감정이 시청하는 사람의 심리 상태에 영향을 주고 있다. 이에 따라, 영상 콘텐츠의 감정을 분류하는 연구가 활발히 진행되고 있고 본 논문에서는 대중적인 영상 스트리밍 플랫폼 중 하나인 유튜브 영상을 7가지의 감정 카테고리로 분류하는 여러 개의 영상 데이터 중 각 영상 데이터에서 오디오와 이미지 데이터를 각각 추출하여 학습에 이용하는 멀티 모달 방식 기반의 영상 감정 분류 모델을 제안한다. 사전 학습된 VGG(Visual Geometry Group)모델과 ViT(Vision Transformer) 모델을 오디오 분류 모델과 이미지 분류 모델에 이용하여 학습하고 본 논문에서 제안하는 병합 방법을 이용하여 병합 후 비교하였다. 본 논문에서는 기존 영상 데이터 감정 분류 방식과 다르게 영상 속에서 화자를 인식하지 않고 감정을 분류하여 최고 48%의 정확도를 얻었다.

  • PDF

Efficient One-dimensional Current Configuration and Encoding Method for ITSC Diagnosis of 3-Phase Induction Motor using CNN (CNN을 이용한 3상 유도전동기 ITSC 진단의 효율적인 1차원 전류 신호 구성 및 Encoding방법)

  • Yeong-Jin Goh
    • Journal of IKEEE
    • /
    • v.28 no.2
    • /
    • pp.180-186
    • /
    • 2024
  • This paper proposes an efficient fault diagnosis method for ITSC(Inter-Turn Short Circuit) in three-phase induction motors using CNN. By utilizing only the D-axis component of the D-Q synchronous coordinate system, it compares SWM(Slide Window Method) and GAF(Gramian Angular Field) methods for image encoding. Results show GAF achieving ~74% accuracy, while SWM achieves ~65%, indicating GAF's superiority by 9%. Learning time (~14.74s) remains consistent, particularly with epochs ≤ 100, showcasing faster learning.

Implementation of Engine for Authoring and Playing Motion Picture of Computer Screen Images and Audio (컴퓨터 스크린 이미지와 오디오의 동영상저작 및 재생 엔진 구현)

  • 황기태;이재문
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2001.11a
    • /
    • pp.271-275
    • /
    • 2001
  • 본 논문에서는 컴퓨터를 이용한 원격 강의, 원격 학습, 데모 화면 제작 등의 응용들에 필요한 동영상 멀티미디어 시스템의 설계 및 구현을 보인다. 본 논문에서 다루는 연속적으로 변하는 컴퓨터 스크린 이미지는 실세계 비디오와 크기와 영상 특성에 있어 차이점을 가지며 기존의 MPEG 등과 같은 압축 알고리즘이 부적합하다. 시간적으로 변하는 컴퓨터 스크린과 컴퓨터에서 발생하는 오디오로 구성되는 동영상을 저작 재생하는 멀티미디어 시스템 구현 내용과 시스템 성능 평가 결과를 보인다.

  • PDF

Korean VQA with Deep learning (딥러닝을 이용한 한국어 VQA)

  • Bae, Jangseong;Lee, Changki
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.364-366
    • /
    • 2018
  • Visual Question Answering(VQA)은 주어진 이미지와 질문에 대해 알맞은 정답을 찾는 기술이다. VQA는 어린이 학습, 인공지능 비서 등 여러 분야에 활용할 수 있는 중요한 기술이다. 그러나 관련된 한국어 데이터를 확보하기 힘든 이유로 한국어를 이용한 연구는 이루어지지 못하고 있다. 본 논문에서는 기존 영어 VQA 데이터를 한글로 번역하여 한국어 VQA 데이터로 사용하며, 이미지 정보와 질문 정보를 적절히 조절할 수 있는 Gate를 한국어 VQA에 적용한다. 실험 결과, 본 논문에서 제안한 모델이 영어 및 한국어 VQA 데이터에서 다른 모델보다 더 좋은 성능을 보였다.

  • PDF

New Kernel-Based Normality Recovery Method and Applications (새로운 커널 기반 정상 상태 복구 기법과 응용)

  • Gang Dae-Seong;Park Ju-Yeong
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2006.05a
    • /
    • pp.306-309
    • /
    • 2006
  • SVDD(support vector data description)는 one-class 서포트 벡터 학습 방법론 중 하나로 비정상 물체에서 정상 데이터를 구분하기 위해서 특징 공간에서 정의된 구를 이용하는 전략을 쓰는 방법론이다. 본 논문에서는 SVDD를 이용해서 노이즈가 섞인 비정상 데이터를 노이즈가 제거된 정상 데이터로 복원하는 방법에 대해서 논한다. 그리고 저해상도의 이미지를 고해상도의 이미지로 복원함으로써 본 논문의 방법론이 어떻게 실용적으로 적용되는지에 대해서 다룬다.

  • PDF

A Study about the Effect of Edutainment Product on Corporate Image (에듀테인먼트 제품이 기업이미지에 미치는 효과 연구)

  • 김은정;최인규
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.05b
    • /
    • pp.817-820
    • /
    • 2003
  • 멀티미디어 기술 발전으로 인하여 최근 에듀테인먼트에 관하여 많은 연구가 이루어지고 있다. 에듀테인먼트(edutainment)는 교육(education)과 놀이(entertainment)의 합성어로 교육용 소프트웨어에 놀이를 가미하여 게임 하듯이 즐기면서 학습하는 방법이나 프로그램을 말한다. 본 연구에서는 교육과 놀이의 관계를 통한 에듀테인먼트에 대한 문헌연구와 그 제품에 대한 소비자의 기업이미지 파악을 위한 실증연구를 하여 에듀테인먼트의 과학적 개발과정의 이론적 토대를 마련하는 것을 제안한다.

  • PDF

New Fashion Clothing Image Classification (새로운 패션 의류 이미지 분류)

  • Shin, Seong-Yoon;Lee Hyun-Chang;Shin, Kwang-Seong;Kim, Hyung-Jin;Lee, Jae-Wan
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.10a
    • /
    • pp.555-556
    • /
    • 2021
  • We propose a novel method based on a deep learning model with an optimized dynamic decay learning rate and improved model structure to achieve fast and accurate classification of fashion clothing images.

  • PDF

Age and gender prediction model using CNN (CNN 알고리즘을 이용한 나이와 성별 구분 모델)

  • Sung Han Shin;Heung Seok Jeon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.47-50
    • /
    • 2023
  • 본 논문에서는 딥러닝 CNN 알고리즘을 이용하여 사람의 얼굴 이미지를 학습한 다음 나이와 성별을 예측하는 시스템을 제안한다. 이 시스템은 개개인 마다 각기 다른 외형적 특성을 고려하여 이를 분석한 다음 이에 맞는 헤어 스타일, 옷차림을 추천할 수 있다. 해당 기술을 활용하여 메타버스 아바타 생성에 사용자의 얼굴과 같은 신체적 특성을 고려할 수 있다. 향후에는 신체 전체를 이미지화하여 보다 더 다양한 정보를 인식할 수 있도록 연구를 진행할 것이다.

  • PDF

Improving PET Bottle Image Classification Model Performance via Preprocessing (전처리를 통한 페트병 이미지 분류모델 성능 개선)

  • Dong-hyeon Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.473-474
    • /
    • 2023
  • 잘못된 분리수거는 다른 재활용 폐기물의 재활용을 제한한다. 본 논문에서는 올바른 분리수거를 위해 페트병 라벨 유무 분류 모델을 구현했다. 초기 모델의 낮은 성능을 개선하기 위해 이미지 데이터의 노이즈를 줄이는 편집을 거치고 데이터 증강을 적용하였으며, 모델 개선 작업을 진행하여 과적합을 피하면서 더 나은 성능을 도출했다. 최종 모델은 초기 모델보다 비교적 우수한 성능을 보였으나, 실제 활용 면에서는 낮은 성능을 나타냈다. 이는 학습 데이터의 질과 데이터양의 부족에서 나타난 결과로 볼 수 있다.

Image Anomaly Detection Using MLP-Mixer (MLP-Mixer를 이용한 이미지 이상탐지)

  • Hwang, Ju-hyo;Jin, Kyo-hong
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.05a
    • /
    • pp.104-107
    • /
    • 2022
  • autoencoder deep learning model has excellent ability to restore abnormal data to normal data, so it is not appropriate for anomaly detection. In addition, the Inpainting method, which is a method of restoring hidden data after masking (masking) a part of the data, has a problem in that the restoring ability is poor for noisy images. In this paper, we use a method of modifying and improving the MLP-Mixer model to mask the image at a certain ratio and to reconstruct the image by delivering compressed information of the masked image to the model. After constructing a model learned with normal data from the MVTec AD dataset, a reconstruction error was obtained by inputting normal and abnormal images, respectively, and anomaly detection was performed through this. As a result of the performance evaluation, it was found that the proposed method has superior anomaly detection performance compared to the existing method.

  • PDF