• Title/Summary/Keyword: GRU 모델

Search Result 100, Processing Time 0.03 seconds

Speech emotion recognition through time series classification (시계열 데이터 분류를 통한 음성 감정 인식)

  • Kim, Gi-duk;Kim, Mi-sook;Lee, Hack-man
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.11-13
    • /
    • 2021
  • 본 논문에서는 시계열 데이터 분류를 통한 음성 감정 인식을 제안한다. mel-spectrogram을 사용하여 음성파일에서 특징을 뽑아내 다변수 시계열 데이터로 변환한다. 이를 Conv1D, GRU, Transformer를 결합한 딥러닝 모델에 학습시킨다. 위의 딥러닝 모델에 음성 감정 인식 데이터 세트인 TESS, SAVEE, RAVDESS, EmoDB에 적용하여 각각의 데이터 세트에서 기존의 모델 보다 높은 정확도의 음성 감정 분류 결과를 얻을 수 있었다. 정확도는 99.60%, 99.32%, 97.28%, 99.86%를 얻었다.

  • PDF

Action recognition, hand gesture recognition, and emotion recognition using text classification method (Text classification 방법을 사용한 행동 인식, 손동작 인식 및 감정 인식)

  • Kim, Gi-Duk
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.01a
    • /
    • pp.213-216
    • /
    • 2021
  • 본 논문에서는 Text Classification에 사용된 딥러닝 모델을 적용하여 행동 인식, 손동작 인식 및 감정 인식 방법을 제안한다. 먼저 라이브러리를 사용하여 영상에서 특징 추출 후 식을 적용하여 특징의 벡터를 저장한다. 이를 Conv1D, Transformer, GRU를 결합한 모델에 학습시킨다. 이 방법을 통해 하나의 딥러닝 모델을 사용하여 다양한 분야에 적용할 수 있다. 제안한 방법을 사용해 SYSU 3D HOI 데이터셋에서 99.66%, eNTERFACE' 05 데이터셋에 대해 99.0%, DHG-14 데이터셋에 대해 95.48%의 클래스 분류 정확도를 얻을 수 있었다.

  • PDF

A Design of Behavior Recognition method through GAN-based skeleton data generation (GAN 기반 관절 데이터 생성을 통한 행동 인식 방법 설계)

  • Kim, Jinah;Moon, Nammee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.592-593
    • /
    • 2022
  • 다중 데이터 기반의 행동 인식 과정에서 데이터 수집 반경이 비교적 제한되는 영상 데이터의 결측에 대한 보완이 요구된다. 본 논문에서는 6축 센서 데이터를 이용하여 결측된 영상 데이터를 생성함으로써 행동 인식의 성능을 개선하는 방법을 제안한다. 가속도와 자이로 센서로부터 수집된 행동 데이터를 이용하여 GAN(Generative Adversarial Network)을 통해 영상에서의 관절(Skeleton) 움직임에 대한 데이터를 생성하고자 한다. 이를 위해 DeepLabCut 기반 모델 학습을 통해 관절 좌표를 추출하며, 전처리된 센서 시퀀스 데이터를 가지고 GRU 기반 GAN 모델을 통해 관절 좌표에 대한 영상 시퀀스 데이터를 생성한다. 생성된 영상 시퀀스 데이터는 영상 데이터의 결측이 발생했을 때 대신 행동 인식 모델의 입력값으로 활용될 수 있어 성능 향상을 기대할 수 있다.

Prediction and Performance Comparison of In-Vehicle Traffic over Time in a Vehicle Infotainment Environment (차량 인포테인먼트 환경에서 시간에 따른 차량 내부 발생 트래픽 예측 및 성능 비교)

  • SuJeong Choi;Yujin Im
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.549-551
    • /
    • 2023
  • 차량용 인포테인먼트 시스템은 차량 내부에서 정보와 엔터테인먼트 기능을 제공하는 시스템으로, 현재 급격한 성장세를 보이고 있다. 이에 따라 많은 기업이 차량용 인포테인먼트 관련 기술을 연구하고 개발하고 있다. 이는 결국 차량에서 발생하는 트래픽이 이전보다 증가하는 것을 의미한다. 차량 발생 트래픽은 모바일 트래픽과 달리 시간에 따라 뚜렷한 발생 패턴을 보인다. 이러한 특성을 고려하여 RNN, LSTM, GRU 세 가지 종류의 순환 신경망 모델을 활용하여 차량 트래픽 예측 모델을 구현하였고 시간대별 모델 성능을 비교한 결과, LSTM이 가장 우수한 성능을 보였다.

Behavior Classification Model Based on Graph Generation Using Time Series Structural Feature (시계열 내부 구조 기반 그래프 생성을 통한 행동 분류 모델)

  • Hyuksoon Choi;Jinhwan Yang;Siung Kim;Sungsik Kim;Nammee Moon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.37-40
    • /
    • 2024
  • 본 연구에서는 웨어러블 디바이스로부터 수집된 다변량 반려동물 행동 데이터를 처리하기 위해, GCN(Graph Convolutional Network)과 GRU(Gated Recurrent Unit)를 결합한 모델을 제안한다. 제안된 모델은 시계열 내부 구조를 활용하여 그래프 구조로 변환하고, DTW(Dynamic Time Warping) 유사도 분석을 통해 노드 간의 시간적 유사도를 기반으로 엣지를 생성한다. 실험결과로 DTW 기반 엣지 생성 방식이 유클리드 거리 및 선형 방식에 비해 더 높은 성능을 나타냈다. 본 연구는 반려동물의 행동을 정확히 분류하기 위한 효과적인 방법론을 제공한다.

Hangul Handwriting Recognition using Recurrent Neural Networks (순환신경망을 이용한 한글 필기체 인식)

  • Kim, Byoung-Hee;Zhang, Byoung-Tak
    • KIISE Transactions on Computing Practices
    • /
    • v.23 no.5
    • /
    • pp.316-321
    • /
    • 2017
  • We analyze the online Hangul handwriting recognition problem (HHR) and present solutions based on recurrent neural networks. The solutions are organized according to the three kinds of sequence labeling problem - sequence classifications, segment classification, and temporal classification, with additional consideration of the structural constitution of Hangul characters. We present a stacked gated recurrent unit (GRU) based model as the natural HHR solution in the sequence classification level. The proposed model shows 86.2% accuracy for recognizing 2350 Hangul characters and 98.2% accuracy for recognizing the six types of Hangul characters. We show that the type recognizing model successfully follows the type change as strokes are sequentially written. These results show the potential for RNN models to learn high-level structural information from sequential data.

Method of preventing Pressure Ulcer and EMR data preprocess

  • Kim, Dowon;Kim, Minkyu;Kim, Yoon;Han, Seon-Sook;Heo, Jungwon;Choi, Hyun-Soo
    • Journal of the Korea Society of Computer and Information
    • /
    • v.27 no.12
    • /
    • pp.69-76
    • /
    • 2022
  • This paper proposes a method of refining and processing time-series data using Medical Information Mart for Intensive Care (MIMIC-IV) v2.0 data. In addition, the significance of the processing method was validated through a machine learning-based pressure ulcer early warning system using a dataset processed based on the proposed method. The implemented system alerts medical staff in advance 12 and 24 hours before a lesion occurs. In conjunction with the Electronic Medical Record (EMR) system, it informs the medical staff of the risk of a patient's pressure ulcer development in real-time to support a clinical decision, and further, it enables the efficient allocation of medical resources. Among several machine learning models, the GRU model showed the best performance with AUROC of 0.831 for 12 hours and 0.822 for 24 hours.

Analysis of interest in non-face-to-face medical counseling of modern people in the medical industry (의료 산업에 있어 현대인의 비대면 의학 상담에 대한 관심도 분석 기법)

  • Kang, Yooseong;Park, Jong Hoon;Oh, Hayoung;Lee, Se Uk
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.26 no.11
    • /
    • pp.1571-1576
    • /
    • 2022
  • This study aims to analyze the interest of modern people in non-face-to-face medical counseling in the medical industrys. Big data was collected on two social platforms, 지식인, a platform that allows experts to receive medical counseling, and YouTube. In addition to the top five keywords of telephone counseling, "internal medicine", "general medicine", "department of neurology", "department of mental health", and "pediatrics", a data set was built from each platform with a total of eight search terms: "specialist", "medical counseling", and "health information". Afterwards, pre-processing processes such as morpheme classification, disease extraction, and normalization were performed based on the crawled data. Data was visualized with word clouds, broken line graphs, quarterly graphs, and bar graphs by disease frequency based on word frequency. An emotional classification model was constructed only for YouTube data, and the performance of GRU and BERT-based models was compared.

Multimodal Sentiment Analysis Using Review Data and Product Information (리뷰 데이터와 제품 정보를 이용한 멀티모달 감성분석)

  • Hwang, Hohyun;Lee, Kyeongchan;Yu, Jinyi;Lee, Younghoon
    • The Journal of Society for e-Business Studies
    • /
    • v.27 no.1
    • /
    • pp.15-28
    • /
    • 2022
  • Due to recent expansion of online market such as clothing, utilizing customer review has become a major marketing measure. User review has been used as a tool of analyzing sentiment of customers. Sentiment analysis can be largely classified with machine learning-based and lexicon-based method. Machine learning-based method is a learning classification model referring review and labels. As research of sentiment analysis has been developed, multi-modal models learned by images and video data in reviews has been studied. Characteristics of words in reviews are differentiated depending on products' and customers' categories. In this paper, sentiment is analyzed via considering review data and metadata of products and users. Gated Recurrent Unit (GRU), Long Short-Term Memory (LSTM), Self Attention-based Multi-head Attention models and Bidirectional Encoder Representation from Transformer (BERT) are used in this study. Same Multi-Layer Perceptron (MLP) model is used upon every products information. This paper suggests a multi-modal sentiment analysis model that simultaneously considers user reviews and product meta-information.

Development of Agricultural Reservoir Inflow Prediction Model Using Deep Learning (딥러닝 기법을 활용한 농업용 저수지 유입량 예측 모델 개발)

  • Seon Mi Lee;Chul Hee Lee;Jae Eung Yi
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.390-390
    • /
    • 2023
  • 최근 기후변화로 인해 가뭄이 5 ~ 7년 주기로 발생하고 있으며 가뭄 강도가 심화되고 있고, 이러한 현상은 향후 10년 이상이 지속될 것으로 예측되고 있다. 이러한 가뭄으로 인해 2022년에는 각 지역에서 제한급수 및 운반급수 피해인구가 발생하였으며, 전국의 다목적댐 또는 용수전용댐에서는 가뭄 대응을 위해 용수를 감량하였다. 특히 2018년에는 농업용수 공급이 어려워 다수의 지역에서는 논이 마르고 밭이 시들어 농업피해가 발생하였다. 이에 따라 농업용 저수지에서는 가뭄 대응을 위해 저수지 운영곡선 및 연계운영 등과 같은 저수지 운영방안 수립이 필요한 실정이다. 하지만 다목적댐과는 달리 농업용 저수지에서는 수문 계측자료가 부족하기 때문에 저수지 운영방안 수립에 한계가 있다. 이에 본 연구에서는 심각한 가뭄이 발생한 섬진강 유역의 농업용 저수지를 대상으로 딥러닝 모델 기반의 일단위 유입량 예측모형을 개발하였다. 저수지 유입량을 예측하기 위해서는 유역평균강우량 및 과거 유입량 등을 독립변수로 선정하였으며, 시계열 자료 분석을 위해 딥러닝 모델 중 GRU(Gated Recurrent Unit) 모델을 활용하였다. 향후에는 예측 유입량을 활용하여 농업용 저수지의 수요량을 고려한 저수지 운영방안 수립을 통해 가뭄에 대응할 수 있을 것으로 기대된다.

  • PDF