• Title/Summary/Keyword: LSTM 신경망

Search Result 229, Processing Time 0.032 seconds

A Deep Neural Network for Activity Recognition of Multi-object (다중 객체의 행동 인식을 위한 심층신경망)

  • Kim, Seunghyun;Kim, Do-Yeon
    • Annual Conference of KIPS
    • /
    • 2016.10a
    • /
    • pp.597-598
    • /
    • 2016
  • 행동 인식을 위한 기존의 심층신경망은 행동 패턴 모델링과 행동 인식 성능 향상에 큰 기여를 하였다. 그러나 이 신경망은 영상 전체를 하나의 행동 인식 대상으로 보기 때문에 다중 객체의 개별적인 행동 인식에는 한계가 있다. 이에 본 논문에서는 R-CNN과 LSTM을 융합한 RC-LSTM 심층신경망을 통해 다중 객체의 행동 인식을 위한 방법을 제안한다.

Radar rainfall prediction based on deep learning considering temporal consistency (시간 연속성을 고려한 딥러닝 기반 레이더 강우예측)

  • Shin, Hongjoon;Yoon, Seongsim;Choi, Jaemin
    • Journal of Korea Water Resources Association
    • /
    • v.54 no.5
    • /
    • pp.301-309
    • /
    • 2021
  • In this study, we tried to improve the performance of the existing U-net-based deep learning rainfall prediction model, which can weaken the meaning of time series order. For this, ConvLSTM2D U-Net structure model considering temporal consistency of data was applied, and we evaluated accuracy of the ConvLSTM2D U-Net model using a RainNet model and an extrapolation-based advection model. In addition, we tried to improve the uncertainty in the model training process by performing learning not only with a single model but also with 10 ensemble models. The trained neural network rainfall prediction model was optimized to generate 10-minute advance prediction data using four consecutive data of the past 30 minutes from the present. The results of deep learning rainfall prediction models are difficult to identify schematically distinct differences, but with ConvLSTM2D U-Net, the magnitude of the prediction error is the smallest and the location of rainfall is relatively accurate. In particular, the ensemble ConvLSTM2D U-Net showed high CSI, low MAE, and a narrow error range, and predicted rainfall more accurately and stable prediction performance than other models. However, the prediction performance for a specific point was very low compared to the prediction performance for the entire area, and the deep learning rainfall prediction model also had limitations. Through this study, it was confirmed that the ConvLSTM2D U-Net neural network structure to account for the change of time could increase the prediction accuracy, but there is still a limitation of the convolution deep neural network model due to spatial smoothing in the strong rainfall region or detailed rainfall prediction.

Flood Predicion of Dorimcheon Stream basin using LSTM (LSTM 기법을 이용한 도림천 유역의 침수 예측)

  • Se Dong Jang;Byunghyun Kim
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.513-513
    • /
    • 2023
  • 최근 이상기후의 영향으로 국지성 및 집중호우로 인한 침수 피해가 증가하고 있다. 도시유역의 홍수는 사회적·경제적으로 큰 손실을 야기할 수 있어 실제 호우에 대한 침수 양상을 신속하게 예측하는것은 매우 중요하다. 이로 인해 침수 해석에 대한 결과를 빨리 제공할 수 있는 기계학습을 기반으로 한 도시 홍수 분석에 대한 연구가 증가하고 있다. 본 연구에서 적용한 LSTM(Long Short-Term Memory) 신경망은 기존 RNN(Recurrent neural network)이 가지고 있는 장기 의존성 문제를 해결하기 위해 고안된 모델으로 시계열 데이터에 대한 예측능력이 뛰어나다는 장점을 가지고있다. LSTM 신경망은 강우에 대한 격자별 침수심을 예측하기 위해 사용되었으며, 입력자료로 2000~2022년도에 걸친 도림천 유역의 침수피해를 야기한 지속시간 6시간 AWS(Automatic Weather System) 관측 강우 자료를 사용하였고 목표값으로 수집된 도림천 유역의 강우자료를 이용하여 SWMM(Storm Water Management Model)의 유출 결과를 바탕으로 수행된 2차원 침수해석 모의 결과를 사용하였다. 연구유역의 SWMM 배수 관망 입력자료의 정확성을 높이기 위해 서울시 하수관로 수위 현황 자료를 활용하여 매개변수 조정을 실시하였으며, 하수관로의 실측 수위와 모의 수위를 일치시켰다. LSTM 신경망을 이용하여 격자별로 예측된 침수심 데이터를 시각화하여 침수흔적도와 비교하였다.

  • PDF

Development of Dolphin Click Signal Classification Algorithm Based on Recurrent Neural Network for Marine Environment Monitoring (해양환경 모니터링을 위한 순환 신경망 기반의 돌고래 클릭 신호 분류 알고리즘 개발)

  • Seoje Jeong;Wookeen Chung;Sungryul Shin;Donghyeon Kim;Jeasoo Kim;Gihoon Byun;Dawoon Lee
    • Geophysics and Geophysical Exploration
    • /
    • v.26 no.3
    • /
    • pp.126-137
    • /
    • 2023
  • In this study, a recurrent neural network (RNN) was employed as a methodological approach to classify dolphin click signals derived from ocean monitoring data. To improve the accuracy of click signal classification, the single time series data were transformed into fractional domains using fractional Fourier transform to expand its features. Transformed data were used as input for three RNN models: long short-term memory (LSTM), gated recurrent unit (GRU), and bidirectional LSTM (BiLSTM), which were compared to determine the optimal network for the classification of signals. Because the fractional Fourier transform displayed different characteristics depending on the chosen angle parameter, the optimal angle range for each RNN was first determined. To evaluate network performance, metrics such as accuracy, precision, recall, and F1-score were employed. Numerical experiments demonstrated that all three networks performed well, however, the BiLSTM network outperformed LSTM and GRU in terms of learning results. Furthermore, the BiLSTM network provided lower misclassification than the other networks and was deemed the most practically appliable to field data.

Predicting Movie Evaluation using Deep LSTM (순환 신경망(LSTM) 이용한 영화 평점 예측)

  • Kang, Kyeongpil;Choo, Jaegul
    • Annual Conference of KIPS
    • /
    • 2016.10a
    • /
    • pp.591-594
    • /
    • 2016
  • 소비자의 선호도 및 여론을 정량적인 방법으로 분석하기 위해 비정형 데이터의 분석은 필수적인 요소가 되고 있다. 하지만 비정형 데이터는 언어의 구조 및 모호성 등으로 인해 분석하기 어려운 형태이다. 따라서 본 연구는 최근 각광받고 있는 인공신경망, 특히 그 중에서도 순환 신경망의 한 모델인 Deep LSTM을 이용하여 비정형 데이터를 분석하고 이를 활용하여 어순 및 어감 등의 언어의 구조적 문제에도 효과적인 정략적 모델을 설계하여 학습하고 이를 기존의 인공신경망 모델과 비교 분석하고자 한다.

Vocal and nonvocal separation using combination of kernel model and long-short term memory networks (커널 모델과 장단기 기억 신경망을 결합한 보컬 및 비보컬 분리)

  • Cho, Hye-Seung;Kim, Hyoung-Gook
    • The Journal of the Acoustical Society of Korea
    • /
    • v.36 no.4
    • /
    • pp.261-266
    • /
    • 2017
  • In this paper, we propose a vocal and nonvocal separation method which uses a combination of kernel model and LSTM (Long-Short Term Memory) networks. Conventional vocal and nonvocal separation methods estimate the vocal component even in sections where only non-vocal components exist. This causes a problem of the source estimation error. Therefore we combine the existing kernel based separation method with the vocal/nonvocal classification based on LSTM networks in order to overcome the limitation of the existing separation methods. We propose a parallel combined separation algorithm and series combined separation algorithm as combination structures. The experimental results verify that the proposed method achieves better separation performance than the conventional approaches.

Arrhythmia Classification using Hybrid Combination Model of CNN-LSTM (합성곱-장단기 기억 신경망의 하이브리드 결합 모델을 이용한 부정맥 분류)

  • Cho, Ik-Sung;Kwon, Hyeog-Soong
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.26 no.1
    • /
    • pp.76-84
    • /
    • 2022
  • Arrhythmia is a condition in which the heart beats abnormally or irregularly, early detection is very important because it can cause dangerous situations such as fainting or sudden cardiac death. However, performance degradation occurs due to personalized differences in ECG signals. In this paper, we propose arrhythmia classification using hybrid combination model of CNN-LSTM. For this purpose, the R wave is detected from noise removed signal and a single bit segment was extracted. It consisted of eight convolutional layers to extract the features of the arrhythmia in detail, used them as the input of the LSTM. The weights were learned through deep learning and the model was evaluated by the verification data. The performance was compared in terms of the accuracy, precision, recall, F1 score through MIT-BIH arrhythmia database. The achieved scores indicate 92.3%, 90.98%, 92.20%, 90.72% in terms of the accuracy, precision, recall, F1 score, respectively.

Performance comparison of various deep neural network architectures using Merlin toolkit for a Korean TTS system (Merlin 툴킷을 이용한 한국어 TTS 시스템의 심층 신경망 구조 성능 비교)

  • Hong, Junyoung;Kwon, Chulhong
    • Phonetics and Speech Sciences
    • /
    • v.11 no.2
    • /
    • pp.57-64
    • /
    • 2019
  • In this paper, we construct a Korean text-to-speech system using the Merlin toolkit which is an open source system for speech synthesis. In the text-to-speech system, the HMM-based statistical parametric speech synthesis method is widely used, but it is known that the quality of synthesized speech is degraded due to limitations of the acoustic modeling scheme that includes context factors. In this paper, we propose an acoustic modeling architecture that uses deep neural network technique, which shows excellent performance in various fields. Fully connected deep feedforward neural network (DNN), recurrent neural network (RNN), gated recurrent unit (GRU), long short-term memory (LSTM), bidirectional LSTM (BLSTM) are included in the architecture. Experimental results have shown that the performance is improved by including sequence modeling in the architecture, and the architecture with LSTM or BLSTM shows the best performance. It has been also found that inclusion of delta and delta-delta components in the acoustic feature parameters is advantageous for performance improvement.

Generative Korean Inverse Text Normalization Model Combining a Bi-LSTM Auxiliary Model (Bi-LSTM 보조 신경망 모델을 결합한 생성형 한국어 Inverse Text Normalization 모델)

  • Jeongje Jo;Dongsu Shin;Kyeongbin Jo;Youngsub Han;Byoungki Jeon
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.716-721
    • /
    • 2023
  • Inverse Text Normalization(ITN) 모델은 음성 인식(STT) 엔진의 중요한 후처리 영역 중 하나이며, STT 인식 결과의 가독성을 개선한다. 최근 ITN 모델에 심층신경망을 활용한 연구가 진행되고 있다. 심층 신경망을 사용하는 대부분의 선행연구는 문장 내 변환이 필요한 부분에 토큰 태깅을 진행하는 방식이다. 그러나 이는 Out-of-vocabulary(OOV) 이슈가 있으며, 학습 데이터 구축 시 토큰 단위의 섬세한 태깅 작업이 필요하다는 한계점이 존재한다. 더불어 선행 연구에서는 STT 인식 결과를 그대로 사용하는데, 이는 띄어쓰기가 중요한 한국어 ITN 처리에 변환 성능을 보장할 수 없다. 본 연구에서는 BART 기반 생성 모델로 생성형 ITN 모델을 구축하였고, Bi-LSTM 기반 보조 신경망 모델을 결합하여 STT 인식 결과에 대한 고유명사 처리, 띄어쓰기 교정 기능을 보완한 모델을 제안한다. 또한 보조 신경망을 통해 생성 모델 처리 여부를 판단하여 평균 추론 속도를 개선하였다. 실험을 통해 두 모델의 각 정량 성능 지표에서 우수한 성능을 확인하였고 결과적으로 본 연구에서 제안하는 두 모델의 결합된 방법론의 효과성을 제시하였다.

  • PDF

Utterance Intention Analysis Using CNN-LSTM Neural Network (CNN-LSTM 신경망을 이용한 발화 분석 모델)

  • Kim, Min-Kyoung;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.122-124
    • /
    • 2017
  • 대화시스템이 적절한 응답을 제시해 주기 위해서는 사용자의 의도를 분석하는 것은 중요한 일이다. 사용자의 의도는 도메인에 독립적인 화행과 도메인에 종속적인 서술자의 쌍으로 나타낼 수 있다. 사용자 의도를 정확하게 분석하기 위해서는 화행과 서술자를 동시에 분석하고 대화의 문맥을 고려해야 한다. 본 논문에서 제안하는 모델은 합성곱 신경망에서 공유 계층을 이용하여 화행과 서술자간 상호작용이 반영된 발화 임베딩 모델을 학습한다. 그리고 순환 신경망을 통해 대화의 문맥을 반영하여 발화를 분석한다. 실험 결과 제안 모델이 이전 모델들 보다 높은 성능 (F1-measure로 화행에 대해 0.973, 서술자 0.919)을 보였다.

  • PDF