• Title/Summary/Keyword: 시계열 교차검증

Search Result 17, Processing Time 0.025 seconds

Application of Time-series Cross Validation in Hyperparameter Tuning of a Predictive Model for 2,3-BDO Distillation Process (시계열 교차검증을 적용한 2,3-BDO 분리공정 온도예측 모델의 초매개변수 최적화)

  • An, Nahyeon;Choi, Yeongryeol;Cho, Hyungtae;Kim, Junghwan
    • Korean Chemical Engineering Research
    • /
    • v.59 no.4
    • /
    • pp.532-541
    • /
    • 2021
  • Recently, research on the application of artificial intelligence in the chemical process has been increasing rapidly. However, overfitting is a significant problem that prevents the model from being generalized well to predict unseen data on test data, as well as observed training data. Cross validation is one of the ways to solve the overfitting problem. In this study, the time-series cross validation method was applied to optimize the number of batch and epoch in the hyperparameters of the prediction model for the 2,3-BDO distillation process, and it compared with K-fold cross validation generally used. As a result, the RMSE of the model with time-series cross validation was lower by 9.06%, and the MAPE was higher by 0.61% than the model with K-fold cross validation. Also, the calculation time was 198.29 sec less than the K-fold cross validation method.

Power Consumption Forecasting Scheme for Educational Institutions Based on Analysis of Similar Time Series Data (유사 시계열 데이터 분석에 기반을 둔 교육기관의 전력 사용량 예측 기법)

  • Moon, Jihoon;Park, Jinwoong;Han, Sanghoon;Hwang, Eenjun
    • Journal of KIISE
    • /
    • v.44 no.9
    • /
    • pp.954-965
    • /
    • 2017
  • A stable power supply is very important for the maintenance and operation of the power infrastructure. Accurate power consumption prediction is therefore needed. In particular, a university campus is an institution with one of the highest power consumptions and tends to have a wide variation of electrical load depending on time and environment. For this reason, a model that can accurately predict power consumption is required for the effective operation of the power system. The disadvantage of the existing time series prediction technique is that the prediction performance is greatly degraded because the width of the prediction interval increases as the difference between the learning time and the prediction time increases. In this paper, we first classify power data with similar time series patterns considering the date, day of the week, holiday, and semester. Next, each ARIMA model is constructed based on the classified data set and a daily power consumption forecasting method of the university campus is proposed through the time series cross-validation of the predicted time. In order to evaluate the accuracy of the prediction, we confirmed the validity of the proposed method by applying performance indicators.

Development of Highway Traffic Information Prediction Models Using the Stacking Ensemble Technique Based on Cross-validation (스태킹 앙상블 기법을 활용한 고속도로 교통정보 예측모델 개발 및 교차검증에 따른 성능 비교)

  • Yoseph Lee;Seok Jin Oh;Yejin Kim;Sung-ho Park;Ilsoo Yun
    • The Journal of The Korea Institute of Intelligent Transport Systems
    • /
    • v.22 no.6
    • /
    • pp.1-16
    • /
    • 2023
  • Accurate traffic information prediction is considered to be one of the most important aspects of intelligent transport systems(ITS), as it can be used to guide users of transportation facilities to avoid congested routes. Various deep learning models have been developed for accurate traffic prediction. Recently, ensemble techniques have been utilized to combine the strengths and weaknesses of various models in various ways to improve prediction accuracy and stability. Therefore, in this study, we developed and evaluated a traffic information prediction model using various deep learning models, and evaluated the performance of the developed deep learning models as a stacking ensemble. The individual models showed error rates within 10% for traffic volume prediction and 3% for speed prediction. The ensemble model showed higher accuracy compared to other models when no cross-validation was performed, and when cross-validation was performed, it showed a uniform error rate in long-term forecasting.

Accurate dam inflow predictions using SWLSTM (정확한 댐유입량 예측을 위한 SWLSTM 개발)

  • Kim, Jongho;Tran, Trung Duc
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.292-292
    • /
    • 2021
  • 최근 데이터 과학의 획기적인 발전으로 딥러닝(Deep Learning) 알고리즘이 개발되어 다양한 분야에 널리 적용되고 있다. 본 연구에서는 인공신경망 중 하나인 LSTM(Long-Short Term Memory) 네트워크를 기반으로 정확한 댐유입량 예측을 수행하는 SWLSTM 모델을 제안하였다. SWLSM은 모델의 정확도를 개선하기 위해 세 가지 주요 아이디어를 채택하였다. (1) 통계적 속성 (PACF) 및 교차 상관 함수(CCF)를 사용하여 적절한 입력 변수와 시퀀스 길이를 결정하였다. (2) 선택된 입력 예측 변수 시계열을 웨이블릿 변환(WT)을 사용하여 하위 시계열로 분해한다. (3) k-folds cross validation 및 random search 기법을 사용하여 LSTM의 하이퍼 매개변수들을 효율적으로 최적화하고 검증한다. 제안된 SWLSTM의 효과는 한강 유역 5개 댐의 시단위/일단위/월단위 유입량을 예측하고 과거 자료와 비교함으로써 검증하였다. 모델의 정확도는 다양한 평가 메트릭(R2, NSE, MAE, PE)이 사용하였으며, SWLSTM은 모든 경우에서 LSTM 모델을 능가하였다. (평가 지표는 약 30 ~ 80 % 더 나은 성능을 보여줌). 본 연구의 결과로부터, 올바른 입력 변수와 시퀀스 길이의 선택이 모델 학습의 효율성을 높이고 노이즈를 줄이는 데 효과적임을 확인하였다. WT는 홍수 첨두와 같은 극단적인 값을 예측하는 데 도움이 된다. k-folds cross validation 및 random search 기법을 사용하면 모델의 하이퍼 매개변수를 효율적으로 설정할 수 있다. 본 연구로부터 댐 유입량을 정확하게 예측한다면 정책 입안자와 운영자가 저수지 운영, 계획 및 관리에 도움이 될 것이다.

  • PDF

Research on DNN Modeling using Feature Selection on Frequency Domain for Vital Reaction of Breeding Pig (모돈 생체 반응 신호의 주파수 영역 Feature selection을 통한 DNN 모델링 연구)

  • Cho, Jinho;Oh, Jong-woo;Lee, DongHoon
    • Proceedings of the Korean Society for Agricultural Machinery Conference
    • /
    • 2017.04a
    • /
    • pp.166-166
    • /
    • 2017
  • 모돈의 건강 상태를 정량 지수화 하기 위한 연구를 수행 중이다. 지제이상, 섭식 불량, 수면 패턴 등의 운동 특성 분석을 위하여 복수의 초음파 센서를 이용하였다. 시계열 계측 신호를 분석하여 정량 지수화를 수행하는 과정에서 주파수 도메인 분석을 시도하였다. 이 과정에서 주파수 도메인의 분해능에 따른 편차 극복을 위한 비선형 모델링을 수행하였다. 또한 인접한 시계열 데이터 구간 간의 상관성 분석이 가능하면 대용량 데이터의 실시간 처리로 인한 지연 시간 극복 및 기대되는 예후에 대한 조기 진단이 가능할 것이다. 본 연구에서는 구글에서 제공하는 Tensorflow와 NVIDIA에서 제공하는 CUDA 엔진을 동시 적용한 심층 학습 시스템을 이용하였다. 전 처리를 위하여 주파수 분해능 (2분, 3분, 5분, 7분, 11분, 13분, 17분, 19분)에 따른 데이터 집합을 1단계로 두고, 상위 10 순위 안에 드는 파워 스펙트럼 밀도의 크기를 2단계로 하여, 총 2~10개의 입력 노드를 순차적으로 선정하였고, 동일한 방식으로 인접한 시계열의 파워 스펙터럼 밀도를 순위를 변화시켜 지정하였다. 대표적인 심층학습 모델인 Softmax regression with a multilayer convolutional network를 이용하여 Recursive feature selection 경우의 수를 $8{\times}9{\times}9$로 총 648 가지 선정하고, Epoch는 10,000회로 지정하였다. Calibration 모델링의 경우 Cost function이 10% 이하인 경우 해당 경우의 학습을 중단하였으며, 모델 간 상호 교차 검증을 수행하기 위하여 $_8C_2{\times}_8C_2{\times}_8C_2$ 경우의 수에 대한 Verification test를 수행하였다. Calibration 과정 상 모든 경우에 대하여 10% 이하의 Cost function 값을 보였으나, 검증 테스트 과정에서 모든 경우에 대하여 $r^2$ < 0.5 인 결정 계수 값이 나타났다. 단적으로 심층학습 모델의 과도한 적합(Over fitting) 방식의 한계를 보인 것이라 판단할 수 있다. 적합한 Feature selection 및 심층 학습 모델에 대한 지속적이고 추가적인 고려를 통해 과도적합을 해소함과 동시에 실효적이고 활용 가능한 Classification을 위한 입, 출력 노드 단의 전후 Indexing, Quantization에 대한 고려가 필요할 것이다. 이를 통해 모돈 생체 정보 정량화를 위한 지능형 현장 진단 기술 연구를 지속할 것이다.

  • PDF

Performance of conditional merging spatial interpolation technique combining AMSR-E soil moisture and In-situ soil moisture data over the Korean peninsula (조건부 합성기법을 이용한 AMSR-E 토양수분과 지상관측 토양수분의 공간보간 성능 평가 : 한반도 전역에 대하여)

  • Lee, Jaehyeon;Choi, Minha;Cho, Eunsang;Kim, Dongkyun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2015.05a
    • /
    • pp.185-185
    • /
    • 2015
  • 미계측 지역에서의 토양수분을 예측하기 위한 공간보간 기법으로 크리깅 방법과 조건부합성기법을 한반도에 적용하여 비교 분석하였다. 연구에 사용된 토양수분 자료는 2011년 5월 1일부터 2011년 9월 30일까지이며, Advanced Microwave Scanning Radiometer-Earth observing system(AMSR-E)의 위성관측 자료와 농촌진흥청에서 제공하는 지상관측 자료를 이용하였다. leave-one-out 교차검증 방법을 사용하여 공간보간 성능을 평가했고, 관측지점별 시계열 분석 결과 총 24개 관측지점 중 14개 관측지점에서 CM의 결과가 우세한 것으로 나타났다. 특정 관측일에 대해 예측 성능 분석 결과 총 113일 중 68일에 대해 CM의 결과가 우세한 것으로 나타났다. 각 관측지점의 예측 성능을 공간적으로 분석하기 위하여 관측소별 예측 성능 지도를 작성하여 공간적인 특성을 분석한 결과 관측소가 밀집되어있는 한반도의 서쪽지역에서 예측이 성능이 좋게 나왔다. 이러한 결과는 위성으로부터 관측된 토양수분 자료의 공간적인 특성을 고려하여 지상관측 자료와 합성하는 것이 토양수분의 공간적인 보간성능을 향상 시킬 수 있다는 것을 의미한다.

  • PDF

Groundwater Level Prediction using ANFIS Algorithm (딥러닝을 이용한 하천 유량 예측 알고리즘)

  • Bak, Gwi-Man;Oh, Se-Rang;Park, Geun-Ho;Bae, Young-Chul
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.16 no.6
    • /
    • pp.1239-1248
    • /
    • 2021
  • In this paper, we present FDNN algorithm to perform prediction based on academic understanding. In order to apply prediction based on academic understanding rather than data-dependent prediction to deep learning, we constructed algorithm based on mathematical and hydrology. We construct a model that predicts flow rate of a river as an input of precipitation, and measure the model's performance through K-fold cross validation.

Explainable Solar Irradiation Forecasting Based on Conditional Random Forests (조건부 랜덤 포레스트 기반의 설명 가능한 일사량 예측)

  • Moon, Jihoon;Hwang, Eenjun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.323-326
    • /
    • 2020
  • 태양광 발전은 이산화탄소 배출로 인한 기후 변화에 대응하는 주요 수단으로 인식되어 수요와 필요성이 급격하게 증가하고 있다. 최적의 태양광 발전 시스템의 운영을 위해서는 정교한 전력수요 및 태양광 발전량 예측 모델이 요구되며, 온도 및 일사량은 태양광 발전량 예측 모델의 필수적인 입력 변수이다. 하지만, 한국 기상청의 동네예보는 일사량에 관한 예측값을 제공하지 않아 정교한 태양광 발전량 예측 모델을 구축하는 것은 어렵다. 이를 위해 일사량 예측 기법에 관한 많은 연구사례가 보고되고 있지만, 다수의 연구들은 충분한 데이터 셋을 이용하여 일사량 예측 모델을 개발하였다. 초기 태양광 발전 시스템 운영을 위해서는 불충분한 데이터 셋을 이용한 예측 모델 개발이 필요하나 이에 대한 사례는 불충분하다. 본 논문은 실제 태양광 발전 시스템에서 수집된 불충분한 데이터 셋을 이용한 단기 일사량 예측 기법을 제안한다. 먼저, 기상청 동네예보의 다양한 기상 요인들을 이용하여 일사량 예측 모델을 위한 입력 변수를 구성한다. 다음으로, 조건부 랜덤 포레스트를 이용하여 일사량 예측 모델을 구성하며, 설명 가능한 일사량 예측뿐만 아니라 더욱더 많은 데이터 셋을 학습하기 위해 시계열 교차검증을 수행한다. 실험 결과, 제안한 기법은 다른 예측 기법들보다 높은 예측 정확도를 보일 뿐만 아니라 설명 가능한 예측 결과를 제시할 수 있음을 보여준다.

Development of an algal bloom prediction model using multivariate Bernoulli model (다변량 Bernoulli 모형을 이용한 녹조 발생 예측 모형 개발)

  • Jung, Min-Kyu;Kim, Jin-Young;Cho, Hemie;Kwon, Hyun-Han
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.83-83
    • /
    • 2021
  • 수리구조물로 인한 유황변화와 함께 기후변화로 기인하는 강우변동성 및 온도 증가는 수생태 전반에 악영향을 미치는 주요 인자로 작용하고 있다. 특히, 최근 가뭄으로 인한 유황감소 및 폭염 등으로 여름철 녹조의 발생 빈도 및 강도 증가가 지속적으로 증가하고 있다. 본 연구에서는 하천에서 계측되고 있는 Cyanobacteria 개체수를 기반으로 녹조발생 여부를 전망할 수 있는 모형을 개발하고자 한다. Cyanobacteria 개체수를 기준으로 녹조발생 여부를 판단할 수 있도록 기준값(threshold)을 설정하고 binary 형태로 시계열을 구성하였다. 이를 Bernoulli 모형에 적합하여 녹조 발생 여부를 판단할 수 있도록 모형을 개발하였다. 하천을 따라 나타나는 녹조는 시공간적으로 유사한 특성을 가지며, 이러한 점을 고려하여 여러 관측지점을 동시에 모델링하는 것이 모형의 효율성과 예측성 측면에서 유리하다. 본 연구에서는 낙동강을 따라 여러 녹조관측지점을 대상으로 동시에 모델링이 가능하도록 다변량 Bernoulli 모형 기반의 녹조 예측 모형을 제시하고 과거 자료를 대상으로 모형의 적합성을 평가하였다. 다양한 지표를 기준으로 교차검증을 수행하였으며, 기존 물리적 모델에 비해 모형의 예측성능 및 효율성 측면에서 우수성을 확인할 수 있었다.

  • PDF

A SVR Based-Pseudo Modified Einstein Procedure Incorporating H-ADCP Model for Real-Time Total Sediment Discharge Monitoring (실시간 총유사량 모니터링을 위한 H-ADCP 연계 수정 아인슈타인 방법의 의사 SVR 모형)

  • Noh, Hyoseob;Son, Geunsoo;Kim, Dongsu;Park, Yong Sung
    • KSCE Journal of Civil and Environmental Engineering Research
    • /
    • v.43 no.3
    • /
    • pp.321-335
    • /
    • 2023
  • Monitoring sediment loads in natural rivers is the key process in river engineering, but it is costly and dangerous. In practice, suspended loads are directly measured, and total loads, which is a summation of suspended loads and bed loads, are estimated. This study proposes a real-time sediment discharge monitoring system using the horizontal acoustic Doppler current profiler (H-ADCP) and support vector regression (SVR). The proposed system is comprised of the SVR model for suspended sediment concentration (SVR-SSC) and for total loads (SVR-QTL), respectively. SVR-SSC estimates SSC and SVR-QTL mimics the modified Einstein procedure. The grid search with K-fold cross validation (Grid-CV) and the recursive feature elimination (RFE) were employed to determine SVR's hyperparameters and input variables. The two SVR models showed reasonable cross-validation scores (R2) with 0.885 (SVR-SSC) and 0.860 (SVR-QTL). During the time-series sediment load monitoring period, we successfully detected various sediment transport phenomena in natural streams, such as hysteresis loops and sensitive sediment fluctuations. The newly proposed sediment monitoring system depends only on the gauged features by H-ADCP without additional assumptions in hydraulic variables (e.g., friction slope and suspended sediment size distribution). This method can be applied to any ADCP-installed discharge monitoring station economically and is expected to enhance temporal resolution in sediment monitoring.