DOI QR코드

DOI QR Code

Exploring Time Series Data Information Extraction and Regression using DTW based kNN

DTW 거리 기반 kNN을 활용한 시계열 데이터 정보 추출 및 회귀 예측

  • Hyeonjun Yang (School of EECS, Gwangju Institute of Science and Technology) ;
  • Chaeguk Lim (CJ OliveNetworks AI Research) ;
  • Woohyuk Jung (CJ OliveNetworks AI Research) ;
  • Jihwan Woo (CJ OliveNetworks AI Research, School of Management of Technology, Korea University)
  • 양현준 (광주과학기술원 전기전자컴퓨터공학부) ;
  • 임채국 (CJ올리브네트웍스 AI연구소) ;
  • 정우혁 (CJ올리브네트웍스 AI연구소) ;
  • 우지환 (CJ올리브네트웍스 AI연구소, 고려대학교 기술경영전문대학원)
  • Received : 2023.12.01
  • Accepted : 2024.03.04
  • Published : 2024.05.31

Abstract

This study proposes a preprocessing methodology based on Dynamic Time Warping (DTW) and k-Nearest Neighbors (kNN) to effectively represent time series data for predicting the completion quality of electroplating baths. The proposed DTW-based kNN preprocessing approach was applied to various regression models and compared. The results demonstrated a performance improvement of up to 43% in maximum RMSE and 24% in MAE compared to traditional decision tree models. Notably, when integrated with neural network-based regression models, the performance improvements were pronounced. The combined structure of the proposed preprocessing method and regression models appears suitable for situations with long time series data and limited data samples, reducing the risk of overfitting and enabling reasonable predictions even with scarce data. However, as the number of data samples increases, the computational load of the DTW and kNN algorithms also increases, indicating a need for future research to improve computational efficiency.

본 연구는 도금욕 공정의 완성도 예측을 위한 시계열 데이터의 효과적인 표현을 목표로, Dynamic Time Warping(DTW) 및 k-Nearest Neighbors(kNN) 기반의 전처리 방법론을 제안한다. 제안된 DTW 기반 kNN 전처리 방법을 다양한 회귀 모델에 적용하여 비교한 결과, 기존 결정 나무(Decision tree) 대비 최대 RMSE에서 43%과 MAE에서 24% 개선된 성능 향상을 보였으며, 신경망 구조를 갖는 회귀 모델과 결합했을 때 성능 향상이 두드러졌다. 본 논문에서 제안하는 전처리 방법과 회귀 모델을 결합한 구조는 길이가 긴 시계열 데이터와 제한된 데이터 샘플이 있는 상황에서 적합할 것으로 사료되며, 데이터가 부족한 상황에서도 과적합의 위험을 감소시키며, 합리적인 예측을 가능하게 함을 시사한다. 그러나 DTW 및 kNN 알고리즘은 데이터 샘플이 많아질수록 연산량이 늘어난다는 한계가 존재하며, 향후 연구를 통해 이러한 계산 효율성의 문제를 개선할 수 있는 연구가 필요할 것으로 보인다.

Keywords

References

  1. 김준석, 이강복, 황회선, 안지수, 오정림, 장명훈, 전홍배, "DTW 기반 추진 전동기 잔여수명 예측 알고리즘 개발 사례연구", 한국CDE학회논문집, 제26권, 제4호, 2021, pp. 386-397. https://doi.org/10.7315/CDE.2021.386
  2. 송세리, 박상철, "LCD 검사 공정에서 가상계측을 위한 머신 러닝 기반 예측 모델", 한국CDE학회논문집, 제24권, 제3호, 2019, pp. 329-338. https://doi.org/10.7315/CDE.2019.329
  3. 이상우, 김병희, 서영호, "계단응답 데이터 전처리 방식에 따른 머신러닝 기반 화학물질분류 시스템의 분류특성평가", 한국정밀공학회학술발표대회논문집, 2021, pp. 416-416.
  4. 이환철, 허선, "효과적인 시계열 데이터 분류를 위한 동적시간왜곡 기반의 시계열 길이 변환", 대한산업공학회지, 제46권, 제4호, 2020, pp. 356-364. https://doi.org/10.7232/JKIIE.2020.46.4.356
  5. 장민석, 공성배, 고락경, 정주영, 주성관, "Dynamic Time Warping(DTW)기법을 이용한 가전기기별 부하 패턴 분류 기초연구", 대한전기학회학술대회논문집, 제2015권, 제7호, 2015, pp. 45-46.
  6. 한정석, 김형근, "반도체 공정에서 가상계측 위한 XGBoost 기반 예측모델", 한국정보처리학회 학술대회논문집, 제29권, 제1호, 2022, pp. 477-480.
  7. Ahn, G. S., H. C. Lee, and S. Hur, "Feature selection method for multivariate time series data classification", Journal of the Korean Institute of Industrial Engineers, Vol.43, No.6, 2017, pp. 413-421. https://doi.org/10.7232/JKIIE.2017.43.6.413
  8. Cover, T. and P. Hart, "Nearest neighbor pattern classification", IEEE Transactions on Information Theory, Vol.13, No.1, 1967, pp. 21-27. https://doi.org/10.1109/TIT.1967.1053964
  9. Ismail Fawaz, H., B. Lucas, G. Forestier, C. Pelletier, D. F. Schmidt, J. Weber, Geoffrey, I. Webb, L. Idoumghar, P. Muller, and F. Petitjean, "Inceptiontime: Finding alexnet for time series classification", Data Mining and Knowledge Discovery, Vol.34, No.6, 2020, pp. 1936-1962. https://doi.org/10.1007/s10618-020-00710-y
  10. Jeong, Y. S., M. K. Jeong, and O. A. Omitaomu, "Weighted dynamic time warping for time series classification", Pattern Recognition, Vol.44, No.9, 2011, pp. 2231-2240. https://doi.org/10.1016/j.patcog.2010.09.022
  11. Jung, S. H., G. J. Gu, D. Kim, and J. W. Kim, "Predicting stock prices based on online news content and technical indicators by combinatorial analysis using CNN and LSTM with self-attention", Asia Pacific Journal of Information Systems, Vol.30, No.4, 2020, pp. 719-740. https://doi.org/10.14329/apjis.2020.30.4.719
  12. KAIST(ABH, Impix), AI Dataset for Process Operation Optimization, KAMP(Korea AI Manufacturing Platform), Korea, 2022, Available at https://www.kamp-ai.kr/.
  13. Lora, A. T., J. C. Riquelme, J. L. M. Ramos, J. M. R. Santos, and A. G. Exposito, "Influence of kNN-Based load forecasting errors on optimal energy production", Progress in Artificial Intelligence, Vol.2902, 2003, pp. 189-203.
  14. Lora, A. T., J. M. R. Santos, A. G. Exposito, J. L. M. Ramos, and J. C. R. Santos, "Electricity market price forecasting based on weighted nearest neighbors techniques", IEEE Transactions on Power Systems, Vol.22, No.3, 2007, pp. 1294-1301. https://doi.org/10.1109/TPWRS.2007.901670
  15. Oh, C., S. Han, and J. Jeong, "Time-series data augmentation based on interpolation", Procedia Computer Science, Vol.175, 2020, pp. 64-71. https://doi.org/10.1016/j.procs.2020.07.012
  16. Smirnov, D. and E. M. Nguifo, "Time series classification with recurrent neural networks", Advanced Analytics and Learning on Temporal Data, Vol.8, 2018.
  17. Vintsyuk, T. K., "Speech discrimination by dynamic programming", Cybern Syst Anal, Vol.4, 1968, pp. 52-57. https://doi.org/10.1007/BF01074755
  18. Wenninger, M., S. P. Bayerl, J. Schmidt, and K. Riedhammer, "Timage-A robust time series classification pipeline", International Conference on Artificial Neural Networks, 2019, pp. 450-61.
  19. Yang, C. L., Z. X. Chen, and C. Y. Yang, "Sensor classification using convolutional neural network by encoding multivariate time series as two-dimensional colored images", Sensors, Vol.20, No.1, 2019, p. 168.