DOI QR코드

DOI QR Code

Infrastructure Anomaly Analysis for Data-center Failure Prevention: Based on RRCF and Prophet Ensemble Analysis

데이터센터 장애 예방을 위한 인프라 이상징후 분석: RRCF와 Prophet Ensemble 분석 기반

  • 신현종 (한화시스템 IDC운영혁신팀) ;
  • 김성근 (한화시스템 IDC운영혁신팀) ;
  • 천병환 (한화시스템 IDC운영혁신팀) ;
  • 진경복 (한화시스템 IDC운영혁신팀) ;
  • 양승정 (한화시스템 IDC운영혁신팀)
  • Received : 2022.05.12
  • Accepted : 2022.05.27
  • Published : 2022.06.30

Abstract

Various methods using machine learning and big data have been applied to prevent failures in Data Centers. However, there are many limitations to referencing individual equipment-based performance indicators or to being practically utilized as an approach that does not consider the infrastructure operating environment. In this study, the performance indicators of individual infrastructure equipment are integrated monitoring and the performance indicators of various equipment are segmented and graded to make a single numerical value. Data pre-processing based on experience in infrastructure operation. And an ensemble of RRCF (Robust Random Cut Forest) analysis and Prophet analysis model led to reliable analysis results in detecting anomalies. A failure analysis system was implemented to facilitate the use of Data Center operators. It can provide a preemptive response to Data Center failures and an appropriate tuning time.

데이터센터의 장애 예방을 위해 머신러닝과 빅데이터를 활용한 다양한 방법들이 적용되어 왔다. 그러나 개별 장비 기반의 성능지표를 참조하거나, 인프라 운영환경을 고려하지 않은 접근방법으로 실제 활용되는 데에는 많은 한계가 있었다. 이에 본 연구에서는 개별 인프라 장비들의 성능지표를 통합 모니터링하며, 다양한 장비들의 성능지표를 구간화, 등급화 하여 단일수치화를 진행한다. 인프라 운영에 대한 경험치 기반으로 데이터 전처리를 수행하며, RRCF(Robust Random Cut Forest)분석과 Prophet 분석 모델을 앙상블하여 이상징후 검출에 신뢰도 있는 분석결과를 도출하였다. 데이터센터 내 운영담당자들의 접근을 용이하게 하기 위해 장애분석시스템을 구현하여 데이터센터 장애의 선제 대응과 적정한 튜닝시점을 제시할 수 있다.

Keywords

References

  1. 이택현, 국광호, "RRCF 알고리즘을 활용한 RAN 장비 이상 검출에 관한 연구", 한국정보통신학회 춘계 종합학술대회 논문집, pp.581-583, 2021. 
  2. 이현용, 김낙우, 이준기, 이병탁, "효과적인 이상 진단을 위한 클러스터링의 타당성 연구", 한국정보처리학회 학술대회논문집, pp.428-430, 2020. 
  3. 오민지, 최은선, 노경우, 김재성, 조완섭, "제조설비 이상탐지를 위한 지도학습 및 비지도학습 모델 설계에 관한 연구", 한국빅데이터학회지 제6권 제1호, pp.23-35, 2021. 
  4. 조준모, "빅데이터의 정규화 전처리과정이 기계 학습의 성능에 미치는 영향", Journal of the KIECS, Vol.14, No.3, pp.547-552, 2019. 
  5. S. Guha, N.Mishra, G.Roy, O.Schrijvers, "Robust Random Cur Forest Based Anomaly Detection On Streams", Proceedings of the 33rd International Conference on Machine Learning, New York, JMLR: W&CP Vol.48, 2016. 
  6. M.D.Bartos, A.Mullapudi, S.C.Troutman, "Implementation of the Robust Random Cut Forest algorithm for anomaly detection on streams", The Journal of Open Source Software, 4(35), 2019. 
  7. D.Hendrycks, M.Mazeika, T.Dietterich, "Deep Anomaly Detection with Outlier Exposure", conference paper at ICLR, 2019. 
  8. 류승택, "Interactive Data Visualization Based Realtime Monitoring and Fault Detection System", Journal of Knowledge Information Technology and Systems, Vol.13, No.4, pp.421-428, 2018.  https://doi.org/10.34163/jkits.2018.13.4.002
  9. 한무명초, 이충권, Kim Yang Sok, "제조공정에서 센서와 머신러닝을 활용한 불량예측 방안에 대한 연구", Entrue Journal of Information Technology, Vol.17, No.1, pp.89-98, 2019. 
  10. 나성일, 김형중, "빅데이터 기반의 IoT 이상 장애 탐지 시스템 설계", Journal of Digital Contents Society, Vol.19, No.2, pp.377-383, 2018.  https://doi.org/10.9728/DCS.2018.19.2.377
  11. 임복출, 김순곤, "서버 성능 관리를 위한 장애 예측 시스템", 한국정보전자통신기술학회논문지, Vol.11, No.6, pp.684-690, 2018.  https://doi.org/10.17661/JKIIECT.2018.11.6.684
  12. 최우형, 황현숙, 김창수, "데이터센터의 설비 통합 모니터링 시스템 설계에 관한 연구", Journal of the Korea Institute of Information and Communication Engineering, Vol.19, No.4, pp . 909-916, 2015.  https://doi.org/10.6109/jkiice.2015.19.4.909
  13. 임선열, 최효근, 이규열, 이태훈, 유헌창, "기계학습을 활용한 IoT 플랫폼의 이상감지 시스템", 한국정보처리학회 추계학술발표대회 논문집, 제28권, 제2호, pp.1001-1004, 2018. 
  14. G.Pang, C.Shen, L.Cao, A.Hengel, "Deep Learning for Anomaly Detection:A Review", ACM Comput. Surv., Vol.1, No.1, 2020. 
  15. S.Taylor, B.Letham, "Forecasting at Scale", The American Statistician, Vol.72, pp.37-45, 2018.  https://doi.org/10.1080/00031305.2017.1380080
  16. Jong Min Kim, Jaiwook Baik, "Anomaly Detection in Sensor Data", 신뢰성응용연구, 제18권, 제1호, pp.20-32, 2018. 
  17. 천강민, 양재경, "앙상블 모델 기반의 기계 고장 예측 방법", J.Soc.Korea Ind. Syst. Eng., Vol.43, No.1, pp.123-131, 2020. 
  18. 김얼, 김다연, 채윤주, 신동렬, "빅데이터 분석 기반 서버관리 플랫폼 설계", 한국정보과학회 학술발표논문집, pp.233-234, 2015. 
  19. 고경철, 이양원, "평균과 표준편차를 이용한 자동 임계치-결정 알고리즘,"한국컴퓨터교육학회 논문지 ", 제8권, 제6호, pp.103-111, 2005. 
  20. 신현승, 유승주, "서버시스템에서의 메모리 불량 현상 분석 및 해결방법", 전기전자학회논문지, 21(4), pp.353-357, 2017.  https://doi.org/10.7471/IKEEE.2017.21.4.353
  21. 장한나, 윤이삭, 전예은, 김장원, "A study on Patent Invention Trend Analysis using Prophet", 한국정보처리학회 추계학술대회, pp.752-753, 2019. 
  22. S.Kwon, "Anomaly Detection of Big Time Series Data using Machine Learning", Journal of Soc. Korea. Ind. Syst. Eng.,Vol.43, No2, pp.33-38, 2020.  https://doi.org/10.11627/jkise.2020.43.2.033
  23. I.Golan, R.E.Yaniv, "Deep Anomaly Detection using Geometric Transformations", 32nd Conference on Neural Information Processing Systems (NeurIPS), 2018.