DOI QR코드

DOI QR Code

Development of a complex failure prediction system using Hierarchical Attention Network

Hierarchical Attention Network를 이용한 복합 장애 발생 예측 시스템 개발

  • Park, Youngchan (College of Industrial Engineering, Yonsei University) ;
  • An, Sangjun (College of Industrial Engineering, Yonsei University) ;
  • Kim, Mintae (College of Industrial Engineering, Yonsei University) ;
  • Kim, Wooju (Department of Industrial Engineering, Yonsei University)
  • 박영찬 (연세대학교 공과대학 산업공학과) ;
  • 안상준 (연세대학교 공과대학 산업공학과) ;
  • 김민태 (연세대학교 공과대학 산업공학과) ;
  • 김우주 (연세대학교 공과대학 산업공학과)
  • Received : 2020.08.31
  • Accepted : 2020.12.16
  • Published : 2020.12.31

Abstract

The data center is a physical environment facility for accommodating computer systems and related components, and is an essential foundation technology for next-generation core industries such as big data, smart factories, wearables, and smart homes. In particular, with the growth of cloud computing, the proportional expansion of the data center infrastructure is inevitable. Monitoring the health of these data center facilities is a way to maintain and manage the system and prevent failure. If a failure occurs in some elements of the facility, it may affect not only the relevant equipment but also other connected equipment, and may cause enormous damage. In particular, IT facilities are irregular due to interdependence and it is difficult to know the cause. In the previous study predicting failure in data center, failure was predicted by looking at a single server as a single state without assuming that the devices were mixed. Therefore, in this study, data center failures were classified into failures occurring inside the server (Outage A) and failures occurring outside the server (Outage B), and focused on analyzing complex failures occurring within the server. Server external failures include power, cooling, user errors, etc. Since such failures can be prevented in the early stages of data center facility construction, various solutions are being developed. On the other hand, the cause of the failure occurring in the server is difficult to determine, and adequate prevention has not yet been achieved. In particular, this is the reason why server failures do not occur singularly, cause other server failures, or receive something that causes failures from other servers. In other words, while the existing studies assumed that it was a single server that did not affect the servers and analyzed the failure, in this study, the failure occurred on the assumption that it had an effect between servers. In order to define the complex failure situation in the data center, failure history data for each equipment existing in the data center was used. There are four major failures considered in this study: Network Node Down, Server Down, Windows Activation Services Down, and Database Management System Service Down. The failures that occur for each device are sorted in chronological order, and when a failure occurs in a specific equipment, if a failure occurs in a specific equipment within 5 minutes from the time of occurrence, it is defined that the failure occurs simultaneously. After configuring the sequence for the devices that have failed at the same time, 5 devices that frequently occur simultaneously within the configured sequence were selected, and the case where the selected devices failed at the same time was confirmed through visualization. Since the server resource information collected for failure analysis is in units of time series and has flow, we used Long Short-term Memory (LSTM), a deep learning algorithm that can predict the next state through the previous state. In addition, unlike a single server, the Hierarchical Attention Network deep learning model structure was used in consideration of the fact that the level of multiple failures for each server is different. This algorithm is a method of increasing the prediction accuracy by giving weight to the server as the impact on the failure increases. The study began with defining the type of failure and selecting the analysis target. In the first experiment, the same collected data was assumed as a single server state and a multiple server state, and compared and analyzed. The second experiment improved the prediction accuracy in the case of a complex server by optimizing each server threshold. In the first experiment, which assumed each of a single server and multiple servers, in the case of a single server, it was predicted that three of the five servers did not have a failure even though the actual failure occurred. However, assuming multiple servers, all five servers were predicted to have failed. As a result of the experiment, the hypothesis that there is an effect between servers is proven. As a result of this study, it was confirmed that the prediction performance was superior when the multiple servers were assumed than when the single server was assumed. In particular, applying the Hierarchical Attention Network algorithm, assuming that the effects of each server will be different, played a role in improving the analysis effect. In addition, by applying a different threshold for each server, the prediction accuracy could be improved. This study showed that failures that are difficult to determine the cause can be predicted through historical data, and a model that can predict failures occurring in servers in data centers is presented. It is expected that the occurrence of disability can be prevented in advance using the results of this study.

데이터 센터는 컴퓨터 시스템과 관련 구성요소를 수용하기 위한 물리적 환경시설로, 빅데이터, 인공지능 스마트 공장, 웨어러블, 스마트 홈 등 차세대 핵심 산업의 필수 기반기술이다. 특히, 클라우드 컴퓨팅의 성장으로 데이터 센터 인프라의 비례적 확장은 불가피하다. 이러한 데이터 센터 설비의 상태를 모니터링하는 것은 시스템을 유지, 관리하고 장애를 예방하기 위한 방법이다. 설비를 구성하는 일부 요소에 장애가 발생하는 경우 해당 장비뿐 아니라 연결된 다른 장비에도 영향을 미칠 수 있으며, 막대한 손해를 초래할 수 있다. 특히, IT 시설은 상호의존성에 의해 불규칙하고 원인을 알기 어렵다. 데이터 센터 내 장애를 예측하는 선행연구에서는, 장치들이 혼재된 상황임을 가정하지 않고 단일 서버를 단일 상태로 보고 장애를 예측했다. 이에 본 연구에서는, 서버 내부에서 발생하는 장애(Outage A)와 서버 외부에서 발생하는 장애(Outage B)로 데이터 센터 장애를 구분하고, 서버 내에서 발생하는 복합적인 장애 분석에 중점을 두었다. 서버 외부 장애는 전력, 냉각, 사용자 실수 등인데, 이와 같은 장애는 데이터 센터 설비 구축 초기 단계에서 예방이 가능했기 때문에 다양한 솔루션이 개발되고 있는 상황이다. 반면 서버 내 발생하는 장애는 원인 규명이 어려워 아직까지 적절한 예방이 이뤄지지 못하고 있다. 특히 서버 장애가 단일적으로 발생하지 않고, 다른 서버 장애의 원인이 되기도 하고, 다른 서버부터 장애의 원인이 되는 무언가를 받기도 하는 이유다. 즉, 기존 연구들은 서버들 간 영향을 주지 않는 단일 서버인 상태로 가정하고 장애를 분석했다면, 본 연구에서는 서버들 간 영향을 준다고 가정하고 장애 발생 상태를 분석했다. 데이터 센터 내 복합 장애 상황을 정의하기 위해, 데이터 센터 내 존재하는 각 장비별로 장애가 발생한 장애 이력 데이터를 활용했다. 본 연구에서 고려되는 장애는 Network Node Down, Server Down, Windows Activation Services Down, Database Management System Service Down으로 크게 4가지이다. 각 장비별로 발생되는 장애들을 시간 순으로 정렬하고, 특정 장비에서 장애가 발생하였을 때, 발생 시점으로부터 5분 내 특정 장비에서 장애가 발생하였다면 이를 동시에 장애가 발생하였다고 정의하였다. 이렇게 동시에 장애가 발생한 장비들에 대해서 Sequence를 구성한 후, 구성한 Sequence 내에서 동시에 자주 발생하는 장비 5개를 선정하였고, 선정된 장비들이 동시에 장애가 발생된 경우를 시각화를 통해 확인하였다. 장애 분석을 위해 수집된 서버 리소스 정보는 시계열 단위이며 흐름성을 가진다는 점에서 이전 상태를 통해 다음 상태를 예측할 수 있는 딥러닝 알고리즘인 LSTM(Long Short-term Memory)을 사용했다. 또한 단일 서버와 달리 복합장애는 서버별로 장애 발생에 끼치는 수준이 다르다는 점을 감안하여 Hierarchical Attention Network 딥러닝 모델 구조를 활용했다. 본 알고리즘은 장애에 끼치는 영향이 클 수록 해당 서버에 가중치를 주어 예측 정확도를 높이는 방법이다. 연구는 장애유형을 정의하고 분석 대상을 선정하는 것으로 시작하여, 첫 번째 실험에서는 동일한 수집 데이터에 대해 단일 서버 상태와 복합 서버 상태로 가정하고 비교분석하였다. 두 번째 실험은 서버의 임계치를 각각 최적화 하여 복합 서버 상태일 때의 예측 정확도를 향상시켰다. 단일 서버와 다중 서버로 각각 가정한 첫 번째 실험에서 단일 서버로 가정한 경우 실제 장애가 발생했음에도 불구하고 5개 서버 중 3개의 서버에서는 장애가 발생하지 않은것으로 예측했다. 그러나 다중 서버로 가정했을때에는 5개 서버 모두 장애가 발생한 것으로 예측했다. 실험 결과 서버 간 영향이 있을 것이라고 추측한 가설이 입증된 것이다. 연구결과 단일 서버로 가정했을 때 보다 다중 서버로 가정했을 때 예측 성능이 우수함을 확인했다. 특히 서버별 영향이 다를것으로 가정하고 Hierarchical Attention Network 알고리즘을 적용한 것이 분석 효과를 향상시키는 역할을 했다. 또한 각 서버마다 다른 임계치를 적용함으로써 예측 정확도를 향상시킬 수 있었다. 본 연구는 원인 규명이 어려운 장애를 과거 데이터를 통해 예측 가능하게 함을 보였고, 데이터 센터의 서버 내에서 발생하는 장애를 예측할 수 있는 모델을 제시했다. 본 연구결과를 활용하여 장애 발생을 사전에 방지할 수 있을 것으로 기대된다.

Keywords

References

  1. Choi. S. H., H. J. Seo., J. C. No. and S. S. Park, "A Study on the Real-time Failure Prediction Framework based on Machine Learning to Ensure Availability of Computing Resources" The institute of Electronics and Information Engineers Vol.56 No.4(2019), 63-76.
  2. Gers, F. A., D. Eck, and J. Schmidhuber, "Applying LSTM to time series predictable through time-window approaches" In Neural Nets WIRN Vietri-01. Springer, London(2002), 193-200
  3. Glorot, X. and Y. Bengio, "Understanding the difficulty of training deep feedforward neural networks" In Proceedings of the thirteenth international conference on artificial intelligence and statistics. Vol 9(2010), 249-256.
  4. Hochreiter, S., and J. Schmidhuber, "Long short-term memory" Neural computation, 9(8)(1997), 1735-1780 https://doi.org/10.1162/neco.1997.9.8.1735
  5. Hua, Y., Z. Zhao, R. Li, X. Chen, Z. Liu, and H. Zhang, "Deep learning with long short-term memory for time series prediction" IEEE Communications Magazine, 57(6)(2019), 114-119 https://doi.org/10.1109/mcom.2019.1800155
  6. Kim H. K., and Y. L. Choi, "Failure Prediction of a Mining Equipment using Machine Learning" The Korea Society of Information Technology Policy & Management, Vol.8 No.6(2016), 297-302.
  7. Kim Y. S. and C. S. Park., "A Failure Prediction of Computer System using Deep Learning" Proceedings of the 2016 Korea Intelligent Information System Conference, 2016.8(2016), 18-18
  8. Kim Y. S. and S. J. Han. and C. S. Park, "A Research on the Prediction of Computer System Fault based on Big Data" Proceedings of the 2015 Korea Intelligent Information System Conference, 2015.11(2015), 5-5
  9. Kingma, D. P. and Ba, J. "Adam: A method for stochastic optimization", International Conference on Learning Representation, ICLR2015(2015), arXiv:1412.6980.
  10. Ko, K. Y., Y. Y. Cha, and B. S. Choi, "Monitoring of Wafer Dicing State by Using Back Propagation Algorithm" Journal of Control Automation and Systems Engineering, 6(6)(2000), 486-491.
  11. Lawrence, A., "Uptime Institute data shows outages are common, costly, and preventable" Uptime Institute, 2018. Available at https://uptimeinstitute.com/data-center-outages-are-common-costly-and-preventable (Downloaded 13 August 2020)
  12. Moon, Y. S., J. W. Jung, S. P. Choi, T. H. Kim, B. H. Lee, J. J. Kim, and H. L. Choi, "Real-time reefer container monitoring system based on IoT" The Korea Institute of Information and Communication Engineering, 19(3)(2015), 629-635. https://doi.org/10.6109/jkiice.2015.19.3.629
  13. Ryu, C. J., & S. J. Han, "The Development of Monitoring System for PC and Server State Management" The Korea Institute of Information and Communication Engineering, 20(9)(2016), 1741-1746. https://doi.org/10.6109/jkiice.2016.20.9.1741
  14. Dukic, V. et al., "Beyond the mega-data center: networking multi-data center regions" SIGCOMM '20: ACM SIGCOMM 2020, July 2020(2020), 765-781
  15. Yang et al. (2016), "Hierarchical attention networks for document classification" In Proceedings of the 2016 conference of the North American chapter of the association for computational linguistics: human language technologies (pp. 1480-1489)
  16. Chen. Y,, et al., "Outage Prediction and Diagnosis for Cloud Service Systems" The World Wide Web Conference, (2019), 2659-2665
  17. Zhang, R. and Q, Zou. "Time series prediction and anomaly detection of light curve using lstm neural network." Journal of Physics: Conference Series. Vol. 1061. No. 1(2018).
  18. Zichao, Y., D. Yang, C. Dyer, X. He, A Smola, and E. Hovy, "Hierarchical Attention Networks for Document Classification" Association for Computational Linguistics, June 12-17 (2016), 1480-1489