베이지안 네트워크 기반에 자가관리를 위한 결함 지역화

Fault Localization for Self-Managing Based on Bayesian Network

  • 박순선 (성균관대학교 전자전기 컴퓨터공학과) ;
  • 박정민 (성균관대학교 컴퓨터공학과) ;
  • 이은석 (성균관대학교 정보통신공학부)
  • 발행 : 2008.04.30


결함 지역화는 관찰된 결함의 근본 원인을 자동 인식 하는 것이 가능하기 때문에 규모가 큰 분산시스템에서 중요 역할 수행하며 시스템의 신뢰성 개선을 위해 시스템의 관리와 제어가 가능한 자가 관리를 지원한다. 결함 지역화를 지원하는 기존 연구들은 유비쿼터스 환경에서 베이지안 네트워크와 같은 인공지능 기술들을 주로 사용하여 진단과 예측 기능 중 하나만을 고려하고 있다. 따라서, 본 논문에서는 시스템의 신뢰성 개선을 위해 실시간 시스템 성능 스트림에 대한 학습을 통해 자가관리를 위한 확률적 의존 분석을 기반으로 하는 결함 지역화 방법을 제안하여 진단과 예측기능을 동시 제공한다. 학습 방법으로 베이지안 네트워크 알고리즘을 사용하여 각종 관련된 요소들을 연결함으로써 네트워크를 생성하고 확률적 의존 관계를 통해 귀납적과 연역적 추론기능을 제공한다. 베이지안 네트워크의 구성은 노드들간의 연관성을 찾아내는 것이 중요하기 때문에 그것을 구성하는 인자의 개수가 많은 경우 노드 순서 리스트를 추출하는 사전처리 과정이 필요하다. 따라서 전체 모델링 프로세스에 대한 개선이 요구된다. 이러한 문제를 해결하기 위해 발생한 문제와 관련성이 높은 노드 순서 리스트를 추출하는 방법을 제공한다. 구조 학습을 지원 하는 사전처리 방법을 통해 다양한 문제 영역에서의 학습 효율성을 높이며 학습에 필요로 되는 시간을 줄인다. 제안 방법론을 통해서 시스템의 자원 문제를 신속하고 정확하게 진단하는 것이 가능하며, 관찰된 정보를 기반으로 실행 중에 발생되는 잠재적인 문제를 예측하는 것이 가능하다. 시스템 성능 평가 영역에서 제안 방법론을 적용한 시스템 성능 분석을 기반으로 진단, 예측의 효율성과 정확성을 평가하여 제안 방법론의 유효성을 입증하였다.

Fault localization plays a significant role in enormous distributed system because it can identify root cause of observed faults automatically, supporting self-managing which remains an open topic in managing and controlling complex distributed systems to improve system reliability. Although many Artificial Intelligent techniques have been introduced in support of fault localization in recent research especially in increasing complex ubiquitous environment, the provided functions such as diagnosis and prediction are limited. In this paper, we propose fault localization for self-managing in performance evaluation in order to improve system reliability via learning and analyzing real-time streams of system performance events. We use probabilistic reasoning functions based on the basic Bayes' rule to provide effective mechanism for managing and evaluating system performance parameters automatically, and hence the system reliability is improved. Moreover, due to large number of considered factors in diverse and complex fault reasoning domains, we develop an efficient method which extracts relevant parameters having high relationships with observing problems and ranks them orderly. The selected node ordering lists will be used in network modeling, and hence improving learning efficiency. Using the approach enables us to diagnose the most probable causal factor with responsibility for the underlying performance problems and predict system situation to avoid potential abnormities via posting treatments or pretreatments respectively. The experimental application of system performance analysis by using the proposed approach and various estimations on efficiency and accuracy show that the availability of the proposed approach in performance evaluation domain is optimistic.



  1. R. K. Sahoo, A. J. Oliner, I. Rish, M. Gupta, J. E. Moreira, S. Ma, R. Vilalta, and A. Sivasubramaniam, “Critical event prediction for proactive management in large-scale computer clusters,” In Proceedings of the ACM SIGKDD, Intl. Conf. on Knowledge Discovery and Data Mining, pp.426.435, August 2003
  2. Jeffrey O. Kephart David M. Chess IBM Thomas J. Watson Research Center, “The Vision of Autonomic Computing,” IEEE Computer Society, January 2003
  3. Irina Rish, Mark Brodie, Sheng Ma, Natalia Odintsova, Alina Beygelzimer, Genady Grabarnik, and Karina Hernandez, “Adaptive Diagnosis in Distributed Systems,” IEEE Transactions on Neural Networks, March 2005
  4. Yuan-Shun Dai, “Autonomic Computing and Reliability Improvement,” Proceedings of Eighth IEEE International Symposium on Object-Oriented Real-Time Distributed Computing (ISORC'05), pp. 204-206, 2005
  5. IBM Self-Aware Distributed Systems: http://domino. html
  6. Sun Microsystems: Predictive Self-Healing in the Solaris 10 Operating System: bigadmin/content/selfheal 0
  7. Bhaskara Reddy Moole and Raghu Babu Korrapati, “Enterprise web site problem diagnosis using Bayesian Belief Networks”, SoutheastCon, Proceedings, IEEE, pp. 384-396, 2005
  8. J.Bronstein, A.Das., “Self-Aware Services- Using Bayesian Networks for Detecting Anomalies in Internet-based Services”, HP Labs Technical Reports HPL-2001-23R1, 2001
  9. Rui Zhang, Steve Moyle and Steve McKeever, and Alan Bivens, “Performance Problem Localization in Self-Healing, Service-Oriented Systems using Bayesian Networks”, Proceedings of the 2007 ACM symposium on Applied computing, pp. 104-109, 2007
  10. Malgorzata Steinder, Adarshpal S.Sethi, “Probabilistic Fault Localization in Communication Systems Using Belief Networks”, IEEE/ACM Transactions on Networking, pp.809-822, October 2004
  11. Jianguo Ding, Bernd Kramer, Yingcai Bai, and hansheng Chen, “Backward inference in Bayesian networks for distributed systems management,” Journal of Network and Systems Management, Vol.13, No. 4, December 2005
  12. Ethem Alpaydm, Introduction of Machine Learning. Massachusetts Institute of Technology, pp.39-60, 2004
  13. Charles River Analytics Inc, About Bayesian Belief Networks, Charles River Analytics, Inc., 2004
  14. Jie Cheng, David A. Bell,Weiru Liu, “An algorithm for Bayesian Belief Network construction from Data”, In Proceedings of AI &STAT', pp. 83-90, 1997
  15. Cheng, J., Bell, D. and W. Liu, “Learning Bayesian Networks from Data: An Efficient Approach Based on Information Theory”, In Proceedings of the sixth ACM International Conference on Information and Knowledge Management, 1997