Availability Analysis of Multiplex Systems using Software Rejuvenation Method

소프트웨어 재활 기법을 적용한 다중계 시스템의 가용도 분석

  • 박기진 (아주대학교 컴퓨터공학과) ;
  • 김성수 (아주대학교 정보통신전문대학원) ;
  • 김재훈 (아주대학교 정보통신전문대학원)
  • Published : 2000.08.15

Abstract

The software rejuvenation method for highly available multiplex systems uses a pro-active fault-tolerant approach to handle system failures. The software rejuvenation prevents failures from occurring, while the previous methods recover from failures after happening. Especially, since the software aging proceeds fast in the software used for the multimedia mobile computing due to the loss of communications or data, the preventive method from failures using software rejuvenation can be used for the multimedia mobile computing. In this paper, according to the operational parameters such as rejuvenation period, rejuvenation time, failure rate and repair rate of the servers, number of running servers, duration of running time, and type of running modes, we calculate steady-state probabilities, downtime, availability, and cost of the multiplex systems using software rejuvenation method. We validate the closed-form solutions of the mathematical model by experiments based on various operational parameters and find that the software rejuvenation method can be adopted as preventive fault-tolerant technique. The failure rate and unstable rate of the servers are essential factors for the decision making of the rejuvenation policies.

고가용성 다중계 시스템의 소프트웨어 재활 기법은 시스템의 결함 발생 이후에 수동적으로 대처하기보다는 결함이 발생하기 전에 이를 미연에 방지하는 능동적 차원의 결함 허용 방법이다. 특히 멀티미디어 이동 컴퓨팅에서 사용되는 소프트웨어는 통신 단절, 데이터 유실 등으로 인한 노화 진행이 일반 소프트웨어보다 상당히 빠르게 진행되기 때문에 소프트웨어 재활에 의한 결함 예방 방법은 대규모 멀티미디어 이동 컴퓨팅 시스템에 사용될 가능성이 높다고 볼 수 있다. 본 연구에서는 서버에서 수행되는 소프트웨어의 재활 주기, 재활 소요시간, 서버의 고장률, 수리률, 동시에 가동되는 서버의 수, 서버의 가동 기간 및 가동 방식 등의 시스템 운영 파라미터에 기초하여, 소프트웨어 재활 정책에 대한 평가를 위한 평형 상태에서의 확률, downtime, 가용도, 손실 비용 등을 계산하였다 수학적 분석을 통해 구한 재활 모델의 closed-form 해는 다양한 시스템 운영 상태에 대한 실험을 통해 검증하였으며, 소프트웨어 재활을 통한 예방적 결함허용 기법의 적용 가능성이 높다는 것을 확인하였다. 또한 서버의 고장률 및 불안정률이 소프트웨어 재활 정책 결정에 중요한 요소임을 파악하였다.

Keywords

References

  1. 김대영, '차세대 인터넷 기술 동향', 정보과학회지 제17권 제3호, pp. 4-13, 1999. 3
  2. 권호열, 장은정, '고속 LAN과 가입자망 기술의 연구 동향', 정보과학회지 제17권 제4호, pp. 4-13, 1999. 4
  3. N. Talagala and D. Patterson, 'An analysis of error behavior in a large storage system,' IEEE Workshop on Fault-Tolerant Parallel and Distributed Systems, pp. 28-51, San Juan, Puerto Rico, Apr. 1999
  4. R. Jain, The Art of Computer Systems Performance Analysis. p. 685, John Wiley & Sons Inc., 1991
  5. 김춘길, '전자상거래의 개념과 발전방향', 정보과학회지 제16권 제5호, pp. 5-10, 1998. 5
  6. 김진상, 박재희, 방갑산, 'ERP 기술개발 동향 및 추세', 정보과학회지 제16권 제11호, pp. 6-12, 1998. 11
  7. I. Lee and R. Iyer, 'Software dependability in the Tandem GUARDIAN system,' IEEE Transactions on Software Engineering, Vol. 21, No. 5, pp. 455-467, May 1995 https://doi.org/10.1109/32.387474
  8. B. Johnson, Design and Fault-Tolerant Analysis of Digital Systems. p. 584, Addison-Wesley Publishing Company, 1989
  9. A. Pfening, S. Garg, M. Telek, A. Puliafito and K. Trivedi, 'Optimal rejuvenation for tolerating soft failures,' Performance Evaluation, Vol. 27 & 28, North-Holland, pp. 491-506, Oct. 1996 https://doi.org/10.1016/0166-5316(96)00038-7
  10. S. Garg, Y. Huang, C. Kintala and K. Trivedi, 'Time and load based software rejuvenation: policy, evaluation and optimality,' Proc. of the first conference on Fault tolerant systems, Madras, India, Dec. 1995
  11. S. Garg, A. Puliafito, M. Telek and K. Trivedi, 'Analysis of software rejuvenation using Markov regenerative stochastic Petri net,' Proc. of the Sixth International Symposium on Software Reliability Engineering, pp. 180-187, Toulouse, France, Oct. 1995 https://doi.org/10.1109/ISSRE.1995.497656
  12. S. Garg, A. Puliafito, M. Telek and K. Trivedi, 'On the analysis of software rejuvenation policies,' Proc. 12th Annual Conference on Computer Assurance (COMPASS), June 1997 https://doi.org/10.1109/CMPASS.1997.613248
  13. S. Garg, A. Puliafito, M. Telek and K. Trivedi, 'Analysis of preventive maintenance in transactions based software systems,' IEEE Transactions on Computers, Vol. 47, No. 1, pp. 96-107, Jan. 1998 https://doi.org/10.1109/12.656092
  14. Y. Huang, C. Kintala, N. Kolettis and N. Fulton, 'Software rejuvenation: analysis, module and applications,' Proceedings of the 25th International Symposium on Fault Tolerant Computing (FTCS-25), Pasadena, CA, pp. 381-390, June 1995 https://doi.org/10.1109/FTCS.1995.466961
  15. Y. Wang, Y. Huang, W. Fuchs, C. Kintala and G. Suri, 'Progressive retry for software failure recovery in message-passing applications,' IEEE Trans. on Computers, Vol. 46, No. 10, pp. 1137-1141, Oct. 1997 https://doi.org/10.1109/12.628398
  16. Y. Huang, C. Kintala, L. Bernstein and Y. Wang, 'Components for software fault tolerance and rejuvenation,' AT&T Technical Journal, pp. 29-37, Mar. 1996
  17. Y. Huang, C. Kintala and Y. Wang, 'Software tools and libraries for fault tolerance,' Bulletin of the Technical Committee on Operating Systems and Application Environment (TCOS), Vol. 7, No. 4, pp. 5-9, Winter 1995
  18. S. Garg, Y. Huang, C. Kintala and K. Trivedi, 'Minimizing completion time of a program by checkpointing and rejuvenation,' Proc. 1996 ACM SIGMETRICS Conference, pp. 252-261, Philadelphia, PA, May 1996 https://doi.org/10.1145/233008.233050
  19. H. Levendel, 'Software dependability in wireless systems,' IEEE Workshop on Fault-Tolerant Parallel and Distributed Systems, pp. 3-12, San Juan, Puerto Rico, Apr. 1999
  20. K. Trivedi, Probability and Statistics with Reliability, Queueing, and Computer Science Applications. p. 624, Prentice-Hall, 1982
  21. L. Kleinrock, Queueing Systems Volume1: Theory. p. 417, John Wiley & Sons Inc., 1975
  22. G. Thomas and R. Finney, Calculus and Analytic Geometry. p. 891, Addison-Wesley Publishing Company, 1979