Abstract
Checkpointing is one of common methods of realizing fault-tolerance for real-time systems. This paper presents a scheme to determine checkpoint intervals using probabilistic optimization. The considered real-time systems comprises multiple tasks in which transient faults can happen with a Poisson distribution. Also, multi-tasks are scheduled by the non-preemptive Rate Monotonic (RM) algorithm. In this paper, we present an optimization problem where the probability of task completion is described by checkpoint numbers. The solution to this problem is the optimal set of checkpoint numbers and intervals that maximize the probability. The probability computation includes schedulability test for the non-preemptive RM algorithm with respect to given numbers of checkpoint re-execution. A case study is given to show the applicability of the proposed scheme.
체크포인트 기법은 실시간 시스템의 내고장성을 구현하는 대표적인 방법이다. 본 논문에서는 확률 최적화를 이용하여 체크 포인트 구간을 결정하는 기법을 제시한다. 본 논문에서 다루는 실시간 시스템은 멀티 태스크(multi-task)들로 구성되며 Poisson 분포를 가지는 과도 고장이 발생한다. 또 멀티 태스크들은 비선점형 Rate Monotonic 알고리듬으로 스케줄링된다. 이번 연구에서는 멀티 태스크들의 수행 성공 확률을 체크포인트 삽입 개수로 표현하는 최적화 문제를 설정하고 이 확률값을 최대로 만드는 체크포인트 개수와 구간 길이를 구한다. 제안된 확률 계산 과정은 체크포인트 재수행 횟수에 대한 비선점형 RM 알고리듬의 스케줄링 가능성을 판별하는 방법도 포함한다. 사례 연구를 통해서 제안된 기법의 적용가능성을 입증한다.