Abstract
In this paper, we suggest a checkpoint and recovery facility for the fault-tolerable process which is expected to be executed for a long time. The basic concept of the suggested facility is to allow the process to be executed continuously, when the process was stopped due to a System fault, by storing the execution status of the process periodically and recovering the execution status prior to the fault was occurred. In the suggested facility, it does not need to modify the source code for the fault-tolerable process. It was designed for the user to specify directly the file name and the checkpoint frequency, and two system calls(save, recover) were added. finally, it was implemented on the Linux environment(kernel 2.4.18) for checking the feasibility.
본 논문에서는 장시간 실행이 예상되는 결함 허용 프로세스를 위한 검사점 및 복구 도구를 제시한다. 제시한 도구의 기본 개념은 프로세스의 실행 상태를 주기적으로 저장함으로써 시스템 결항으로 인해 실행이 정지되었을 경우, 결함이 발생하기 전의 실행 상태를 복구하여 계속 실행시키는 것이다. 제시한 도구에서는 검사점 및 복구를 위하여 결함 허용 프로세스의 소스 코드를 수정할 필요가 없다. 이를 위하여 결함 허용 프로세스를 위한 파일명과 검사점 주기를 사용자가 직접 지정하도록 설계하고, 두 개의 시스템 호출(Save, recover)을 추가하였다. 마지막으로 제시한 기법의 타당성을 검토하기 위하여 리눅스 환경(커널 2.4.18)에서 구현하였다.