Fault-Tolerant Message Passing Interface on Parallel and Distributed Systems

병렬 및 분산환경에서의 고장 감내 메시지 전달 인터페이스

  • 송대기 (충남대학교 컴퓨터공학과) ;
  • 김종훈 (충남대학교 컴퓨터공학과) ;
  • 강용호 (충남대학교 컴퓨터공학과) ;
  • 이철훈 (충남대학교 컴퓨터공학과)
  • Published : 1998.10.01

Abstract

본 논문에서는 메시지 전달을 기반으로 하는 병렬 분산 시스템에 고장 감내 기능을 추가하기 위한 고장 감내 기법과, 고장 복구에 따른 프로세서들간의 일관성 유지방법을 제안하였다. 메시지 전달을 기반으로 하는 병렬 컴퓨터 시스템상에서 응용 프로그램들은 수많은 노드들에 분산 배치되어 수행이 되는데, 그중 어느 한 노드 또는 작업 중인 프로세서가 고장을 일으킨다면 이로 인하여 전체 응용 프로그램이 중단 될 것이다. 이러한 문제를 해결하기 위하여 고장 감내 기능 추가가 필요하며, 그 방법으로서 동일한 작업을 수행하는 프로세서를 서로 다른 노드상에 이중화하여 하나의 프로세서에 고장이 발생하더라도 계속 작업중인 예비 프로세서를 이용함으로써 전체 응용 프로그램이 아무런 영향을 받지 않도록 하였다. 그리고 이를 MPI상에 서브 모듈로써 설계하고 구현하였다.

Keywords