A Fault-Tolerant Linear System Solver in a Standard MPI Environment

표준 MPI 환경에서의 무정지형 선형 시스템 해법

  • Published : 2005.12.01

Abstract

In a large scale parallel computation, failures of some nodes or communication links end up with waste of computing resources, Several fault-tolerant MPI libraries have been proposed so far, but the programs written by using such libraries have a portability problem since fault-tolerant features are not supported by the MPI standard yet, In this paper, we propose an application-level fault-tolerant linear system solver that uses the asynchronous iteration algorithm and the standard MPI functions only, which does not have a portability problem and is more efficient by adopting a simplified recovery mechanism.

대규모 병렬 연산에 있어서, 계산 노드 혹은 통신 네트워크의 장애는 연산 실패로 끝나 계산자원이 낭비된다. 이를 해결하는 무정지형 MPI 라이브러리들이 제안되어 있으나 이들은 MPI 표준을 따르지 않아 이식성의 문제가 있다. 본 논문에서는 응용 프로그램의 수준에서 비동기 연산과 표준 MPI 함수만 사용하여 이식성의 문제를 해결하고 장애 복구 메커니즘을 단순화하며 수렴속도를 높이는 무정지형 선형 시스템의 해법을 제안한다.

Keywords