• 제목/요약/키워드: Fault-Tolerant Computer

검색결과 194건 처리시간 0.024초

Combining replication and checkpointing redundancies for reducing resiliency overhead

  • Motallebi, Hassan
    • ETRI Journal
    • /
    • 제42권3호
    • /
    • pp.388-398
    • /
    • 2020
  • We herein propose a heuristic redundancy selection algorithm that combines resubmission, replication, and checkpointing redundancies to reduce the resiliency overhead in fault-tolerant workflow scheduling. The appropriate combination of these redundancies for workflow tasks is obtained in two consecutive phases. First, to compute the replication vector (number of task replicas), we apportion the set of provisioned resources among concurrently executing tasks according to their needs. Subsequently, we obtain the optimal checkpointing interval for each task as a function of the number of replicas and characteristics of tasks and computational environment. We formulate the problem of obtaining the optimal checkpointing interval for replicated tasks in situations where checkpoint files can be exchanged among computational resources. The results of our simulation experiments, on both randomly generated workflow graphs and real-world applications, demonstrated that both the proposed replication vector computation algorithm and the proposed checkpointing scheme reduced the resiliency overhead.

철도 차량용 통신 네트워트의 이중 마스터 운용 기법 (Double mastering network for train communication)

  • 유흥열;조영조;오상록;홍대식
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1998년도 하계학술대회 논문집 A
    • /
    • pp.355-358
    • /
    • 1998
  • Train control and monitoring system for the railway train requires a reliable real-time communication network. The system have various functions, diagnostics, passenger informations, and fault-tolerant controls. For this system, an international standard called TCN(Train Communication Network) is proposed by IEC and the train industries. The TCN is composed of two layers, wire train bus(WTB) and multifunction vehicle bus(MVB). This paper evaluates the performance of the proposed WTB and modified WTB. And computer simulations are performed. The evaluated results can be used for the fault tolerant network in the railway train system.

  • PDF

상황 중심 프로그래밍을 기법을 이용한 결함 내성 MPI 시스템 (Fault-Tolerant MPI based on the Aspect-Oriented Programming)

  • 한혁;정형수;김신규;염헌영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.627-629
    • /
    • 2007
  • 최근 상황 중심 프로그래밍(Aspect-Oriented Programming)에 관한 연구가 활발해져서 분산 및 병렬 시스템의 설계를 더 효과적으로 할 수 있게 되었다. 이 논문에서는 상황 중심 프로그래밍을 활용하여 분산 시스템의 전통적인 이슈 중의 하나인 결함 내성 시스템을 구축해보고자 한다.

  • PDF

우아한 성능감퇴를 위한 임베디드 시스템의 유용도 설계 (Utility Design for Graceful Degradation in Embedded Systems)

  • 강민구;박기진
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제34권2호
    • /
    • pp.65-72
    • /
    • 2007
  • 임베디드 시스템의 신인도(Dependability)를 높이기 위해 기존 컴퓨터시스템에서 주로 사용되는 결함허용(Fault-tolerant) 기법을 그대로 적용시키는 것은 임베디드 시스템의 엄격한 비용 제약과 설치공간 부족 등을 고려할 때 적합하지 않다. 본 논문에서는 각 시스템 구성요소(Component)들의 여분(Redundancy)을 최소한도로 사용하는 임베디드 시스템에 적합한 소프트웨어 결함허용 기법을 제안한다. 이를 위하여 임베디드 시스템의 신인도를 반영하기 위한 기준인 유용도(Utility) 척도를 정의하고, 실제 시스템의 결함허용을 위해 각각의 시스템 구성요소들의 재구성(Reconfiguration) 조합에 대한 유용도 평가를 수행하였다. 이러한 유용도 평가는 일반적으로는 지수복잡성(Exponential Complexity)을 가지게 되나, 본 논문에서는 각각의 구성요소에 대한 소프트웨어 수준의 계층적 그룹화 개념을 이용하여 복잡도를 크게 감소시켰다. 이를 통해 임베디드 시스템의 일부 부품에 결함이 발생했을 시, 시스템의 고장(Failure)을 방지 할 수 있도록 전체 시스템 단계에서 가능한 최대 유용도를 제공하는 구성조합으로의 재구성 작업을 가능하게 하였다.

IMMORTAL : 원격 메쏘드 호출에 기반한 결함허용 분산 미들웨어 시스템 (IMMORTAL : Fault Tolerant Distributed Middleware System based on Remote Method Invocation)

  • 현무용;김식;김명준;야마키다 지로
    • 한국정보과학회논문지:정보통신
    • /
    • 제29권5호
    • /
    • pp.562-572
    • /
    • 2002
  • 분산 시스템을 지원하기 위한 패러다임으로서 분산객체 기술이 각광받고 있다. DSOM, DCOM, CORBA, Java RMI 등으로 대표되는 분산 미들웨어 플렛폼들은 분산 어플리케이션의 개발을 용이하게 하지만, 어플리케이션들의 신뢰성 및 가용성을 증진시키기 위한 직접적인 지원은 미흡한 상태이다. 분산 객체 패러다임을 지원하기 위한 결함 허용 기술의 개발 작업은 상당히 복잡하며, 오류가 발생할 소지가 높기 때문에, 분산 객체의 신뢰성과 가용성을 지원하는 개발툴에 대한 요구가 급증하고 있는 실정이다. 본 논문에서는 RMI에 기반한 결함허용 분산 미들웨어 시스템인 IMMORTAL을 제안하고자 한다. 제안된 시스템은 신뢰성 있는 분산 컴퓨팅을 지원하기 위해 로그 기반 롤백 복구 메커니즘을 채택하였다. 일련의 실험을 통해 IMMORTAL 하에서 동작중인 실험용 어플리케이션들이 다양한 하드웨어 및 소프트웨어 결함에도 불구하고 지속적으로 동작함을 확인하였고, 제안된 시스템의 성능 및 비례확장성을 평가하였다.

원격 로깅 기법을 이용하는 고장 허용 소프트웨어 분산공유메모리 시스템의 구현 (An Implementation of Fault Tolerant Software Distributed Shared Memory with Remote Logging)

  • 박소연;김영재;맹승렬
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권5_6호
    • /
    • pp.328-334
    • /
    • 2004
  • 최근에 소프트웨어 분산공유메모리 시스템은 그 성능이 높아짐에 따라 큰 규모의 클러스터 상에서 사용되는 경우가 많아졌다. 그러나 시스템 규모가 커지면서 고장이 발생하는 가능성도 높아졌다. 시스템의 가용성을 높이기 위하여 고장 허용 기능을 제공하는 분산공유메모리 시스템이 요구되었으며 메시지 로깅에 대한 많은 연구가 이루어져 왔다. 본 논문에서는 고속의 네트웍을 이용하여 복구에 필요한 메시지들을 원격 노드의 메모리에 로깅 하는 방법을 제안한다. 원격 로깅은 정상 수행 동안 빈번한 디스크 접근을 요구하지 않으므로 오버헤드가 적다. 또한 로그를 유지하는 백업 노드들이 고장나지 않은 경우 다중 노드의 고장을 허용하여, 분산공유메모리 시스템의 신뢰성을 높인다. 본 논문에서는 FT-KDSM (Fault Tolerant KAIST DSM) 시스템을 설계하고 구현하여 원격 로깅의 성능을 보이고 고장으로부터의 복구 시간을 보인다.

병렬 컴퓨터에서의 결함 허용 메시지 전달 인터페이스 구현 (An Implementation of Fault-Tolerant Message Passing Interface on Parallel Computers)

  • 송대기;이철훈
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제6권3호
    • /
    • pp.319-328
    • /
    • 2000
  • 메시지 전달 인터페이스(MPI)는 기존의 다양한 병렬 프로그램 개발 환경을 표준화한 것으로써, 메시지 전달 인터페이스를 기반으로 하는 병렬 컴퓨터 시스템은 응용 프로그램을 수많은 프로세서들에 분산 배치시켜 수행한다. 구성되는 각각의 프로세서 노드들은 연산을 하고 서로 결과를 메시지로 교환하여 수행을 하게 된다. 그러나 병렬 컴퓨터를 구성하는 노드들 중에서 어느 한 노드 또는 작업 중인 프로세스가 고장을 일으킨다면 수행되는 응용 프로그램은 그 동안의 수행 결과를 잃게 되며, 또한 응용 프로그램을 구성하는 모든 프로세스들은 중단될 것이다. 본 논문에서는 이와 같은 문제를 해결하기 위해 기존의 MPI에 고장 관리자(Fault Manager) 모듈을 추가함으로써 고장 허용 메시지 전달 인터페이스인 FT-MPI 를 제안한다. 제안한 FT-MPI는 고장 처리를 위한 추가적인 하드웨어 지원이 필요하지 않으며 기존의 MPI 응용 프로그램들이 수정 없이 수행될 수 있다는 장점을 지닌다. 제안한 고장 허용 방법은 프로세스 이중화 기법인 hot-spare 방법을 사용하였으며, 시뮬레이션을 통해 제안한 FT-MPI가 고장이 발생하더라도 응용 프로그램이 올바르게 수행되며, 고장 허용 기능으로 인한 수행 시간상의 오버헤드는 5%를 넘지 않음을 보인다.

  • PDF

비동기적 분산 시스템에서 선출 문제는 NF-completeness 문제임을 증명 (Proof that the Election Problem belongs to NF-completeness Problems in Asynchronous Distributed Systems)

  • 박성훈
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권3호
    • /
    • pp.169-175
    • /
    • 2002
  • 본 논문은 프로세스들이 크래시(crash)되어 죽을 수 있으나 통신망은 신뢰 할 수 있는 비동기적 분산 시스템에서 선출(election) 문제 해결의 어려움에 대하여 논한 글이다. 비동기적인 분산 시스템에서 문제들을 해결하는데 어려움의 정도는 프로세스들의 실패(failure)에도 불구하고 그것들을 해결 할 수 있느냐 하는 어려움(difficulty)에 의해 결정된다. 비동기적인 분산 시스템에서 부딪치는 문제들은 3부류의 문제들로 구분되는 바: F(고장 감내), NF(비고장 감내), NFC(비고장 감내 완전성)의 3 종류들이다. 그런 문제들 중, NFC 부류의 문제들이 해결하기 가장 어려운 문제들이다. 본 논문에서는 선출 문제도 NFC 부류에 속하는 해결하기 가장 어려운 문제임을 증명한다.

Ad-Hoc 네트워크에서 링크 장애를 고려한 효율적인 키 협정 방법 (Efficient Fault Tolerant Key Agreement for Ad-Hoc)

  • 이영준;민성기;이성준
    • 컴퓨터교육학회논문지
    • /
    • 제7권1호
    • /
    • pp.45-53
    • /
    • 2004
  • Ad-Hoc네트워크에서는 기존의 인프라를 사용하지 않기 때문에 공개 키 기반 구조 또는 제삼자 키 관리 서비스를 지원하지 않는다. 따라서 여러 유형의 보안문제가 발생할 수 있다. 그래서 보안 문제를 해결하기 위한 방법인 키 협정(key agreement)에 대하여 많은 프로토콜들이 제안되어 왔다. 가장 대표적인 것이 디피 헬만(Diffie-Hellman)이 제안한 프로토콜이다. 그러나 이 방법은 두명의 사용자간에서만 사용될 수 있다. 이 논문에서는 디피 헬만 방법을 확장하여 다자간에도 사용될 수 있는, 그룹 키 협정에 대하여 알아보고, 그룹 키 협정 진행 중에 링크 장애가 발생했을 때 그룹 키 협정을 성공적으로 수행하기 위한 효율적인 방법을 제안하였다.

  • PDF