• Title/Summary/Keyword: Fault-Tolerant System

Search Result 423, Processing Time 0.039 seconds

Fault Tolerant Cache for Soft Error (소프트에러 결함 허용 캐쉬)

  • Lee, Jong-Ho;Cho, Jun-Dong;Pyo, Jung-Yul;Park, Gi-Ho
    • The Transactions of The Korean Institute of Electrical Engineers
    • /
    • v.57 no.1
    • /
    • pp.128-136
    • /
    • 2008
  • In this paper, we propose a new cache structure for effective error correction of soft error. We added check bit and SEEB(soft error evaluation block) to evaluate the status of cache line. The SEEB stores result of parity check into the two-bit shit register and set the check bit to '1' when parity check fails twice in the same cache line. In this case the line where parity check fails twice is treated as a vulnerable to soft error. When the data is filled into the cache, the new replacement algorithm is suggested that it can only use the valid block determined by SEEB. This structure prohibits the vulnerable line from being used and contributes to efficient use of cache by the reuse of line where parity check fails only once can be reused. We tried to minimize the side effect of the proposed cache and the experimental results, using SPEC2000 benchmark, showed 3% degradation in hit rate, 15% timing overhead because of parity logic and 2.7% area overhead. But it can be considered as trivial for SEEB because almost tolerant design inevitably adopt this parity method even if there are some overhead. And if only parity logic is used then it can have $5%{\sim}10%$ advantage than ECC logic. By using this proposed cache, the system will be protected from the threat of soft error in cache and the hit rate can be maintained to the level without soft error in the cache.

Fault-Tolerant Parallel Applications in Java Message Passing Systems (자바 메시지 전달 시스템에서의 결함 포용 병렬 애플리케이션)

  • 안진호;김기범;김정훈;황종선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10a
    • /
    • pp.768-770
    • /
    • 1998
  • 동기적 검사점(synchronous checkpoiting)기법, 인과적 메시지 로깅(causal message logging)과 향상된 회복 비동기성(improved asynchronism during recovery)을 제공하는 복귀회복(rollback recovery) 기법을 적용하여 자바 메시지 전달 시스템(java massage passing system)에서 수행하는 병렬 에플리케이션들에게 저 비용의 결함 포용성에 따라, 통신망으로 연결된 이질형 (fault-tolerance)(heterogeneous) 컴퓨터들을 이용하는 대규모 분산 시스템들은 아주 효율적인 병렬 컴퓨팅 환경을 제공해준다. 그러나, 이러한 분산 시스템들의 규모가 커짐에 따라 고장률 (failure rate)도 그 만큼 중요하게 된다. 따라서, 고장률이 높은 대규모 분산 시스템들에게 좀더 효율적인 결함 포용성을 제공하는 기법들이 필요하다. 또한, 대규모분산 시스템들은 이질형 컴퓨터들로 구성되어 있기 때문에, 결함 포용성을 제공하는 소프트웨어 패키지들은 플랫폼 독립적(platform independent)이어야 한다. 이러한 문제점은 높은 이식성(portability)을 가지고 있는 자바 언어로 구현함으로써 해결될 수 있다. 따라서, 본 논문은 자바 메시지 전달 시스템에서 수행되는 병렬 애플리케이션들에게 동기적 검사점 기법, 인과적 메시지 로깅과 향상된 비동기성을 제공하는 복귀회복 기법을 높은 이식성을 가진 자바언어로 구현하여 저 비용으로 결함 포용성을 제공하고자 한다.

  • PDF

A Configurable Software-based Approach for Detecting CFEs Caused by Transient Faults

  • Liu, Wei;Ci, LinLin;Liu, LiPing
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • v.15 no.5
    • /
    • pp.1829-1846
    • /
    • 2021
  • Transient faults occur in computation units of a processor, which can cause control flow errors (CFEs) and compromise system reliability. The software-based methods perform illegal control flow detection by inserting redundant instructions and monitoring signature. However, the existing methods not only have drawbacks in terms of performance overhead, but also lack of configurability. We propose a configurable approach CCFCA for detecting CFEs. The configurability of CCFCA is implemented by analyzing the criticality of each region and tuning the detecting granularity. For critical regions, program blocks are divided according to space-time overhead and reliability constraints, so that protection intensity can be configured flexibly. For other regions, signature detection algorithms are only used in the first basic block and last basic block. This helps to improve the fault-tolerant efficiency of the CCFCA. At the same time, CCFCA also has the function of solving confusion and instruction self-detection. Our experimental results show that CCFCA incurs only 10.61% performance overhead on average for several C benchmark program and the average undetected error rate is only 9.29%. CCFCA has high error coverage and low overhead compared with similar algorithms. This helps to meet different cost requirements and reliability requirements.

Fault Tolerant System based on Recovery Agents (회복 에이전트 기반 결함 포용 시스템)

  • Lee, Hwa-Min;Jung, Soon-Young;Yu, Heon-Chang
    • The Journal of Korean Association of Computer Education
    • /
    • v.5 no.2
    • /
    • pp.21-28
    • /
    • 2002
  • This paper proposes a new approach to rollback-recovery using multi-agent in distributed computing system. Previous rollback-recovery protocols are dependent on inherent communication and operating system, which causes a decline of computing performance in distributed computing system. By using multi-agent, we propose rollback-recovery protocol that is independent on operating system. We define three kinds of agent. One is a recovery agent that performs rollback-recovery protocol after a failure. Other is an information agent that constructs domain knowledge as a rule of fault tolerance and information during failure-free operation. The other is facilitator agent that controls the efficient communication between agents. Also we propose rollback-recovery protocol using multi-agent and simulated the proposed rollback-recovery protocol using JAVA and agent communication language in CORBA environment.

  • PDF

Development of a Robot System for Repairing a Underground Pipe (지하매설 배관의 보수를 위한 로봇시스템 개발)

  • Yeo, Hee-Joo
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.13 no.3
    • /
    • pp.1270-1274
    • /
    • 2012
  • The pipe laid underground more than three decades ago are already starting to reveal the problem like corrosion. There have been many studies to design robotic system for a cost-effective revival of old pipes. And the ability to inspect in the pipes, the ability to treat and repaint the pipes and the fault-tolerant robotic system are well known important factors for the robotic system. It's real hard part to manage the underground pipes for companies because it needs high technical and too much money. According to this reasons, in this paper, we had design an in-pipe robotic system having abilities to inspect outworn pipes, to treat and paint old pipes. This new robot system is pressing wall type robot, and it has a good carrying power for working.

J-JDBS: Java Distributed Batch-processing System Using Jini (J-JDBS: Jini를 이용한 자바 분산 일괄처리 시스템)

  • Goo, Geon;Kim, JungSun
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.39 no.1
    • /
    • pp.1-13
    • /
    • 2002
  • In Distributed Batch-processing Systems (DBSs), CPU-intensive jobs are automatically transferred and executed using idle computers across a network, there by increasing the resource usage and throughput. To be successful, the systems must guarantee the scalablility, fault-tolerance, and flexibility of dynamic configurations. In practice, however, it is very difficult to provide such capabilities in a non-deterministic environment in which the available set of resources is unpredictable because of network failures, computer failures, or voluntary withdrawal from a pool by a machine owner. In this paper, we present the design and implementation of the J-JDBS (Jini-based Java Distributed Batch-processing System) system which is based on the core Jini services like Discovery service, Lookup service, Lease service and etc. We show that the Jini core services can be very effectively used to build reliable, scalallle, fault-tolerant, and flexible DBS systems with little effort.

Switch Open Fault Detection and Tolerant Method for Three Phase PWM Rectifier (3상 PWM 정류기의 스위치 개방 고장시 감지 및 허용운전 방법)

  • Shin, Hee-Kuen;An, Byoung-Woong;Kim, Hag-Wone;Cho, Kwan-Yuhl;Lim, Byung-Kuk;Jung, Shin-Myung
    • Proceedings of the KIPE Conference
    • /
    • 2011.11a
    • /
    • pp.18-19
    • /
    • 2011
  • 본 논문에서는 3상 PWM 정류기의 스위치 개방 고장시 감지 및 허용 운전 방법에 대해 제안한다. 스위치의 개방 고장이 발생 하면, 한상의 전류가 반주기 동안 나타나지 않기 때문에 출력 직류전압의 리플로 나타나게 된다. 이경우 고장 감지 및 허용 운전을 하지 않으면, 전력 품질을 저하되며, 직류 링크 콘덴서의 수명이 감축되는 문제를 발생 시킨다. 제안된 기법은 추가적인 하드웨어 없이 간단한 모델 적응 제어 (Model Reference Adaptive System)을 이용하여, 고장된 스위치를 감지 하며, 고장난 스위치의 반대 스위치를 켜고 나머지 2상을 전류제어 하여 3상 전류를 평형상태로 만들어 출력 직류전압의 리플을 줄이는 허용운전을 제안한다. 본 논문은 6kW급 3상 PWM 정류기 시스템을 모의해석을 통해 제안된 기법의 타당성을 입증 하였다.

  • PDF

Fault Diagnosis and Tolerant Algorithm of Current Sensors for a High-Power Conversion System (대용량 전력변환 장치의 전류센서 고장진단 및 허용운전 기법)

  • Ko, Young-Jong;Elise, Margo;Lee, Kyo-Beum;Lee, Dong-Choon;Kim, Jang-Mok
    • Proceedings of the KIPE Conference
    • /
    • 2011.07a
    • /
    • pp.415-416
    • /
    • 2011
  • 본 논문은 계통연계형 전력변환 장치의 폐루프 제어에 이용되는 전류센서의 고장진단 및 허용운전 기법을 제안한다. 전류 센서에 고장이 발생하면, 정확한 출력전력제어가 불가능해져 품질이 저하될 뿐만 아니라 이에 대한 허용운전이 이루어지지 않으면 전체시스템의 운전을 중지해야 한다. 따라서 실시간 고장진단 및 허용운전 기법이 필요하다. 제안한 기법은 측정된 값과 추정 값의 비교를 통해 고장진단을 하고, 고장발생시 정상 센서에서 측정된 전류 값을 이용하여 허용운전을 한다. 10kW급 3병렬 전력 변환 시스템을 모의한 시뮬레이션을 통해 제안한 기법의 성능을 검증하였다.

  • PDF

A JobTracker Fault-tolerant Mechanism for MapReduce Framework (MapReduce 프레임워크를 위한 JobTracker 결함허용 메커니즘)

  • Hwang, Byung-Hyun;Park, Kie-Jin
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06a
    • /
    • pp.317-318
    • /
    • 2010
  • 클라우드 컴퓨팅 서비스를 제공하기 위해서는 클라우드 컴퓨팅에 적합한 데이터 분산 저장 및 병렬 처리가 가능한 IT 인프라 구축이 필수적이다. 이를 위해서 분산 파일 시스템 중 하나인 HDFS(Hadoop File System)와 병렬 데이터 처리를 지원하기 위한 MapReduce 프레임워크 관련 연구가 각광 받고 있다. 하지만 MapReduce 프레임워크를 구성하는 JobTracker 노드는 SPoF(Single Point of Failure)이기 때문에, 작업 도중 JobTracker 노드의 결함이 발생하게 되면 전체 작업이 실패하게 된다. 위와 같은 문제를 해결하기 위해서 본 논문에서는 MapReduce 프레임워크의 JobTracker 노드 결함 발생에 대처할 수 있는 결함허용 메커니즘을 제안하였다.

  • PDF

Analysis on the Reliability of the Multi-Module Hardware Redundancy in the Fault Tolerant System (고장포용시스템에서의 다중 모듈 하드웨어 여분의 신뢰도 분석)

  • Hong, Tae-Hwa;Kim, Hag-Bae
    • Proceedings of the KIEE Conference
    • /
    • 1999.11c
    • /
    • pp.791-793
    • /
    • 1999
  • 제어 컴퓨터의 고장으로 인해 인명이나 재산에 치명적 영향을 미치는 safety-critical 실시간 시스템을 제어하고 모니터링하기 위해 디지털 컴퓨터의 사용은 점점 일반화되고 있다. 특히, VLSI 기술의 급격한 발달로 인해 하드웨어가 초소형화 되고 대량생산이 가능해진 현실에서 이러한 제어 컴퓨터의 극대화된 신뢰도 요구를 만족시키기 위해 막중한 하드웨어 여분(hardware redundancy)이 널리 사용되고 있는 실정이다. 본 논문에서는 N개의 다중 모듈(multi-module)로 이루어진 하드웨어 여분의 운영 모드를 분석하고 각 운영 모드에서 고장이 발생할 경우 모드의 전환과 그로 인한 신뢰도의 변화를 계산할 것이다. 그리고 간단한 시뮬레이션을 통해 전환된 여러 모드 중 가장 우수한 신뢰도를 갖는 모드를 평가하게 된다.

  • PDF