• 제목/요약/키워드: low-overhead fault-tolerance

검색결과 5건 처리시간 0.02초

분산객체 기반 경량화 결함허용 기술의 성능 비교 (The Performance Comparison of Low-Overhead Fault Tolerant Services based on Distributed Object)

  • 김식;현무용
    • 정보학연구
    • /
    • 제9권4호
    • /
    • pp.25-34
    • /
    • 2006
  • As most application programs are more sophisticated and are adopted the distributed object technology, the object based distributed design became widespread since it supports portability and reusability. The approaches for fault-tolerant distributed computing are categorized into the active replica mechanism for mission-critical application programs and the passive replica mechanism for non mission-critical ones, when fault-tolerant facilities are added on. Our paper introduces the pros and drawbacks of several approaches for the add-on low-overhead fault-tolerant services by the surveys and shows the results of experiments for bench-mark models in order to demonstrate their performance.

  • PDF

에러 내성을 갖는 저전력 MAC 연산기 설계 (A Design of Low Power MAC Operator with Fault Tolerance)

  • 정한샘;구성관;정기석
    • 대한전자공학회논문지SD
    • /
    • 제45권11호
    • /
    • pp.50-55
    • /
    • 2008
  • 오늘날 사용되는 휴대용 전자 장치들은 점점 더 강력한 DSP 능력을 요구하고 있다. 때문에 오늘날의 DSP 알고리즘들은 점점 더 그 복잡도가 높아져 가고 있는 추세이다. DSP 알고리즘의 복잡도가 높아져 감에 따라 DSP 디자인에서 결함이 발생할 확률도 높아져 가고 있다. 그렇기 때문에 디자인에서 발생한 결함을 극복할 수 있는 Fault Tolerance 설계의 필요성이 제시된다. 또한 DSP 알고리즘이 휴대용 전자 장치들에서 사용되기 위해서는 기본적으로 저전력 설계가 필요하다. 하지만 Fault Tolerance 기능을 구현하고자 한다면 추가 모듈로 인해 많은 전력소비와 증가하는 회로크기를 감수해야 한다. 이러한 이슈들을 가지고 본 논문에서는 배럴 시프터를 이용하여 구현된 결함 포용성 저전력 MAC 연산기 구조를 제안한다.

A Configurable Software-based Approach for Detecting CFEs Caused by Transient Faults

  • Liu, Wei;Ci, LinLin;Liu, LiPing
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권5호
    • /
    • pp.1829-1846
    • /
    • 2021
  • Transient faults occur in computation units of a processor, which can cause control flow errors (CFEs) and compromise system reliability. The software-based methods perform illegal control flow detection by inserting redundant instructions and monitoring signature. However, the existing methods not only have drawbacks in terms of performance overhead, but also lack of configurability. We propose a configurable approach CCFCA for detecting CFEs. The configurability of CCFCA is implemented by analyzing the criticality of each region and tuning the detecting granularity. For critical regions, program blocks are divided according to space-time overhead and reliability constraints, so that protection intensity can be configured flexibly. For other regions, signature detection algorithms are only used in the first basic block and last basic block. This helps to improve the fault-tolerant efficiency of the CCFCA. At the same time, CCFCA also has the function of solving confusion and instruction self-detection. Our experimental results show that CCFCA incurs only 10.61% performance overhead on average for several C benchmark program and the average undetected error rate is only 9.29%. CCFCA has high error coverage and low overhead compared with similar algorithms. This helps to meet different cost requirements and reliability requirements.

EHMM-CT: An Online Method for Failure Prediction in Cloud Computing Systems

  • Zheng, Weiwei;Wang, Zhili;Huang, Haoqiu;Meng, Luoming;Qiu, Xuesong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권9호
    • /
    • pp.4087-4107
    • /
    • 2016
  • The current cloud computing paradigm is still vulnerable to a significant number of system failures. The increasing demand for fault tolerance and resilience in a cost-effective and device-independent manner is a primary reason for creating an effective means to address system dependability and availability concerns. This paper focuses on online failure prediction for cloud computing systems using system runtime data, which is different from traditional tolerance techniques that require an in-depth knowledge of underlying mechanisms. A 'failure prediction' approach, based on Cloud Theory (CT) and the Hidden Markov Model (HMM), is proposed that extends the HMM by training with CT. In the approach, the parameter ω is defined as the correlations between various indices and failures, taking into account multiple runtime indices in cloud computing systems. Furthermore, the approach uses multiple dimensions to describe failure prediction in detail by extending parameters of the HMM. The likelihood and membership degree computing algorithms in the CT are used, instead of traditional algorithms in HMM, to reduce computing overhead in the model training phase. Finally, the results from simulations show that the proposed approach provides very accurate results at low computational cost. It can obtain an optimal tradeoff between 'failure prediction' performance and computing overhead.

비동기적 검사점 기록을 고려한 저 비용 인과적 메시지 로깅 기반 회복 알고리즘 (Low-Cost Causal Message Logging based Recovery Algorithm Considering Asynchronous Checkpointing)

  • 안진호;방승준
    • 정보처리학회논문지A
    • /
    • 제13A권6호
    • /
    • pp.525-532
    • /
    • 2006
  • 인과적 메시지 로깅을 위한 기존 회복 알고리즘들에 비해, Elnozahy가 제안한 회복 알고리즘은 안전한 저장소 접근횟수를 매우 줄이고, 회복과정을 수행하는 동안 살아있는 프로세스들이 자신의 계산을 계속해서 수행할 수 있도록 한다. 그러나, 인과적 메시지 로깅 기법이 비동기적 검사점 기록 기법과 함께 사용된다면, 동시적 고장들이 발생하는 경우 이 알고리즘 수행 후 전체 시스템 상태가 일관적이지 못하게 될 수 있다. 본 논문에서는 이러한 일관적이지 못한 경우들을 보여주고, 이러한 문제점을 해결하는 인과적 메시지 로깅을 위한 저 비용의 회복 알고리즘을 제안한다. 시스템 일관성을 보장하기 위해, 이 알고리즘은 회복 리더가 모든 살아있는 프로세스들뿐만 아니라 다른 회복 프로세스들로부터 회복정보를 얻을 수 있도록 한다. 또한, 제안된 알고리즘은 Elnozahy 회복 알고리즘에 비해 어떠한 부가적인 메시지도 요구하지 않으며, 메시지 피기백에 의해 발생되는 제안된 알고리즘의 부가적인 비용이 매우 낮다 이를 입증하기 위해, 시뮬레이션 결과는 제안된 알고리즘이 Elnozahy 알고리즘에 비해 회복정보 수집시간을 단지 1.0%$\sim$2.1% 정도로 증가시킴을 보여준다.