• 제목/요약/키워드: Failure Detection and Recovery

검색결과 30건 처리시간 0.032초

SAN 기반 클러스터 공유 파일 시스템 $SANique^{TM}$의 오류 노드 탐지 및 회복 기법 (Detection and Recovery of Failure Node in SAN-based Cluster Shared File System $SANique^{TM}$)

  • 이규웅
    • 한국정보통신학회논문지
    • /
    • 제13권12호
    • /
    • pp.2609-2617
    • /
    • 2009
  • 본 논문은 저장장치 전용 네트워크인 SAN 상에서 운영되는 공유 파일 시스템 $SANique^{TM}$의 개괄적인 설계 방법과 공유 파일 시스템내의 오류노드탐지 및 회복 기법에 대한 방법을 설명한다. SAN 기반공유 파일 시스템의 특징 및 구조를 설명하고 $SANique^{TM}$의 구성요소와 개괄적 설계방법을 기술한다. 또한, 공유 파일 시스템에 참여하고 있는 컴퓨팅 노드의 오류로 인한 서비스 지연 또는 중지를 방지하기 위하여 오류 노드 탐지 및 회복기법을 설명한다. 대규모 컴퓨팅 노드로 구성된 공유 파일 시스템상에서 발생할 수 있는 오류의 종류를 나열하고, 오류로 인한 분할된 서브 그룹들 간의 오류 상황을 상호 탐지 할 수 있는 방법을 설명하고 이를 해결하기 위한 기법을 제안한다.

통신해양기상위성 자이로센서 FDIR 설계 및 검증에 관한 연구 (A Study of FDIR S/W Design and Verification for Gyro Sensor of COMS Satellite)

  • 이훈희
    • 항공우주기술
    • /
    • 제7권2호
    • /
    • pp.95-102
    • /
    • 2008
  • 2009년에 발사될 통신해양기상위성은 다중화 구조설계를 통해 발생 가능성이 있는 고장으로부터 자동 회복을 수행할 수 있도록 자동조치기능이 탑재되어 있다. 본 연구에서는 자이로 센서의 고장이 COMS 임무에 미치는 영향을 살펴보고 장치 레벨의 자이로 센서 고장 처리를 위한 고장감지 방법과 기준, 고장고립과 회복 동작에 대한 메커니즘을 분석하였다 또한 시뮬레이터를 이용하여 고장 발생에 대한 자동조치 동작검증 결과를 확인하였다.

  • PDF

다중 센서 항법 시스템에서의 센서 측정 실패 감지 시스템에 관한 연구 (Failure Detection of Multi-Sensor Navigation System)

  • 오재석;이판묵;오준호
    • 한국정밀공학회:학술대회논문집
    • /
    • 한국정밀공학회 1997년도 춘계학술대회 논문집
    • /
    • pp.51-55
    • /
    • 1997
  • This study is devote to developing navigation filter for detecting sensor failure in multi-sensor navigation system. In multi-sensor navigation system, Kalman filter is generally used to fuse data of each sensors. Sensor failure is fatal in case that the sensor is used as external measurement of Kalman filter therefore detection and recovery of sensor failure is one the important feature of navigation filter. Generally each sensors have its specific feature in measuring navigational information. Fuzzy theory is proposed to detect external sensor failure and provide valid external measurement to Kalman filter avoiding filter divergence and instability. This idea is applied to Autonomous Underwater Vehicle(AUV) which has two navigation sensor i. e self contained inertial sensor and acoustic external sensor. 2 dimensional simulation result shows acceptable failure detection and recovery

  • PDF

통신해양기상위성 고장관리 시스템 개념 (Concepts in COMS Failure Management System)

  • 이훈희;김방엽;백명진;양군호;천용식
    • 항공우주시스템공학회지
    • /
    • 제3권2호
    • /
    • pp.31-38
    • /
    • 2009
  • COMS On-board FDIR(Failure Detection, Isolation and Recovery) functions are implemented on the on-board software to satisfy the autonomy and failure tolerance requirements. This paper presents concepts of COMS Failure Management with hierarchical layers and addresses the characteristics of the FDIR layer from low level to high level. It is aimed at giving the reader the understanding how the COMS FDIR was designed and how works. It first recalls what are the system level applicable requirements, which are based on the COMS mission requirements. Then it describes the philosophy and structure of the FDIR and subsequently breaks it down into the several FDIR layers. It could be used as an important and useful reference of the information to design and develop an automatic FDIR mechanism in the future.

  • PDF

무선 센서 네트워크를 위한 대규모 장애 적응적 라우팅 프로토콜 (Large Scale Failure Adaptive Routing Protocol for Wireless Sensor Networks)

  • 이좌형;선주호;정인범
    • 정보처리학회논문지A
    • /
    • 제16A권1호
    • /
    • pp.17-26
    • /
    • 2009
  • 무선센서네트워크는 위험 지역에서의 데이터 수집 용도로 최근 각광받고 있는 기술이다. 하지만 위험한 지역에서는 다수 노드들에서 동시 다발적인 장애발생 위험이 크기 때문에 대규모의 장애를 빠르게 복구시키기 위한 자가 복구 능력을 높여야 한다. 기존의 라우팅 프로토콜들은 하나의 노드에서 발생한 장애는 빠르게 복구하지만 다수의 노드들에서 장애 발생시 이에 효과적으로 대처하지 못한다. 이에 본 논문에서는 대규모 장애 발생시 이를 빠르게 복구하기 위한LSFA(Large Scale Failure Adaptive Routing Protocol)을 제안한다. LSFA는 다수의 노드들에 장애가 발생하여 데이터 전송이 이루어지지 못하는 환경에서 장애를 빠르게 감지하고 라우팅 주기를 적응적으로 조절하여 빠른 시간에 네트워크를 복구한다. LSFA는 패킷손실 정도를 장애발생 판단의 기준으로 사용하며 장애를 감지하면 라우팅 주기를 짧게 하여 장애가 발생한 사실이 네트워크에 빠르게 퍼지도록 한다. 베이스스테이션으로의 경로를 유지하고 있는 노드가 주위에 장애가 발생한 사실을 감지하면 자신의 라우팅 정보를 빠르게 전파시켜 장애 복구가 빠르게 이루어지도록 한다. 실험을 통하여 LSFA가 다른 프로토콜들에 비해 적은 패킷을 사용하면서도 장애를 빠르게 복구함을 보인다.

KOMPSAT-2 Fault and Recovery Management

  • Baek, Myung-Jin;Lee, Na-Young;Keum, Jung-Hoon
    • International Journal of Aeronautical and Space Sciences
    • /
    • 제3권2호
    • /
    • pp.31-39
    • /
    • 2002
  • In this paper, KOMPSAT-2 on-board fault and ground recovery management design is addressesed in terms of hardware and software components which provide failure detection and spacecraft safing for anomalies which threaten spacecraft survival. It also includes ground real time up-commanding operation to recover the system safely. KOMPSAT-2 spacecraft fault and recovery management is designed such that the subsequent system configuration due to system initialization is initiated and controlled by processors. This paper will show that KOMPSAT-2 has a new design feature of CPU SEU mitigation for the possible upsets in the processor CPUs as a part of on-board fault management design. Recovery management of processor switching has two different ways: gang switching and individual switching. This paper will show that the difficulties of using multiple-processor system can be managed by proper design implementation and flight operation.

고가용성 클러스터 파일 시스템 $\textrm{SANique}^{TM}$의 분할그룹 탐지 및 회복 기법 (Recovery Management of Split-Brain Group in Highly Available Cluster file System $\textrm{SANique}^{TM}$)

  • 이규웅
    • 한국멀티미디어학회논문지
    • /
    • 제7권4호
    • /
    • pp.505-517
    • /
    • 2004
  • 본 논문은 저장 장치 전용 네트워크인 SAN에 직접 연결된 저장장치들을 특정한 서버의 도움 없이 접근할수 있는 클러스터 파일시스템 $\textrm{SANique}^{TM}$의 설계 방법을 기술하며, 특히 회복 관리 기의 기능 및 특징을 설명 하고, 이를 위한 시스템 구성요소 및 오류 탐지 절차를 기술한다. 또한 클러스터 내의 오류 발생 상황 중에서 탐지하기 어려운 분할 그룹 문제를 정의하고 이 문제를 해결하기 위하여 $\textrm{SANique}^{TM}$ 회복 관리기에서 사용한 공유 디스크를 활용한 오류 탐지 및 회복 방법을 제안한다.

  • PDF

실시간 고장포용 생산시스템의 적정 성능 유지를 위한 최적 설계 기법에 관한 연구 (Determination of the profit-maximizing configuration for the modular cell manufacturing system using stochastic process)

  • 박승규
    • 제어로봇시스템학회논문지
    • /
    • 제5권5호
    • /
    • pp.614-621
    • /
    • 1999
  • In this paper, the analytical appproaches are presented for jointly determining the profit-miximizing configuration of the fault-tolerance real time modular cell manufacturing system. The transient(time-dependent) analysis of Markovian models is firstly applied to modular cell manufacturing system from a performability viewpoint whose modeling advantage lies in its ability to express the performance that truly matters - the user's perception of it - as well as various performance measures compositely in the context of application. The modular cells are modeled with hybrid decomposition method and then availability measures such as instantaneous availability, interval availability, expected cumulative operational time are evaluated as special cases of performability. In addition to this evaluation, sensitivity analysis of the entire manufacturing system as well as each machining cell is performed, from which the time of a major repair policy and the optimal configuration among the alternative configurations of the system can be determined. Secondly, the recovery policies from the machine failures by computing the minimal number of redundant machines and also from the task failures by computing the minimum number of tasks equipped with detection schemes of task failure and reworked upon failure detection, to meet the timing requirements are optimized. Some numerical examples are presented to demonstrate the effectiveness of the work.

  • PDF

Analytical fault tolerant navigation system for an aerospace launch vehicle using sliding mode observer

  • Hasani, Mahdi;Roshanian, Jafar;Khoshnooda, A. Majid
    • Advances in aircraft and spacecraft science
    • /
    • 제4권1호
    • /
    • pp.53-64
    • /
    • 2017
  • Aerospace Launch Vehicles (ALV) are generally designed with high reliability to operate in complete security through fault avoidance practices. However, in spite of such precaution, fault occurring is inevitable. Hence, there is a requirement for on-board fault recovery without significant degradation in the ALV performance. The present study develops an advanced fault recovery strategy to improve the reliability of an Aerospace Launch Vehicle (ALV) navigation system. The proposed strategy contains fault detection features and can reconfigure the system against common faults in the ALV navigation system. For this purpose, fault recovery system is constructed to detect and reconfigure normal navigation faults based on the sliding mode observer (SMO) theory. In the face of pitch channel sensor failure, the original gyro faults are reconstructed using SMO theory and by correcting the faulty measurement, the pitch-rate gyroscope output is constructed to provide fault tolerant navigation solution. The novel aspect of the paper is employing SMO as an online tuning of analytical fault recovery solution against unforeseen variations due to its hardware/software property. In this regard, a nonlinear model of the ALV is simulated using specific navigation failures and the results verified the feasibility of the proposed system. Simulation results and sensitivity analysis show that the proposed techniques can produce more effective estimation results than those of the previous techniques, against sensor failures.

비행조종컴퓨터 소프트웨어 기반 고장허용 설계 기법 연구 (A Study on Software Based Fault-Tolerance Techniques for Flight Control Computer)

  • 윤형식;김연균
    • 한국항공우주학회지
    • /
    • 제44권3호
    • /
    • pp.256-265
    • /
    • 2016
  • 소프트웨어 기반의 고장허용이란 장비의 일부분에 소프트웨어 고장이 발생하더라도 허용할 수 있도록 장비를 설계하는 것을 의미힌다. 고장허용을 위한 설계 방법은 크게 하드웨어 기반 고장허용 설계 방법과 소프트웨어 기반 고장허용 설계 방법이 있으며, 시스템의 특징에 따라 적절한 방법의 고장허용 설계 방법 선택이 필요하다. 본 논문에서는 하드웨어적으로 이중화로 구성된 비행조종컴퓨터의 소프트웨어 기반 고장허용 설계 기법에 대하여 기술하였다. 소프트웨어 기반의 고장허용 설계를 위하여 소프트웨어 고장을 분류하고, 고장에 대한 검출 방법을 설계한 후, 고장발생시 복구 방법을 설계하였다. 설계된 방법의 유효성을 확인하기 위하여 전용 소프트웨어 시험 환경을 통해 설계된 소프트웨어 기반 고장허용 설계의 타당성을 검증하였다.