• 제목/요약/키워드: rollback-recovery

검색결과 31건 처리시간 0.022초

HORB에 기반한 신뢰성 있는 분산 프로그래밍 환경의 설계 및 구현 (Design and Implementation of Reliable Distributed Programming Environment based on HORB)

  • 현무용;김식;김명준
    • 전자공학회논문지CI
    • /
    • 제39권2호
    • /
    • pp.1-9
    • /
    • 2002
  • DSOM, DCOM, CORBA, Java RMI 같은 객체 지향 분산 프로그래밍 환경을 이용한 분산 응용 프로그램 개발이 일반화되고 있다. 그러나, 이러한 분산 미들웨어들은 응용프로그램의 품질과 재사용성을 향상시켜 주지만, 결함 허용 기능을 지원하지 않음으로서 신뢰성이 보장된 객체 기반 분산 응용프로그램의 설계 및 구현을 복잡하게 한다. 본 논문에서는 RMI 메커니즘을 기반으로 한 결함 허용 분산 시스템 개발 환경인 에버그린(Evergreen)을 제안하고자 한다. 에버그린은 신뢰성 있는 분산 컴퓨팅을 지원하기 위해서 체크포인트와 롤백 복구(rollback recovery) 메커니즘을 이용하여 설계되었다 일련의 실험을 통해 에버그린의 성능을 평가하였고 최적의 디자인 목표를 지원하기 위한 확장 가능성을 확인하였다.

뉴메모리 기반 시스템에서 세밀한 COW 관리 기법을 통한 효율적 프로세스 체크포인팅 기법 (Efficient Process Checkpointing through Fine-Grained COW Management in New Memory based Systems)

  • 박재형;문영제;노삼혁
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.132-138
    • /
    • 2017
  • 본 연구에서는 뉴메모리 기반 컴퓨팅 시스템의 신뢰성을 높이기 위해 프로세스 단위로 체크포인팅하는 시스템을 설계하고 구현한다. 프로세스 체크포인팅을 위하여 일반적인 프로세스 실행에서 문맥전환이 일어나는 시점마다 결함이 발생하기 이전의 안전한 상태로 되돌아갈 수 있는 롤백 시점을 만든다. 본 연구에서는 롤백 시점의 안전한 프로세스 상태에 대한 새로운 프로세스를 만들며 이를 P-process(Persistent-process)라고 명명한다. P-process를 만드는 주기를 세밀한 간격인 문맥전환 때마다 만들기 때문에 결함이 발생하였을 때 롤백으로 인한 프로세스 실행시간 손실을 작게 만들 수 있다. P-process를 만드는 오버헤드를 줄이기 위하여 프로세스의 메모리 상태에서 변경된 부분만 저장할 수 있도록 COW(Copy-On-Write) 메커니즘을 이용하였다. 문맥전환 때마다 P-process를 생성하였을 때 PARSEC 벤치마크의 11개 워크로드 중 8개의 워크로드에서 5% 내의 실행 시간 오버헤드가 발생하였으며 오버헤드가 많이 발생한 워크로드도 P-process의 생성 주기의 조정으로 오버헤드를 감소시킬 수 있었다.

멀티에이전트 환경에서 결함 포용 정보의 쓰레기 처리 기법 (Garbage Collection Protocol of Fault Tolerance Information in Multi-agent Environments)

  • 이대원;정광식;이화민;신상철;이영준;유헌창;이원규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권3_4호
    • /
    • pp.204-212
    • /
    • 2004
  • 분산 시스템에서는 단일 시스템보다 높은 결함 발생 확률을 가지기에 기존의 맡은 연구에서는 분산 시스템에서 결함 발생에 대한 맡은 결함 포용 기법들이 연구되어 왔다. 하지만 저장된 결함 포용 정보의 증가에 따른 저장 공간의 부족으로 인해 전체 시스템 성능의 저하를 가져오게 하였다. 시스템 성능의 저하를 막기 위하여 불필요한 결함 포용 정보의 삭제가 필요하게 되었고 이 논문에서는 결함 포용 정보의 쓰레기 처리를 위한 방법을 제안한다. 이에 본 논문에서는 결함 포용 정보의 쓰레기 처리를 담당하는 쓰레기 처리 에이전트, 결함 포용 정보를 유지 관리하는 정보 에이전트, 그리고 전체 에이전트간의 통신 기능을 담당하는 조정 에이전트를 정의 및 설계하고, 쓰레기 처리 에이전트를 이용한 쓰레기 처리 알고리즘을 제안한다. 복귀회복 기법은 독립 검사점(independent checkpoint)기법과 송신자 기반 비관적 매시지 로깅(sender based pessimistic message logging)기법을 사용한다. 제안된 쓰레기 처리 기법에서의 쓰레기 처리, 정보, 조정 에이전트는 프로세스와 동시에 생성되며 정보 에이전트에 프로세스에서 발생하는 검사점과 비결정적인 사건들에 대한 로깅 정보들을 영역 지식으로 구축한다. 그리고 쓰레기 처리 에이전트는 쓰레기 처리 시점을 선정하고 정보 에이전트와 조정에이전트의 협력을 통하여 영역 지식에 구축된 불필요한 결함 포용 정보의 쓰레기 처리를 한다. 제안한 에이전트를 이용한 쓰레기 처리기법의 타당성 증명을 위하여 결함을 발생시켜 복귀 회복 후 쓰레기 처리를 하는 시스템과 하지 않는 시스템의 영역지식을 비교하여 같은 결과를 같는지의 여부를 검사한다

고차원 색인구조를 위한 회복기법의 설계 및 구현 (Design and Implementation of a Recovery Method for High Dimensional Index Structures)

  • 송석일;이석희;유재수
    • 한국정보처리학회논문지
    • /
    • 제7권7호
    • /
    • pp.2008-2019
    • /
    • 2000
  • In this paper, we propose a recovery method for high dimensional index structures. It recovers efficiently transactions including reinsert operations that needs undo or rollback due to system failures or transaction failures. It is based on WAL(Write Ahead Logging) protocol. We apply the method to the FCIR-Tree and implement it based on MiDAS-III which is the storage system of a multimedia DBMS, called BADA-III. We also show through performance evaluation that the recovery method with our algorithm recovers reinsert operations efficiently over that without our algorithm.

  • PDF

동기적 검사점 기법에서 불필요한 복귀를 회피하기 위한 쓰레기 처리 기법 (Lazy Garbage Collection of Coordinated Checkpointing Protocol for Avoiding Sympathetic Rollback)

  • 정광식;유헌창;이원규;이성훈;황종선
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권6호
    • /
    • pp.331-339
    • /
    • 2002
  • 이 논문은 동기적 검사점 기법에서 결한 포용을 목적으로 불안전 저장 장치(volatile storage)에 저장되는 메시지 로그와 안전 저장 장치에 저장되는 검사점의 쓰레기 처리 기법을 제안한다. 기존의 동기적 검사점 기법을 기반으로 한 결함 포용 정보 쓰레기 처리 기법은 가장 최근의 검사점을 제외한 모든 결함 정보를 쓰레기 처리하였다. 하지만 TCP/IP와 같은 신뢰적 통신 기법을 기반으로 한 동기적 검사점 기법이 가장 최근의 검사점만을 복귀 회복 기법에서 사용한다면, 손실 메시지(lost message)로 인한 불필요한 복귀(sympathetic rollback)가 발생된다. 이 논문은 동기적 검사점 기법에서 손실 메시지로 인한 불필요한 복귀 문제를 해결하기 위해 각 프로세스가 동기화된 가장 최근의 검사정의에 검사점이나 메시지 로그를 유지해야 한다는 것을 보였다. 또한 손실 메시지로 인한 불필요한 복귀 문제의 해결을 위해 관리되어야 하는 검사점이나 메시지 로그가 쓰레기 처리되어지기 위해 필요한 조건을 새롭게 정의하며, 이 정의를 기반으로 한 검사정과 메시지 로그의 쓰레기 처리 알고리즘을 제안한다. 제시된 조건을 기반으로 한 검사점과 메시지 로그의 쓰레기 처리는 송수신 메시지에 부가된 손실 메시지 관련 프로세스 정보를 이용하므로 쓰레기 처리를 위한 부가적인 메시지를 발생시키지 않는다. 제안된 기법은 손실 메시지 관련 정보가 부가된 메시지가 송수신되기 전까지 쓰레기 처리가 지연되는 '지연 쓰레기 처리 현상(lazy garbage collection)'을 발생시킨다. 하지만 '지연 쓰레기 처리 현상'은 분산 시스템의 일관성을 위배하지 않는다.

다중 분할된 구조를 가지는 클러스터 검사점 저장 기법 (A Multistriped Checkpointing Scheme for the Fault-tolerant Cluster Computers)

  • 장윤석
    • 정보처리학회논문지A
    • /
    • 제13A권7호
    • /
    • pp.607-614
    • /
    • 2006
  • 검사점 저장 기법을 사용하여 주기적으로 클러스터 노드들의 프로세스 수행 정보를 전역 저장 장치에 저장하는 분산 클러스터 시스템에서 결함 허용 성능을 유지하는 데 드는 비용을 줄이고 전체 프로세스의 수행 성능을 증가시키기 위해서는 검사점 정보를 저장할 때에 네트워크로 전달되는 부하를 각 노드에 최대한 적절하게 분산하여 데이터 저장 시간을 줄임으로써 검사점 정보를 저장하는 동안 전체 클러스터 시스템의 프로세스가 지연되는 시간을 줄이도록 하여야 한다. 이를 위하여 분산 RAID 기반의 단일 입출력 공간을 사용하는. 클러스터 시스템에서는 여러가지 검사점 저장 기법을 사용하며, 검사점 정보의 저장 기법에 따라서 저장 성능과 결함 회복 성능이 달라진다. 본 연구에서는 분할된 검사점 저장 기법을 개선하여 검사점 데이터를 분산 RAID 기반의 단일 입출력 공간에 저장할 때에 그룹별로 분할되는 분할 그룹 크기를 검사점 정보가 저장될 때의 네트워크의 트래픽에 따라서 동적으로 결정하여 네트워크를 통한 분산 RAID에 저장함으로써 네트워크 병목현상을 최소화하는 다중 분할된 검사점 저장 구조를 제안하였다. 제안된 구조의 성능을 분석하기 위하여 최대 512개의 가상 노드로 구성된 클러스터 시스템을 대상으로 하여 MPI 와 Linpack HPC 벤치마크를 통한 성능 평가를 수행하였으며, 성능 평가 결과는 검사점 정보의 크기와 클러스터의 크기가 증가할수록 제안된 기법이 검사점 정보의 저장과 결함 회복 능력에 대하여 기존의 검사점 저장 기법에 비하여 우수한 성능을 보인다.

이동 기기에 적합한 소프트웨어 에이전트 기반의 효율적 체크포인팅 기법 (An Efficient Checkpointing Method for Mobile Hosts via the Software Agent)

  • 임성채
    • 정보처리학회논문지A
    • /
    • 제15A권2호
    • /
    • pp.111-118
    • /
    • 2008
  • 이동 통신 시스템의 발전과 함께 여러 대의 이동 기기에서 동작하는 분산 응용의 필요성이 점차 커지고 있다. 모바일 기기의 고장이나 통신망 단절이 기존 고정 통신망에 비해 자주 발생하는 환경을 고려할 때 모바일 응용을 위한 복구 기법이 매우 중요하며, 중단된 응용의 재시작을위해 체크포인팅이 널리 사용되고 있다. 본 논문에서도 이런 분산 응용의 복구를 위한 효율적 체크포인팅 기법을 제안한다. 제안된 기법에서는 MSS(Mobile Support Station)에서 동작하는 체크포인팅 에이전트라는 소프트웨어 에이전트를 사용한다. 이 에이전트는 R-distance(rollback-distance) 개념을 지원하며, 이를 통해 복귀되는 지역 체크포인트의 최대 개수를 한정할 수 있다. 제안된 방식은 기존의 문제점이었던 도미노 현상이나 체크포인트 유지에 필요한 추가 비용을 크게 줄이면서도 매우 유연한 방식의 체크포인트 생성을 지원할 수 있다.

결함 내성 분산 시스템에서의 동적 검사점 스케쥴링 기법 (A Dynamic Checkpoint Scheduling Scheme for Fault Tolerant Distributed Computing Systems)

  • 박태순
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권2호
    • /
    • pp.75-86
    • /
    • 2002
  • 분산 시스템에 결함 내성 기능을 제공하는 기법의 하나인, 검사점을 이용한 회복 기법을 효율 적으로 구현하기 위해서는 최적화된 검사점 설정 구간의 선택이 매우 중요한 문제로 인식되고 있다. 본 논문은 분산 시스템내의 각 프로세스 적절한 검사점 설정 구간을 프로세스의 연산 중에서 동적으로 스케 쥴링 하는 기법을 제안한다. 제안된 기법에서는 시스템내에의 각 프로세스가 현 검사점 구간 동안으 검사점 설정 비용과 가능한 롤백 회복 비용을 비교 평가하고, 다음 검사점 설정을 위한 적절한 구간을 계산한다. 대부분의 기존 기법들과는 달리 제안된 기법은 검사점과 롤백 두 가지 비용 모두를 최소화는 구간 값 을 선택하여 , 현 검사점 구간 동안의 통신 형태를 고려한 구간 값을 선택한다. 또한 검사점 설정 구간 선 택을 위한 별도의 통신비용의 요구되지 않으며, 제안된 기법의 기존의 검사점 조정 기법들과 쉽게 통합되어 사용될수 있다.

자바 메시지 전달 시스템에서의 결함 포용 병렬 애플리케이션 (Fault-Tolerant Parallel Applications in Java Message Passing Systems)

  • 안진호;김기범;김정훈;황종선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (3)
    • /
    • pp.768-770
    • /
    • 1998
  • 동기적 검사점(synchronous checkpoiting)기법, 인과적 메시지 로깅(causal message logging)과 향상된 회복 비동기성(improved asynchronism during recovery)을 제공하는 복귀회복(rollback recovery) 기법을 적용하여 자바 메시지 전달 시스템(java massage passing system)에서 수행하는 병렬 에플리케이션들에게 저 비용의 결함 포용성에 따라, 통신망으로 연결된 이질형 (fault-tolerance)(heterogeneous) 컴퓨터들을 이용하는 대규모 분산 시스템들은 아주 효율적인 병렬 컴퓨팅 환경을 제공해준다. 그러나, 이러한 분산 시스템들의 규모가 커짐에 따라 고장률 (failure rate)도 그 만큼 중요하게 된다. 따라서, 고장률이 높은 대규모 분산 시스템들에게 좀더 효율적인 결함 포용성을 제공하는 기법들이 필요하다. 또한, 대규모분산 시스템들은 이질형 컴퓨터들로 구성되어 있기 때문에, 결함 포용성을 제공하는 소프트웨어 패키지들은 플랫폼 독립적(platform independent)이어야 한다. 이러한 문제점은 높은 이식성(portability)을 가지고 있는 자바 언어로 구현함으로써 해결될 수 있다. 따라서, 본 논문은 자바 메시지 전달 시스템에서 수행되는 병렬 애플리케이션들에게 동기적 검사점 기법, 인과적 메시지 로깅과 향상된 비동기성을 제공하는 복귀회복 기법을 높은 이식성을 가진 자바언어로 구현하여 저 비용으로 결함 포용성을 제공하고자 한다.

  • PDF

RM 스케줄링된 실시간 태스크에서의 최적 체크 포인터 구간 선정 (Determination of Optimal Checkpoint Interval for RM Scheduled Real-time Tasks)

  • 곽성우;정용주
    • 전기학회논문지
    • /
    • 제56권6호
    • /
    • pp.1122-1129
    • /
    • 2007
  • For a system with multiple real-time tasks of different deadlines, it is very difficult to find the optimal checkpoint interval because of the complexity in considering the scheduling of tasks. In this paper, we determine the optimal checkpoint interval for multiple real-time tasks that are scheduled by RM(Rate Monotonic) algorithm. Faults are assumed to occur with Poisson distribution. Checkpoints are inserted in the execution of task with equal distance in the same task, but different distances in other tasks. When faults occur, rollback to the latest checkpoint and re-execute task after the checkpoint. We derive the equation of maximum slack time for each task, and determine the number of re-executable checkpoint intervals for fault recovery. The equation to check the schedulibility of tasks is also derived. Based on these equations, we find the probability of all tasks executed within their deadlines successfully. Checkpoint intervals which make the probability maximum is the optimal.