• 제목/요약/키워드: checkpointing

검색결과 72건 처리시간 0.021초

셀룰라 네트워크 환경에서의 이중화 체크포인팅을 이용한 이동 호스트 및 기지국 결함 복구 기법 (Replicated Chaeckpointing Failure Recovery Schemes for Mobile Hosts and Mobile Support Station in Cellular Networks)

  • 변계섭;김재훈
    • 한국통신학회논문지
    • /
    • 제27권1B호
    • /
    • pp.13-23
    • /
    • 2002
  • 이동 호스트는 무선 통신망의 낮은 대역폭과 호스트들의 이동성, 부족한 저장장치와 배터리 수명 등으로 인하여 결함 발생 가능성이 높다. 이동 호스트의 결함에 효율적으로 대처하기 위한 결함 허용 기법에 관한 연구가 많이 진행되어 왔다. 셀룰라 네트워크에서는 이동 호스트이외에도 이동 호스트를 연결시키는 기지국은 보다 높은 수준의 가용도를 요구하므로 기지국의 결함에 대한 연구도 필수적이다. 본 논문에서는 이동 호스트 결함 복구를 위한 체크포인팅 기법을 기반으로 기지국 결함 복구를 위한 체크포인팅 이중화 기법을 제안하고 성능을 분석하였다. 또한 이동 호스트의 결함 복구를 위해 체크포인트가 존재하는 기지국의 복구를 기다리는 방법과 다른 기지국의 체크포인트를 이용하는 방법의 성능을 비교 분석하였다.

멀티미이어 협동 작업환경에서의 오류 감지 및 복구 시스템 (An Error Detection and Recovery System based on Multimedia Computer Supported Cooperative Work)

  • 고응남;황대준
    • 한국정보처리학회논문지
    • /
    • 제7권5호
    • /
    • pp.1330-1340
    • /
    • 2000
  • 멀티미디어는 현재 다양한 실세계의 분야에 적용되고 있다. 특히 멀티미디어 시스템을 위한 컴퓨터 협동 직업 환경에 대한 관심이 점차로 고조되고 있다. 그러나, 이러한 현재의 방향에도 불구하고 컴퓨터 혐동 작업 환경에서의 결합 허용에 대한 진전이 충분하게 이루어지지 못하고 있다. 본 논문에서는 EDR MCSCW를 제안한다. 이 시스템은 소프트웨어 기법을 사용함으로써 두레처험 멀티미디어직업 환경에서의 소프트웨어 오류를 감시하고 복구하는데 적합한 시스템이다.두레는 컴퓨터 협동 작업 환경을 우한 멀티미디어 응용에 관한 개발을 지원하기 위한 프레임윅이다. 오류가 발생했을 때 EDR_MCSCW는 윈도우에 있는 API함수에 있는 축 방법을 사용함으로써 오류를 감시한다. 오류가 발전되면, 스택을 사용함으로써 멀티미니어 공동작업 환경 상에서 복구하기 위하여 도미노 효과를 제거하는 기능을 가지고 있는 김사점과 복고 알고리즘을 제안한다.

  • PDF

클러스터 기반 라우팅 프로토콜을 위한 결함허용기법 (A Fault-tolerant Scheme for Clustering Routing Protocols)

  • 민홍;김봉재;정진만;김석현;윤진혁;조유근;허준영;이상호;홍지만
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권6호
    • /
    • pp.668-672
    • /
    • 2010
  • 무선 센서 네트워크에서의 결함 허용은 센서 노드의 취약성 보완과 신뢰성 높은 정보 제공을 위해 필요하다. 센서 노드들의 자원 제약적인 특성 때문에 오류에 노출되기 쉬우며, 기존의 체크포인팅 기법 들은 센서 네트워크의 특성을 고려하지 않고 설계되었기 때문에 이를 적용하기 어렵다. 본 논문에서는 클러스터 기반의 라우팅 프로토콜에 체크포인팅 기법을 적용하여 헤드 노드의 결함 시 발생할 수 있는 정보 손실과 높은 복구 비용 문제를 해결하는 방법을 제안한다.

DJFS: Providing Highly Reliable and High-Performance File System with Small-Sized NVRAM

  • Kim, Junghoon;Lee, Minho;Song, Yongju;Eom, Young Ik
    • ETRI Journal
    • /
    • 제39권6호
    • /
    • pp.820-831
    • /
    • 2017
  • File systems and applications try to implement their own update protocols to guarantee data consistency, which is one of the most crucial aspects of computing systems. However, we found that the storage devices are substantially under-utilized when preserving data consistency because they generate massive storage write traffic with many disk cache flush operations and force-unit-access (FUA) commands. In this paper, we present DJFS (Delta-Journaling File System) that provides both a high level of performance and data consistency for different applications. We made three technical contributions to achieve our goal. First, to remove all storage accesses with disk cache flush operations and FUA commands, DJFS uses small-sized NVRAM for a file system journal. Second, to reduce the access latency and space requirements of NVRAM, DJFS attempts to journal compress the differences in the modified blocks. Finally, to relieve explicit checkpointing overhead, DJFS aggressively reflects the checkpoint transactions to file system area in the unit of the specified region. Our evaluation on TPC-C SQLite benchmark shows that, using our novel optimization schemes, DJFS outperforms Ext4 by up to 64.2 times with only 128 MB of NVRAM.

클라우드컴퓨팅에서 메시지패싱방식 응용프로그램의 효율적인 체크포인트 알고리즘 (Efficient Checkpoint Algorithm for Message-Passing Parallel Applications on Cloud Computing)

  • Le, Duc Tai;Dao, Manh Thuong Quan;Ahn, Min-Joon;Choo, Hyun-Seung
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.156-157
    • /
    • 2011
  • In this work, we study the checkpoint/restart problem for message-passing parallel applications running on cloud computing environment. This is a new direction which arises from the trend of enabling the applications to run on the cloud computing environment. The main objective is to propose an efficient checkpoint algorithm for message-passing parallel applications considering communications with external systems. We further implement the novel algorithm by modifying gSOAP and OpenMPI (the open source libraries) which support service calls and checkpoint message-passing parallel programs, especially. The simulation showed that additional costs to the executing and checkpointing application of the algorithm are negligible. Ultimately, the algorithm supports efficiently the checkpoint/restart service for message-passing parallel applications, that send requests to external services.

스토리지 클래스 메모리를 활용한 시스템의 신뢰성 향상 (Enhancing Dependability of Systems by Exploiting Storage Class Memory)

  • 김효진;노삼혁
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권1호
    • /
    • pp.19-26
    • /
    • 2010
  • 본 논문에서는 차세대 비휘발성램 기술인 스토리지 클래스 메모리(SCM)와 DRAM을 병렬적으로 메인 메모리로서 도입하고, SCM+DRAM 메인 메모리 시스템을 시스템 신뢰성 측면에서 활용한다. 본 시스템에서는 부팅 없는 즉각적인 시스템 온/오프, 프로세스의 동적인 영속성 또는 비영속성의 선택, 그리고 이를 통하여 전원과 소프트웨어 장애로부터의 빠른 복구를 제공한다. 본 논문에서 제안하는 시스템의 장점은 체크포인팅에서의 문제들, 즉 심각한 오버헤드와 복구 지연을 야기하지 않으며, 특히 응용 프로그램에 대한 완전한 투명성을 제공하기 때문에 보편적인 응용 프로그램에 영속성을 제공할 수 있어 실제 환경에 적용되기가 쉽다. 우리는 이를 검증하기 위해 상용 운영체제인 리눅스 커널 2.6.21을 기반으로 시스템을 구현하였고, 실험을 통해 영속성이 지정된 프로세스가 시스템의 오프-온 후 데이터 손실 없이 즉각적으로 실행을 지속하는 것을 알 수 있었으며, 이를 통하여 우리는 본 시스템에서 가용성과 신뢰성이 향상될 수 있음을 확인하였다.

확률 최적화를 이용한 비선점형 Rate Monotonic 스케줄링의 체크포인트 구간 결정 (Determining Checkpoint Intervals of Non-Preemptive Rate Monotonic Scheduling Using Probabilistic Optimization)

  • 곽성우;양정민
    • 한국지능시스템학회논문지
    • /
    • 제21권1호
    • /
    • pp.120-127
    • /
    • 2011
  • 체크포인트 기법은 실시간 시스템의 내고장성을 구현하는 대표적인 방법이다. 본 논문에서는 확률 최적화를 이용하여 체크 포인트 구간을 결정하는 기법을 제시한다. 본 논문에서 다루는 실시간 시스템은 멀티 태스크(multi-task)들로 구성되며 Poisson 분포를 가지는 과도 고장이 발생한다. 또 멀티 태스크들은 비선점형 Rate Monotonic 알고리듬으로 스케줄링된다. 이번 연구에서는 멀티 태스크들의 수행 성공 확률을 체크포인트 삽입 개수로 표현하는 최적화 문제를 설정하고 이 확률값을 최대로 만드는 체크포인트 개수와 구간 길이를 구한다. 제안된 확률 계산 과정은 체크포인트 재수행 횟수에 대한 비선점형 RM 알고리듬의 스케줄링 가능성을 판별하는 방법도 포함한다. 사례 연구를 통해서 제안된 기법의 적용가능성을 입증한다.

분산메모리시스템에서의 핫콜드 데이터 분류를 이용한 복합 백업 기법 (Compound Backup Technique using Hot-Cold Data Classification in the Distributed Memory System)

  • 김우철;민동희;홍지만
    • 스마트미디어저널
    • /
    • 제4권3호
    • /
    • pp.16-23
    • /
    • 2015
  • IT 기술의 발전으로 인해 데이터 처리 시스템은 많은 양의 데이터를 처리 및 가공해야 한다. 하지만, 기존에 사용되던 온디스크(On-Disk) 시스템으로는 급증하는 데이터를 빠르게 처리하는 데 한계점을 가졌다. 이로 인해 많은 분야에서 하드디스크에 데이터를 저장하는 것이 아닌 속도가 빠른 메모리에 데이터를 저장 및 관리하는 인메모리(In-Memory) 시스템이 도입되고 있다. 하지만, 메모리에 데이터를 관리하는 것은 메모리의 특성 중 하나인 휘발성으로 인해 데이터 손실이라는 위험을 갖기 때문에 항상 결함 허용 기법이 뒤따라야 한다. 결함 허용 기법은 인메모리 시스템의 처리 속도를 낮추는 성능 저하 원인이 된다. 따라서 본 논문에서는 인메모리 시스템의 데이터 사용 특성을 고려하여 핫콜드 데이터로 분류하고, 데이터 영속성 보장을 위한 복합 백업 기법을 제안한다. 제안하는 기법은 영속성을 높이고, 성능 저하 원인을 보완한다.

원격 로깅 기법을 이용하는 고장 허용 소프트웨어 분산공유메모리 시스템의 구현 (An Implementation of Fault Tolerant Software Distributed Shared Memory with Remote Logging)

  • 박소연;김영재;맹승렬
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권5_6호
    • /
    • pp.328-334
    • /
    • 2004
  • 최근에 소프트웨어 분산공유메모리 시스템은 그 성능이 높아짐에 따라 큰 규모의 클러스터 상에서 사용되는 경우가 많아졌다. 그러나 시스템 규모가 커지면서 고장이 발생하는 가능성도 높아졌다. 시스템의 가용성을 높이기 위하여 고장 허용 기능을 제공하는 분산공유메모리 시스템이 요구되었으며 메시지 로깅에 대한 많은 연구가 이루어져 왔다. 본 논문에서는 고속의 네트웍을 이용하여 복구에 필요한 메시지들을 원격 노드의 메모리에 로깅 하는 방법을 제안한다. 원격 로깅은 정상 수행 동안 빈번한 디스크 접근을 요구하지 않으므로 오버헤드가 적다. 또한 로그를 유지하는 백업 노드들이 고장나지 않은 경우 다중 노드의 고장을 허용하여, 분산공유메모리 시스템의 신뢰성을 높인다. 본 논문에서는 FT-KDSM (Fault Tolerant KAIST DSM) 시스템을 설계하고 구현하여 원격 로깅의 성능을 보이고 고장으로부터의 복구 시간을 보인다.

멀티에이전트 환경에서 결함 포용 정보의 쓰레기 처리 기법 (Garbage Collection Protocol of Fault Tolerance Information in Multi-agent Environments)

  • 이대원;정광식;이화민;신상철;이영준;유헌창;이원규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권3_4호
    • /
    • pp.204-212
    • /
    • 2004
  • 분산 시스템에서는 단일 시스템보다 높은 결함 발생 확률을 가지기에 기존의 맡은 연구에서는 분산 시스템에서 결함 발생에 대한 맡은 결함 포용 기법들이 연구되어 왔다. 하지만 저장된 결함 포용 정보의 증가에 따른 저장 공간의 부족으로 인해 전체 시스템 성능의 저하를 가져오게 하였다. 시스템 성능의 저하를 막기 위하여 불필요한 결함 포용 정보의 삭제가 필요하게 되었고 이 논문에서는 결함 포용 정보의 쓰레기 처리를 위한 방법을 제안한다. 이에 본 논문에서는 결함 포용 정보의 쓰레기 처리를 담당하는 쓰레기 처리 에이전트, 결함 포용 정보를 유지 관리하는 정보 에이전트, 그리고 전체 에이전트간의 통신 기능을 담당하는 조정 에이전트를 정의 및 설계하고, 쓰레기 처리 에이전트를 이용한 쓰레기 처리 알고리즘을 제안한다. 복귀회복 기법은 독립 검사점(independent checkpoint)기법과 송신자 기반 비관적 매시지 로깅(sender based pessimistic message logging)기법을 사용한다. 제안된 쓰레기 처리 기법에서의 쓰레기 처리, 정보, 조정 에이전트는 프로세스와 동시에 생성되며 정보 에이전트에 프로세스에서 발생하는 검사점과 비결정적인 사건들에 대한 로깅 정보들을 영역 지식으로 구축한다. 그리고 쓰레기 처리 에이전트는 쓰레기 처리 시점을 선정하고 정보 에이전트와 조정에이전트의 협력을 통하여 영역 지식에 구축된 불필요한 결함 포용 정보의 쓰레기 처리를 한다. 제안한 에이전트를 이용한 쓰레기 처리기법의 타당성 증명을 위하여 결함을 발생시켜 복귀 회복 후 쓰레기 처리를 하는 시스템과 하지 않는 시스템의 영역지식을 비교하여 같은 결과를 같는지의 여부를 검사한다