A Fault Tolerance Mechanism with Dynamic Detection Period in Multiple Gigabit Server NICs

다중 Gigabit Server NICs에서 동적 검출 주기를 적용한 결함 허용 메커니즘

  • 이진영 (중앙대학교 컴퓨터공학과) ;
  • 이시진 (대진대학교 컴퓨터공학과)
  • Published : 2002.10.01

Abstract

A rapid growth of internet and sudden increase of multimedia data demands for high-speed transfer media and if optimizec usage from the interface system. To achieve this level of network bandwidth, multiple NICs for support of high-speed network bandwidth have been developed and studied. Furthermore, the use of multiple NICs can provide high-speed LAN environment without large network environment modification, supports backward compatibility of current system and reduce overhead. However. if system failure is caused by SPOF(Single Point of Failure) fault of large-capacity multiple NICs, incredible loss will be met because it services large capacity of multimedia data, Therefore, to prevent loss coming from faults, we describe 'Fault tolerance of multiple NICs', which use the fault prevention mechanism. Considering inefficiency of availability and serviceability that is occurred with existing TMR, Primary-Standby approach and Watchdog time mechanism, we propose and design the efficient fault tolerance mechanism, which minimize down time as changing of detection period dynamically. Consequently, the fault tolerance mechanism proposed for reducing overhead time when the fault is occurred, should minimize system downtime overall.

인터넷의 초고속 성장과 멀티미디어 데이터의 급격한 증가로 고속의 전송 매체와 인터페이스 시스템이 요구되고 있다. 이러한 고속의 네트워크 대역폭을 지원하기 위한 대안으로 다중(Multiple) NIC가 개발되고 연구되어 왔다. 다중 NIC를 사용함으로써 기존 네트워크 환경의 큰 변화 없이 고속의 LAN 환경을 구축할 수 있으므로 고성능. 저비용의 효과를 얻을 수 있다. 그러나 대용량 다중 NIC에 SPOF(Singe Point Of Failure) 결함으로 시스템 중단이 생기면, 대용량의 멀티미디어 데이터를 서비스하는 시스템인 만큼 커다란 손실을 가져오게 된다. 따라서 본 논문에서는 결함으로 오는 손실을 방지하기 위해 결함 허용 기법을 사용하여 '결함 허용 다중 NIC'에 대해서 연구한다. 기존의 TMR, Primary-Standby 기법. Watchdog Timer 기법에서 발생되는 자원에 대한 가용성과 내구성의 비효율적인 부분을 고려하여, 동적으로 검출 주기를 변환하여 다운타임을 최소화 할 수 있는 효율적인 결함 허용 메커니즘을 설계하여 제안한다. 결과적으로 본 논문에서 제안한 결함 허용 기법은 결함이 발생하여 생기는 오버헤드 시간을 줄이고자, Fault Detection에서 소요되는 Timeout 시간을 감소시켜 시스템 전반적으로 다운타임을 최소화시킬 수 있다.

Keywords