Abstract
This paper describes the design overview of shared file system $SANique^{TM}$ and proposes the method for detection of failure node and recovery management algorithm. We also illustrate the characteristics and system architecture of shared file system based on SAN. In order to provide uninterrupted service, the detection and recovery methods are proposed under the all possible system failures and natural disasters. The various kinds of system failures and disasters are characterized and then the detection and recovery method are proposed in each disconnected computing node group.
본 논문은 저장장치 전용 네트워크인 SAN 상에서 운영되는 공유 파일 시스템 $SANique^{TM}$의 개괄적인 설계 방법과 공유 파일 시스템내의 오류노드탐지 및 회복 기법에 대한 방법을 설명한다. SAN 기반공유 파일 시스템의 특징 및 구조를 설명하고 $SANique^{TM}$의 구성요소와 개괄적 설계방법을 기술한다. 또한, 공유 파일 시스템에 참여하고 있는 컴퓨팅 노드의 오류로 인한 서비스 지연 또는 중지를 방지하기 위하여 오류 노드 탐지 및 회복기법을 설명한다. 대규모 컴퓨팅 노드로 구성된 공유 파일 시스템상에서 발생할 수 있는 오류의 종류를 나열하고, 오류로 인한 분할된 서브 그룹들 간의 오류 상황을 상호 탐지 할 수 있는 방법을 설명하고 이를 해결하기 위한 기법을 제안한다.