Implementation of automatic recovery function for computiong node with failure of cluster system

클러스터 시스템의 장애 발생 계산노드 자동 복구 기능 구현

  • Min-Woo Kwon (Dept. of Supercomputing Infrastructure Center, KISTI) ;
  • Do-Sik An (Dept. of Supercomputing Infrastructure Center, KISTI) ;
  • TaeYoung Hong (Dept. of Supercomputing Infrastructure Center, KISTI)
  • 권민우 (한국과학기술정보연구원 슈퍼컴퓨팅인프라센터) ;
  • 안도식 (한국과학기술정보연구원 슈퍼컴퓨팅인프라센터) ;
  • 홍태영 (한국과학기술정보연구원 슈퍼컴퓨팅인프라센터)
  • Published : 2024.05.23

Abstract

한국과학기술정보연구원(이하 KISTI)의 국가슈퍼컴퓨팅센터에서는 슈퍼컴퓨터 5호기인 Nurion과 Neuron 시스템을 구축하여 국내 연구자들에게 서비스하고 있다. 이 중에서 Neuron 시스템은 GPU 클러스터 시스템으로 SLURM Batch Scheduler를 이용하여 공동활용서비스를 제공하고 있다. 본 논문에서는 Neuron에서 사용 중인 SLURM Batch Scheduler와 리눅스의 crontab 기능을 이용하여 소프트웨어 장애가 발생한 계산노드를 자동으로 복구시키는 기능을 구현하여 장애처리 대기시간을 단축시키는 기법에 대해서 소개한다.

Keywords

Acknowledgement

이 논문은 2024년도 한국과학기술정보연구원의 기본사업(과제명:국가 플래그십 초고성능컴퓨터 인프라 구축 및 서비스, 과제번호:K24L2M1C1)으로 수행된 연구입니다.

References

  1. KISTI 국가슈퍼컴퓨팅센터홈페이지, 보유자원, https://www.ksc.re.kr/byjw/sg
  2. KISTI 국가슈퍼컴퓨팅센터홈페이지, 혁신지원, https://www.ksc.re.kr/jwsc/hsjw/hsjwan
  3. KISTI 슈퍼컴퓨터 웹 서비스포털, MyKSC, https://my.ksc.re.kr/
  4. KISTI Neuron지침서, 스케줄러를 통한 작업실행, https://docs-ksc.gitbook.io/neuron-user-guide/undefined/running-jobs-through-scheduler-slurm
  5. SLURM Batch Scheduler Manual, sinfo, https://slurm.schedmd.com/sinfo.html
  6. NVIDIA Developer, DCGM, https://developer.nvidia.com/dcgm
  7. KSTbench Github, Benchmark Templates https://github.com/vitduck/KSTBench/blob/main/README.md