DOI QR코드

DOI QR Code

Implementation of dual cluster service environment using a job batch scheduler and a container orchestration tool

작업 배치 스케줄러와 컨테이너 오케스트레이션 툴을 활용한 이중 클러스터 서비스 환경 구현

  • Min-Woo Kwon (Dept. of Supercomputing Infrastructure Center, KISTI) ;
  • Gukhua Lee (Dept. of Supercomputing Infrastructure Center, KISTI) ;
  • Do-Sik An (Dept. of Supercomputing Infrastructure Center, KISTI) ;
  • Taeyoung Hong (Dept. of Supercomputing Infrastructure Center, KISTI)
  • 권민우 (한국과학기술정보연구원(KISTI) 슈퍼컴퓨팅인프라센터) ;
  • 이국화 (한국과학기술정보연구원(KISTI) 슈퍼컴퓨팅인프라센터) ;
  • 안도식 (한국과학기술정보연구원(KISTI) 슈퍼컴퓨팅인프라센터) ;
  • 홍태영 (한국과학기술정보연구원(KISTI) 슈퍼컴퓨팅인프라센터)
  • Published : 2024.10.31

Abstract

KISTI 슈퍼컴퓨팅인프라센터에서는 AI 연구자들을 위해 GPU기반의 클러스터 시스템인 뉴론을 구축하여 서비스하고 있다. 뉴론은 기본적으로 작업 배치 스케줄러인 SLURM을 통해 자원 분배 서비스를 제공하고 있다. 최근 컨테이너 이미지 기반의 클라우드 서비스에 대한 요구가 많아지면서 뉴론에서도 컨테이너 오케스트레이션 툴을 활용한 서비스인 웹 기반의 MyKSC를 제공하고 있다. 본 논문에서는 작업 배치 스케줄러와 컨테이너 오케스트레이션 툴을 활용한 이중 클러스터 서비스 환경을 구현하는 기법에 대해서 소개한다.

Keywords

Acknowledgement

이 논문은 2024년도 한국과학기술정보연구원의 기본사업(과제명:국가 플래그십 초고성능컴퓨터 인프라 구축 및 서비스, 과제번호:K24L2M1C1)으로 수행된 연구입니다.

References

  1. 한국과학기술정보연구원 국가슈퍼컴퓨팅센터, 뉴론 소개, https://www.ksc.re.kr/byjw/neuron
  2. 뉴론 지침서, SLURM을 통한 작업 실행 https://docs-ksc.gitbook.io/neuron-user-guide/undefined/running-jobs-through-scheduler-slurm
  3. 한국과학기술정보연구원 슈퍼컴퓨터 웹 서비스 포털, MyKSC, https://my.ksc.re.kr/#/
  4. SLURM Workload Manager, scontrol https://slurm.schedmd.com/scontrol.html
  5. Kubernetes, Command line tool(kubectl), https://kubernetes.io/docs/reference/kubectl/