Exploration of Optimization Environment for CUDA-based Cholesky Decomposition

CUDA 기반 숄레스키 분해 성능 최적화 환경 탐색

  • Junbeom Kang (Dept. of Computer Science and Engineering, Konkuk University) ;
  • Myungho Lee (Dept. of Computer Science and Engineering, Myongji University) ;
  • Neungsoo Park (Dept. of Computer Science and Engineering, Konkuk University)
  • 강준범 (건국대학교 컴퓨터공학과) ;
  • 이명호 (명지대학교 컴퓨터공학과) ;
  • 박능수 (건국대학교 컴퓨터공학과)
  • Published : 2024.05.23

Abstract

최근 다양한 연구 분야에서는 CUDA 프레임워크를 이용하여 병렬 처리를 통해 연산 시간을 단축하는데 성공하고 있다. 이 중 숄레스키 분해는 양의 정부호 행렬을 하삼각행렬로 분해하는 과정에서 많은 행렬 곱셈이 요구되어 GPU 의 구조적 특징을 활용하면 상당한 가속화가 가능하다. 따라서 이 논문에서는 CUDA 코어에 연산을 할당할 때, 핵심 요소인 블록의 개수와 블록 당 쓰레드 개수를 조절할 수 있는 병렬 숄레스키 분해 연산 프로그램을 구현하였다. 서로 다른 세 종류의 행렬 크기에 대해 다양한 블록 수-쓰레드 수 환경을 설정하여 가속화 정도를 측정한 결과, 각 행렬 별 최적 환경에서 동일 그룹 내 최장 시간 대비, 1000x1000 행렬에서는 약 1.80 배, 2000x2000 행렬에서는 약 2.94 배의 추가적인 가속화를 달성하였다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부의 재원으로 한국연구재단의 지원 사업(RS-2023-00321688)과 정보통신기획평가원의 정보통신방송혁신인재양성(메타버스융합대학원)사업(IITP-2024-RS-2023-00256615)의 연구 결과로 수행되었음

References

  1. 김호중, 조태훈, "GPU 를 이용한 위상 측정법의 가속화," 한국정보통신학회논문지, Vol.21, No.12, pp.2285-2290, 2017.
  2. 서지완, 박채림, 조세홍, 계희원, "의료영상을 위한 위치 기반 역학의 GPU 병렬화 연구," 한국차세대컴퓨팅학회 논문지, Vol.19, No.3, pp.19-28, 2023.
  3. Salles Civitarese, Daniel & Szwarcman, Dilza & Vellasco, Marley. Speeding Up the Training of Neural Networks with CUDA Technology. Zakopane, Poland. 2012. pp.30-38.
  4. Azzam Haidar, Ahmad Abdelfatah, Stanimire Tomov, and Jack Dongarra. High-performance Cholesky factorization for GPU-only execution. In Proceedings of the General Purpose GPUs (GPGPU-10). New York, NY, USA, 2017. pp.42-52.
  5. NVIDIA, CUDA C++ Programming Guide, https://docs.nvidia.com/cuda/cuda-c-programming-guide/