The Performance Analysis of Parallelization Techniques in Large-Scale NLP Models

대규모 NLP 모델에서 병렬화 기법의 성능 분석

  • Jaeyoung Lee (Dept. of Computer Engineering, Dankook University) ;
  • Jaehyun Nam (Dept. of Computer Engineering, Dankook University)
  • 이재영 (단국대학교 컴퓨터공학과) ;
  • 남재현 (단국대학교 컴퓨터공학과)
  • Published : 2024.10.31

Abstract

최근 자연어 처리(Natural Language Processing , NLP) 모델의 규모가 급격히 증가함에 따라, 하드웨어가 처리해야 할 파라미터 수가 기하급수적으로 늘어나고 있다. 이로 인해 대규모 모델의 효율적인 학습을 위해 다양한 병렬화 및 분산 학습 기법이 도입되었다. 이러한 기법은 데이터셋의 크기와 모델의 구조에 따라 학습 성능에 상당한 차이를 보인다. 본 연구에서는 IMDB (Internet Movie Database) 감정 분류 작업을 대상으로, Bert 와 ALBERT 모델을 활용하여 두 가지 병렬화 방식이 학습 시간에 미치는 영향을 분석하였다. 이를 통해 모델의 크기에 따라 최적의 병렬화 기법을 선택하는 것이 성능 향상에 필수적임을 밝히고, 분산 학습 환경에서 자원의 효율적 활용 및 성능 최적화를 위한 지침을 제시하고자 한다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 학석사연계 ICT 핵심인재양성사업의 연구결과로 수행되었음 (IITP-2024-RS-2023-00259867)

References

  1. M. Li, D. G. Andersen, J. W. Park, A. J. Smola, A. Ahmed, V. Josifovski, J. Long, E. J. Shekita, and B.-Y. Su, "Scaling Distributed Machine Learning with the Parameter Server," USENIX Symposium on OSDI, 2014.
  2. Daniel Nichols, "A Survey and Empirical Evaluation of Parallel Deep Learning Frameworks", ACM Symposium on HPDC, 2020.
  3. Dehghani and Yazdanparast Journal of Big Data (2023) 10:158 https://doi.org/10.1186/s40537-023-00829-x