Lookup Table Optimization for Efficient GPU Inference of High-Cost Activation Functions

Jaemin Kim;Sungkyun Kim;Jiwon Seo;

doi:10.3745/PKIPS.y2024m10a.590

한국정보처리학회:학술대회논문집 (Annual Conference of KIPS)

한국정보처리학회 2024년도 추계학술발표대회
/
Pages.590-593
/
2024
/
2005-0011(pISSN)
/
2671-7298(eISSN)

한국정보처리학회 (Korea Information Processing Society)

DOI QR Code

고비용 활성화 함수의 효율적 GPU 추론을 위한 사전 계산 및 룩업 테이블 최적화

Lookup Table Optimization for Efficient GPU Inference of High-Cost Activation Functions

김재민 (한양대학교 인공지능학과) ;
김성균 (한양대학교 컴퓨터소프트웨어학과) ;
서지원 (한양대학교 컴퓨터소프트웨어학과)

Jaemin Kim (Dept. of Artificial Intelligence, Hanyang University) ;
Sungkyun Kim (Dept. of Computer Science, Hanyang University) ;
Jiwon Seo (Dept. of Computer Science, Hanyang University)

발행 : 2024.10.31

https://doi.org/10.3745/PKIPS.y2024m10a.590 인용 PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

본 연구에서는 대규모 언어 모델(LLM)에서 GeLU 와 SiLU 활성화 함수의 높은 연산 비용을 해결하기 위해 룩업 테이블(LUT) 기반 최적화 기법을 제안하였다. BERT, GPT2, OLMo 모델을 대상으로 실험을 수행하였으며, 특히 OpenAI GeLU 를 사용하는 GPT2 모델에서 최대 9 배의 성능 개선을 확인하였다. 또한, 배치 크기 변화에 따른 성능 분석 결과, GPT2 는 배치 크기가 클수록 더 큰 성능 향상을 보였고, BERT 와 OLMo 는 상대적으로 낮은 개선율을 나타냈다. 최적화 기법을 통해 각 활성화 함수의 연산 시간을 크게 줄이면서도 오차율을 낮게 유지할 수 있었다.

키워드

과제정보

이 논문은 2024 년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (IITP-2024-2021-0-01817, No.RS-2020-II201373, 인공지능대학원지원(한양대학교))

참고문헌

Hendrycks, Dan, and Kevin Gimpel. "Gaussian error linear units (gelus)." arXiv preprint arXiv:1606.08415 (2016).
Elfwing, Stefan, Eiji Uchibe, and Kenji Doya. "Sigmoid-weighted linear units for neural network function approximation in reinforcement learning." Neural networks 107 (2018): 3-11.
Devlin, Jacob. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
Radford, Alec, et al. "Language models are unsupervised multitask learners." OpenAI blog 1.8 (2019): 9.
Groeneveld, Dirk, et al. "Olmo: Accelerating the science of language models. arXiv preprint, 2024." URL https://api.semanticscholar.org/CorpusID267365485.

한국정보처리학회:학술대회논문집 (Annual Conference of KIPS)

고비용 활성화 함수의 효율적 GPU 추론을 위한 사전 계산 및 룩업 테이블 최적화

Lookup Table Optimization for Efficient GPU Inference of High-Cost Activation Functions

초록

키워드

과제정보

참고문헌

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)