A Study on Hardware Accelerator for Transformer Encoder

Transformer Encoder 의 Hardware Accelerator 에 관한 연구

  • Ye-Song Yu (Dept. of Brain Cognitive Science, Ewha Womans University) ;
  • Chae-Yoon Kim (Dept. of Electronic and Electrical Engineering, Ewha Womans University) ;
  • Hye-Ryeong Park (Dept. of Electronic and Electrical Engineering, Ewha Womans University) ;
  • Chae-Won Ahn (Dept. of Electronic and Electrical Engineering, Ewha Womans University)
  • 유예송 (이화여자대학교 뇌인지과학부) ;
  • 김채윤 (이화여자대학교 전자전기공학부) ;
  • 박혜령 (이화여자대학교 전자전기공학부) ;
  • 안채원 (이화여자대학교 전자전기공학부)
  • Published : 2024.10.31

Abstract

데이터의 규모가 방대해지고 AI 모델의 구조적 복잡성이 증가함에 따라 AI 하드웨어 가속기의 성능이 더욱 중요해졌다. 특히 LLM 의 핵심을 이루는 Transformer 모델이 주목받고 있으나, Transformer 의 하드웨어 가속기 연구는 타 모델에 비해 상대적으로 늦게 진행되었다. 그 이유에는 최적화가 어려운 복잡한 연산과 메모리 접근패턴이 있다. Transformer 는 Self-Attention 메커니즘을 사용해 입력 시퀀스 내 모든 요소 간의 관계를 계산하는 구조로[1], 매우 많은 양의 연산과 메모리 사용을 요구한다. NLP 기술이 생활 곳곳에서 대체될 수 없는 도구로 자리 잡은 만큼 Transformer Accelerator 가 더 많이 연구, 개발될 필요가 있다.[2] 본 연구는 Verilog HDL 로 하드웨어에 최적화된 Transformer Encoder 를 구현한 후 합성/실행하여 FPGA 칩에 업로드한다. transformer 의 encoder 에 알맞은 accelerator 를 제작하여 다양한 NLP 모델의 등장과 개발을 촉진하고자 한다. 또 각 모델에 따라 특화 연산기를 제작하는 연구 파이프라인을 구축한다.

Keywords

Acknowledgement

본 논문은 과학기술정보통신부 대학디지털교육역량강화사업의 지원을 통해 수행한 ICT멘토링 프로젝트 결과물입니다

References

  1. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., Polosukhin, I., "Attention is All You Need", Advances in Neural Information Processing Systems (NeurIPS), Vol. 30, pp. 5998-6008, 2017.
  2. Devlin, J., Chang, M.-W., Lee, K., Toutanova, K., "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), Minneapolis, 2019, pp. 4171-4186.
  3. Wu, R., Guo, X., Du, J., and Li, J., Accelerating Neural Network Inference on FPGA-Based Platforms-A Survey, Electronics, vol. 10, no. 9, pp. 1025, 2021.