DOI QR코드

DOI QR Code

A Study on BERT and LSTM-based Ransomware family classification methods using User-defined functions

사용자 정의 함수를 이용한 BERT 와 LSTM 기반 랜섬웨어 패밀리 분류 방법 연구

  • Jinha Kim (Dept. of Computer Science, Hanyang University) ;
  • Doo-Seop Choi (Dept. of Computer Science, Hanyang University) ;
  • Eul Gyu Im (Dept. of Computer Science, Hanyang University)
  • 김진하 (한양대학교 컴퓨터.소프트웨어학과) ;
  • 최두섭 (한양대학교 컴퓨터.소프트웨어학과) ;
  • 임을규 (한양대학교 컴퓨터.소프트웨어학과)
  • Published : 2024.05.23

Abstract

최근 악성코드 제작 기술의 고도화에 따라 악성코드의 변종이 전세계적으로 급격히 증가하고 있다. 이러한 대량의 악성코드를 신속하고 정확하게 탐지하기 위한 새로운 악성코드 탐지 기술에 관한 연구가 절실히 필요하다. 본 연구는 기존의 정적 분석과 동적 분석 방법의 한계를 극복하기 위한 방법을 제안한다. 신속한 데이터 수집을 위하여 정적 분석을 이용하여 사용자 정의 함수의 어셈블리어 데이터를 수집하고 BERT 로 임베딩하고 LSTM 으로 악성코드를 분류하는 모델을 제안한다. 분류 데이터는 행위가 정확한 랜섬웨어를 사용하였고 총 세 종류의 랜섬웨어를 분류하였고 다중 분류의 결과로 85.5%의 분류 정확도를 달성하였다.

Keywords

Acknowledgement

This work was supported by the National Research Foundation of Korea(NRF) grant funded by the Korea government(MSIT) (No. NRF-2022R1A4A1032361)

References

  1. "Total Amount of malware and pua: New Malware", AV-TEST, 2024, https://portal.av-atlas.org/malware
  2. "Malware feature information for utilizing artificial intelligence technology", KISA, 2021.06.07, https://www.boho.or.kr/kr/bbs/view.do?bbsId=B0000127&nttId=36076&menuNo=205021
  3. M. Sikorski and A. Honig, Practical Malware Analysis: The Hands-On Guide to Dissecting Malicious Software, San Francisco, CA, USA: No starch press, 2012.
  4. S. K. Pandey and B. M. Mehtre, "Performance of malware detection tools: A comparison", Proc. IEEE Int. Conf. Adv. Commun. Control Comput. Technol., pp. 1811-1817, May 2014.
  5. DEVLIN, Jacob, et al. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
  6. HOCHREITER, Sepp; SCHMIDHUBER, Jurgen. Long short-term memory. Neural computation, 1997, 9.8: 1735-1780 https://doi.org/10.1162/neco.1997.9.8.1735
  7. L. Nataraj, S. Karthikeyan, G. Jacob, and B. S. Manjunath. "Malware images: visualization and automatic classification". In Proceedings of the 8th International Symposium on Visualization for Cyber Security, 2011, Pages 1-7
  8. MaleVis: A Dataset for Vision Based Malware Recognition, hacettepe, 2019, https://web.cs.hacettepe.edu.tr/selman/malevis/index.html
  9. Microsoft Malware Classification Challenge (BIG 2015), keggle, https://www.kaggle.com/c/malware-classification, 2015
  10. O . Aslan and A. A. Yilmaz, "A New Malware Classification Framework Based on Deep Learning Algorithms," in IEEE Access, vol. 9, pp. 87936-87951, 2021. https://doi.org/10.1109/ACCESS.2021.3089586
  11. Narayanan, B.N.; Davuluru, V.S.P. Ensemble Malware Classification System Using Deep Neural Networks, Electronics 2020, 9(5):721, April 2020
  12. Aurangzeb, S., Anwar, H., Naeem, M.A. et al. BigRC-EML: big-data based ransomware classification using ensemble machine learning. Cluster Comput 25, 3405-3422, 2022. https://doi.org/10.1007/s10586-022-03569-4
  13. online malware repository that produces active malware samples to security researchers, virusshare, https://virusshare.com/
  14. Detect-It-Easy, horsicq, 2024.04.22, https://github.com/horsicq/Detect-It-Easy
  15. GHIDRA, National Security Agency, https://ghidra-sre.org/