DOI QR코드

DOI QR Code

Design and Implementation of a ML-based Detection System for Malicious Script Hidden Corrupted Digital Files

머신러닝 기반 손상된 디지털 파일 내부 은닉 악성 스크립트 판별 시스템 설계 및 구현

  • Hyung-Woo Lee (Divison of Computer Engineering, Hanshin University) ;
  • Sangwon Na (Divison of Computer Engineering, Hanshin University)
  • 이형우 (한신대학교 컴퓨터공학부) ;
  • 나상원 (한신대학교 컴퓨터공학부)
  • Received : 2023.09.17
  • Accepted : 2023.11.24
  • Published : 2023.12.31

Abstract

Malware files containing concealed malicious scripts have recently been identified within MS Office documents frequently. In response, this paper describes the design and implementation of a system that automatically detects malicious digital files using machine learning techniques. The system is proficient in identifying malicious scripts within MS Office files that exploit the OLE VBA macro functionality, detecting malicious scripts embedded within the CDH/LFH/ECDR internal field values through OOXML structure analysis, and recognizing abnormal CDH/LFH information introduced within the OOXML structure, which is not conventionally referenced. Furthermore, this paper presents a mechanism for utilizing the VirusTotal malicious script detection feature to autonomously determine instances of malicious tampering within MS Office files. This leads to the design and implementation of a machine learning-based integrated software. Experimental results confirm the software's capacity to autonomously assess MS Office file's integrity and provide enhanced detection performance for arbitrary MS Office files when employing the optimal machine learning model.

최근 MS Office 파일 내에 악성 스크립트 등이 은닉된 멀웨어 파일이 발견되고 있다. 이에 본 논문에서는 머신러닝 기법을 적용하여 악성 디지털 파일을 자동으로 검출할 수 있는 시스템을 설계 및 구현하였다. MS Office 파일 내 OLE VBA 매크로 기능을 악용하여 악성 스크립트를 검출하거나, OOXML 구조 분석을 통해 CDH/LFH/ECDH 내부 필드 값에 악성 스크립트를 탐지하고, OOXML 구조에서 참조되지 않는 비정상적인 CDH/LFH 정보를 추가한 경우 이를 검출할 수 있는 메커니즘을 제시하였다. 그리고 VirusTotal 악성 스크립트 판별 기능을 이용하여 MS Office 파일에 대한 악의적 손상 여부 자동 판별하는 기능을 이용하여 머신러닝 기반 통합 소프트웨어를 설계 및 구현하였다. 실험 결과 파일 손상 여부를 자동 판별할 수 있으며 최적의 머신러닝 모델을 이용하여 임의의 MS Office 파일에 대해 향상된 검출 성능을 제공하는 것을 확인하였다.

Keywords

Acknowledgement

이 성과는 2023년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구(No 2021R1F1A1046954)이며, 이 논문의 일부는 한신대학교 학술연구비 지원에 의하여 연구되었음.

References

  1. J. Paoli, I. Valet-Harper, A. Farquhar, and I. Sebestyen, "Ecma-376 office open xml file formats," URL https://ecma-international.org/publications-and-standards/standards/ecma-376/
  2. A. M. Naser, M. H. Btoush, and A. H. Hadi, "Analyzing and detecting malicious content: Docxfiles," International Journal of Computer Science and Information Security, Vol.14, No.8, pp.404, 2016.
  3. P. Singh, "Detection of Malicious OOXML Documents Using Domain Specific Features", Master's thesis, Indian Institute of Information Technology and Management, 2017.
  4. Z. Wang, J. Wang, "Applications of Machine Learning in Public Security Informatin and Resource Management", Hindawi Scientific Programming, Vol.2021, Article ID 4734187, 2021.
  5. Y. Liu, F. R. Yu, X. Li, H. Ji, and V. C. M. Leung, "Blockchain and machine learning for communications and networking systems," IEEE Communications Surveys & Tutorials, Vol.22, No.2, pp.1392-1431, 2020. https://doi.org/10.1109/COMST.2020.2975911
  6. R. Gupta, S. Tanwar, S. Tyagi, and N. Kumar, "Machine learning models for secure data analytics: a taxonomy and threat model," Computer Communications, Vol.153, pp.406-440, 2020. https://doi.org/10.1016/j.comcom.2020.02.008
  7. A. Cohen, N. Nissim, L. Rokach, and Y. Elovici, "Sfem: Structural feature extraction methodology for the detection of malicious office documents using machine learning methods," ExpertSystems with Applications, Vol.63, pp. 324-343, 2016. https://doi.org/10.1016/j.eswa.2016.07.010
  8. H. S. Lee, H.-W. Lee, "Forgery Detection Mechanism with Abnormal Structure Analysis on Office Open XML based MS-Word File," IJASC, Vol.8, No.4, 2019.
  9. S. Na and H.-W. Lee, "Implementation of Malicious Data Analysis and Detection System Hidden in the Slack Space of Corrupted OOXML-based MS-Office Digital Files", Advanced and Applied Convergence Letters AACL 21 (9th International Joint Conference on Convergence, IJCC2023), pp.97-103, 2023.
  10. A. Catsiglione, B. D'Alessio, A. D. Santis, "Hiding Information into OOXML Documents: New Steganographic Perspectives", Journal of Wireless Mobile Networks, Ubiquitous Computing, and Dependable Applications, Vol.2, No.4, pp.59-83, 2011.
  11. S. D. l. Santos and J. Torres, "Macro malware detection using machine learning techniques - a new approach," in Proceedings of the 3rd International Conference on Information SystemsSecurity and Privacy - Volume 1: ICISSP, INSTICC. SciTePress, pp.295-302, 2017.
  12. S. Kim, S. Hong, J. Oh, and H. Lee, "Obfuscated vba macro detection using machine learning," in 2018 48th Annual IEEE/IFIP International Conference on Dependable Systems and Networks (DSN), pp.490-501, June 2018.
  13. FireEye, "Malicious PowerShell Detection via Machine Learning," 2018.
  14. B. Mahesh, "Machine Learning Algorithms - A Review", International Journal of Science and Research, Vol.9, No.1, 2020.
  15. W. Richert, L. P. Coelho, "Building Machine Learning Systems with Python", Packt Publishing Ltd., ISBN 978-1-78216-140-0.
  16. VirusTotal, https://www.virustotal.com/.
  17. Python. https://www.python.org/.
  18. scikit-learn. https://scikit-learn.org/.