DOI QR코드

DOI QR Code

A Study on the Image-Based Malware Classification System that Combines Image Preprocessing and Ensemble Techniques for High Accuracy

높은 정확도를 위한 이미지 전처리와 앙상블 기법을 결합한 이미지 기반 악성코드 분류 시스템에 관한 연구

  • 김해수 (한경대학교 컴퓨터응용수학부) ;
  • 김미희 (한경대학교 컴퓨터응용수학부 컴퓨터시스템연구소)
  • Received : 2022.02.07
  • Accepted : 2022.03.11
  • Published : 2022.07.31

Abstract

Recent development in information and communication technology has been beneficial to many, but at the same time, malicious attack attempts are also increasing through vulnerabilities in new programs. Among malicious attacks, malware operate in various ways and is distributed to people in new ways every time, and to solve this malware, it is necessary to quickly analyze and provide defense techniques. If new malware can be classified into the same type of malware, malware has similar behavioral characteristics, so they can provide defense techniques for new malware using analyzed malware. Therefore, there is a need for a solution to this because the method of accurately and quickly classifying malware and the number of data may not be uniform for each family of analyzed malware. This paper proposes a system that combines image preprocessing and ensemble techniques to increase accuracy in imbalanced data.

최근 정보통신 기술의 발전이 많은 이에게 이점이 되고 있지만, 그와 동시에 새로운 프로그램의 취약점을 통해 악의적 공격 시도 또한 증가하고 있다. 악의적 공격 중 악성코드는 다양한 방식으로 동작하며 매번 새로운 방식으로 사람들에게 유포되고 이러한 악성코드들을 해결하기 위해 발견된 악성코드를 빠르게 분석하여 방어기법을 제공해야 한다. 새로운 악성코드를 기존 악성코드와 동일한 종류로 분류할 수 있다면 동작의 유사성을 가진 악성코드들의 분석된 특징을 이용해 새로운 악성코드의 방어기법을 제공할 수 있다. 따라서 악성코드를 정확하고 빠르게 분류하는 방법이 있어야 한다. 또한, 분석된 악성코드들의 패밀리 마다 데이터의 개수가 균일하지 않을 수 있으므로 이에 대한 해결방안이 필요하다. 본 논문에서는 이미지 전처리 기법과 앙상블 기법을 결합하여 개수가 균일하지 않은 데이터에서 정확도를 높이는 시스템을 제안한다.

Keywords

Acknowledgement

이 논문은 2018년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No.2018R1A2B6009620).

References

  1. "Cyber Threat Prospects for 2021", KISA, Jan. 26, 2021 [Internet], https://krcert.or.kr/data/reportView.do?bulletin_writing_sequence=35878.
  2. C. Beek, et al., 2021 McAfee Threats report [Internet], https://www.mcafee.com/enterprise/en-us/lp/threats-reports/jun-2021.html.
  3. Press Release, WatchGuard, Jun. 24, 2021 [Internet], https://www.atchguard.com/wgrd-news/press-releases/new-watchguard-research-reveals-traditional-anti-malware-solutions-miss.
  4. L. Nataraj, S. Karthikeyan, G. Jacob, and B. S. Manjunath, "Malware images: Visualization and automatic classification," Proceedings of the 8th International Symposium on Visualization for Cyber Security, No.4, pp.1-7, 2011.
  5. H. Kim and M. Kim, "Image-based malware classification system using image preprocessing and ensemble techniques," Proceedings of the Korea Information Processing Society Conference. Korea Information Processing Society, pp.715-718, 2021.
  6. M. Sahin and S. Bahtiyar, "A survey on malware detection with deep learning," 13th International Conference on Security of Information and Networks, No.34, pp.1-6, 2020.
  7. S. Kim, D. Kim, H. Lee, and T. Lee, "A study on classification of CNN-based linux malware using image processing techniques," Journal of the Korea Academia-Industrial cooperation Society, Vol.21, No.9, pp.634-642, 2020.
  8. S. Yue, "Imbalanced malware images classification: A CNN based approach," arXiv preprint arXiv:1708.08042, 2017.
  9. T. Ojala, M. Pietikainen, and D. Harwood, "A comparative study of texture measures with classification based on featured distributions," Pattern Recognition, Vol.29, No.1, pp.51-59, 1996. https://doi.org/10.1016/0031-3203(95)00067-4
  10. N. Dalal and B. Triggs, "Histograms of oriented gradients for human detection," International Conference on Computer Vision & Pattern Recognition (CVPR), San Diego, UnitedStates, pp.886-893, 2005.
  11. K. O'Shea and R. Nash, "An introduction to convolutional neural networks," arXiv preprint arXiv:1511.08458, 2015.
  12. S. Hochreiter and J. Schmidhuber, "LONG SHORT-TERM MEMORY," Neural Computation, Vol.9, No.8, pp.1735-1780, 1997. https://doi.org/10.1162/neco.1997.9.8.1735
  13. R. O'Brien and H. Ishwaran, "A random forests quantile classifier for class imbalanced data," Pattern Recognition, Vol.90, pp.232-249, 2019. https://doi.org/10.1016/j.patcog.2019.01.036
  14. F. Provost, "Machine learning from imbalanced data sets 101," Proceedings of the AAAI 2000 Workshop on Imbalanced Data Sets, pp.1-3, 2000.
  15. R. Ronen, M. Radu, C. Feuerstein, E. Yom-Tov, and M. Ahmadi, "Microsoft malware classification challenge," arXiv preprint arXiv:1802.10135, 2018.