기계학습 모델 공격연구 동향: 심층신경망을 중심으로

  • 이슬기 (한국인터넷진흥원 보안위협대응R&D팀) ;
  • 김경한 (한국인터넷진흥원 보안위협대응R&D팀) ;
  • 김병익 (한국인터넷진흥원 보안위협대응R&D팀) ;
  • 박순태 (한국인터넷진흥원 보안위협대응R&D팀)
  • Published : 2019.12.31

Abstract

기계학습 알고리즘을 이용한 다양한 분야에서의 활용사례들이 우리 사회로 점차 확산되어가며, 기계학습을 통해 산출된 모델의 오동작을 유발할 수 있는 공격이 활발히 연구되고 있다. 특히, 한국에서는 딥러닝을 포함해 인공지능을 응용한 융합분야를 국가적 차원에서 추진하고 있으며, 만약 인공지능 모델 자체에서 발생하는 취약점을 보완하지 못하고 사전에 공격을 대비하지 않는다면, 뒤늦은 대응으로 인하여 관련 산업의 활성화가 지연될 수 있는 문제점이 발생할 수도 있다. 본 논문에서는 기계학습 모델에서, 특히 심층 신경망으로 구성되어 있는 모델에서 발생할 수 있는 공격들을 정의하고 연구 동향을 분석, 안전한 기계학습 모델 구성을 위해 필요한 시사점을 제시한다. 구체적으로, 가장 널리 알려진 적대적 사례(adversarial examples) 뿐 아니라, 프라이버시 침해를 유발하는 추론 공격 등이 어떻게 정의되는지 설명한다.

Keywords

References

  1. LeCun Y., Bengio Y., Hinton G., "Deep learning", nature, 521(7553), pp. 436-444, May 2015. https://doi.org/10.1038/nature14539
  2. 김용준, 김영식, "딥 러닝 기술에서의 적대적 학습 기술 동향", 정보과학회지, 36(2), pp. 9-13, 2018.
  3. Szegedy C, Zaremba W, Sutskever I, Bruna J, Erhan D, Goodfellow I, Fergus R, "Intriguing properties of neural networks", arXiv:1312.6199, 2013.
  4. Goodfellow IJ, Shlens J, Szegedy C, "Explaining and harnessing adversarial examples", arXiv preprint arXiv:1412.6572, 2014.
  5. Silver D, Huang A, Maddison CJ, Guez A, Sifre L, Van Den Driessche G, Schrittwieser J, Antonoglou I, Panneershelvam V, Lanctot M, Dieleman S, "Mastering the game of Go with deep neural networks and tree search", nature, 529(7587), pp.484-489, 2016. https://doi.org/10.1038/nature16961
  6. Papernot N, McDaniel P, Jha S, Fredrikson M, Celik ZB, Swami A, "The limitations of deep learning in adversarial settings", 2016 IEEE European Symposium on Security and Privacy (EuroS&P), pp.372-387, 2016.
  7. Biggio B, Roli F, "Wild patterns: Ten years after the rise of adversarial machine learning", Pattern Recognition, 84, pp.317-331, 2018. https://doi.org/10.1016/j.patcog.2018.07.023
  8. Moosavi-Dezfooli SM, Fawzi A, Frossard P, "Deepfool: a simple and accurate method to fool deep neural networks", In Proceedings of the IEEE conference on computer vision and pattern recognition, pp.2574-2582, 2016.
  9. Papernot N, McDaniel P, Wu X, Jha S, Swami A, "Distillation as a defense to adversarial perturbations against deep neural networks", 2016 IEEE Symposium on Security and Privacy (SP), pp.582-597, 2016.
  10. Shokri R, Stronati M, Song C, Shmatikov V, "Membership inference attacks against machine learning models", 2017 IEEE Symposium on Security and Privacy (SP), pp.3-18, 2017.
  11. Kurakin A, Goodfellow I, Bengio S, "Adversarial examples in the physical world", arXiv preprint arXiv:1607.02533, 2016.
  12. Carlini N, Wagner D, "Towards evaluating the robustness of neural networks", 2017 IEEE Symposium on Security and Privacy (SP), pp.39-57, 2017.
  13. Elsayed G, Goodfellow I, Sohl-Dickstein J, "Adversarial reprogramming of neural networks", arXiv:1806.11146, 2018.
  14. Tramèr F, Zhang F, Juels A, Reiter MK, Ristenpart T, "Stealing machine learning models via prediction apis", 25th {USENIX} Security Symposium ({USENIX} Security 16), pp.601-618, 2016.
  15. Fredrikson M, Jha S, Ristenpart T, "Model inversion attacks that exploit confidence information and basic countermeasures", In Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security, pp.1322-1333, 2015.
  16. Liu Y, Ma S, Aafer Y, Lee WC, Zhai J, Wang W, Zhang X, "Trojaning attack on neural networks", 2017.
  17. Gu T, Dolan-Gavitt B, Garg S, "Badnets: Identifying vulnerabilities in the machine learning model supply chain", arXiv preprint arXiv:1708.06733, 2017.
  18. Liu K, Dolan-Gavitt B, Garg S, "Fine-pruning: Defending against backdooring attacks on deep neural networks", In International Symposium on Research in Attacks, Intrusions, and Defenses, pp.273-294, Springer, Cham, 2018.