DOI QR코드

DOI QR Code

Random Noise Addition for Detecting Adversarially Generated Image Dataset

임의의 잡음 신호 추가를 활용한 적대적으로 생성된 이미지 데이터셋 탐지 방안에 대한 연구

  • Received : 2019.11.20
  • Accepted : 2019.12.06
  • Published : 2019.12.31

Abstract

In Deep Learning models derivative is implemented by error back-propagation which enables the model to learn the error and update parameters. It can find the global (or local) optimal points of parameters even in the complex models taking advantage of a huge improvement in computing power. However, deliberately generated data points can 'fool' models and degrade the performance such as prediction accuracy. Not only these adversarial examples reduce the performance but also these examples are not easily detectable with human's eyes. In this work, we propose the method to detect adversarial datasets with random noise addition. We exploit the fact that when random noise is added, prediction accuracy of non-adversarial dataset remains almost unchanged, but that of adversarial dataset changes. We set attack methods (FGSM, Saliency Map) and noise level (0-19 with max pixel value 255) as independent variables and difference of prediction accuracy when noise was added as dependent variable in a simulation experiment. We have succeeded in extracting the threshold that separates non-adversarial and adversarial dataset. We detected the adversarial dataset using this threshold.

여러 분야에서 사용되는 이미지 분류를 위한 딥러닝(Deep Learning) 모델은 오류 역전파 방법을 통해 미분을 구현하고 미분 값을 통해 예측 상의 오류를 학습한다. 엄청난 계산량을 향상된 계산 능력으로 해결하여, 복잡하게 설계된 모델에서도 파라미터의 전역 (혹은 국소) 최적점을 찾을 수 있다는 것이 장점이다. 하지만 정교하게 계산된 데이터를 만들어내면 이 딥러닝 모델을 '속여' 모델의 예측 정확도와 같은 성능을 저하시킬 수 있다. 이렇게 생성된 적대적 사례는 딥러닝을 저해할 수 있을 뿐 아니라, 사람의 눈으로는 쉽게 발견할 수 없도록 정교하게 계산되어 있다. 본 연구에서는 임의의 잡음 신호를 추가하는 방법을 통해 적대적으로 생성된 이미지 데이터셋을 탐지하는 방안을 제안한다. 임의의 잡음 신호를 추가하였을 때 일반적인 데이터셋은 예측 정확도가 거의 변하지 않는 반면, 적대적 데이터셋의 예측 정확도는 크게 변한다는 특성을 이용한다. 실험은 공격 기법(FGSM, Saliency Map)과 잡음 신호의 세기 수준(픽셀 최댓값 255 기준 0-19) 두 가지 변수를 독립 변수로 설정하고 임의의 잡음 신호를 추가하였을 때의 예측 정확도 차이를 종속 변수로 설정하여 시뮬레이션을 진행하였다. 각 변수별로 일반적 데이터셋과 적대적 데이터셋을 구분하는 탐지 역치를 도출하였으며, 이 탐지 역치를 통해 적대적 데이터셋을 탐지할 수 있었다.

Keywords

References

  1. A. Krizhevsky, I. Sutskever, and G. E. Hinton, "Imagenet classification with deep convolutional neural networks," Advances in neural information processing systems, pp. 1097-1105, 2012.
  2. K. Simonyan and A. Zisserman, "Very deep convolutional networks for large-scale image recognition," arXiv preprint arXiv:1409.1556, 2014.
  3. C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed,D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, "Going deeper with convolutions," Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1-9, 2015.
  4. K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770-778, 2016.
  5. M. Bojarski, D. Del Testa, D. Dworakowski, B. Firner, B. Flepp, P. Goyal, L. D. Jackel, M. Monfort, U. Muller, J. Zhang, et al., "End to end learning for self-driving cars," arXiv preprint arXiv:1604.07316, 2016.
  6. C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow, and R. Fergus, "Intriguing properties of neural networks," arXiv preprint arXiv:1312.6199, 2013.
  7. I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. WardeFarley, S. Ozair, A. Courville, and Y. Bengio, "Generative adversarial nets," Advances in neural information processing systems, pp. 2672-2680, 2014.
  8. I. J. Goodfellow, J. Shlens, and C. Szegedy, "Explaining and harnessing adversarial examples," arXiv preprint arXiv:1412.6572, 2014.
  9. N. Papernot, P. McDaniel, S. Jha, M. Fredrikson, Z. B. Celik, and A. Swami, "The limitations of deep learning in adversarial settings," 2016 IEEE European Symposium on Security and Privacy (EuroS&P), pp. 372-387, IEEE, 2016.
  10. R. Feinman, R. R. Curtin, S. Shintre, and A. B. Gardner, "Detecting adversarial samples from artifacts," arXiv preprint arXiv:1703.00410, 2017.
  11. K. Lee, K. Lee, H. Lee, and J. Shin, "A simple unified framework for detecting out-of-distribution samples and adversarial attacks," Advances in Neural Information Processing Systems, pp. 7167-7177, 2018
  12. G. Tao, S. Ma, Y. Liu, and X. Zhang, "Attacks meet interpretability: Attribute-steered detection of adversarial samples," Advances in Neural Information Processing Systems, pp. 7717-7728, 2018.
  13. B. Liang, H. Li, M. Su, X. Li, W. Shi, and X. Wang, "Detecting adversarial image examples in deep neural networks with adaptive noise reduction," IEEE Transactions on Dependable and Secure Computing, 2018.
  14. U. Hwang, J. Park, H. Jang, S. Yoon, and N. I. Cho, "Puvae: A variational autoencoder to purify adversarial examples," arXiv preprint arXiv:1903.00585, 2019.
  15. J. Rauber, W. Brendel, and M. Bethge, "Foolbox: A python toolbox to benchmark the robustness of machine learning models," arXiv preprint arXiv:1707.04131, 2017.