DOI QR코드

DOI QR Code

Research of a Method of Generating an Adversarial Sample Using Grad-CAM

Grad-CAM을 이용한 적대적 예제 생성 기법 연구

  • Kang, Sehyeok (Dept. of Electrical Engineering, Korea Armay Academy at Yeong-cheon)
  • Received : 2022.03.16
  • Accepted : 2022.06.03
  • Published : 2022.06.30

Abstract

Research in the field of computer vision based on deep learning is being actively conducted. However, deep learning-based models have vulnerabilities in adversarial attacks that increase the model's misclassification rate by applying adversarial perturbation. In particular, in the case of FGSM, it is recognized as one of the effective attack methods because it is simple, fast and has a considerable attack success rate. Meanwhile, as one of the efforts to visualize deep learning models, Grad-CAM enables visual explanation of convolutional neural networks. In this paper, I propose a method to generate adversarial examples with high attack success rate by applying Grad-CAM to FGSM. The method chooses fixels, which are closely related to labels, by using Grad-CAM and add perturbations to the fixels intensively. The proposed method has a higher success rate than the FGSM model in the same perturbation for both targeted and untargeted examples. In addition, unlike FGSM, it has the advantage that the distribution of noise is not uniform, and when the success rate is increased by repeatedly applying noise, the attack is successful with fewer iterations.

Keywords

1. 서론

딥러닝(Deep Learning)[1]은 인공신경망(Artifi-cial Neural Network, ANN)을 기반으로 하여 학습을 수행하는 머신러닝 기법 중 하나로 다양한 분야에서 사용중이다. 특히, 기계의 시각을 담당하는 컴퓨터 비전에서의 활용이 두드러지며, 이미지 또는 비디오 상의 객체 인식[2, 18, 19], 패턴 인식[3]이미지 분류[4] 등 다양한 영역에서 좋은 성능을 보여주고 있다. 대표적인 객체 검출 알고리즘 대회인 ILSVRC에서 2015년에 우승한 ResNet의 경우 모델이 예측한 5개의 정답에 대한 오분류율(Top-5Error)가 3.57% 에 불과할 정도로 정확한 알고리즘이 개발되었다. 뿐만아니라, Inception, FasterRCNN등의 고성능의 모델들이 개발·연구되고 있다.

그러나, 만연해진 딥러닝 기반 알고리즘에도 취약점이 존재한다.적대적 공격(Adversarial Attack)은 딥러닝 기반 분류 모델에 대한 효과적인 공격 방법이다[5]. 적대적 공격은 딥러닝 모델에 적대적 교란 (Adversarial Perturbation)을 적용하여 모델의 오 분류율을 높이는 공격방법이다. 그 중 회피공격(Eva-sion Attack)은 인간이 식별하기 어려운 노이즈를 삽입하여 데이터를 변조시켜 모델의 인식률을 떨어트린다. 이러한 공격방법은 비교적 간단하면서도 치명적인 효과를 가져오는데, 도로교통 표지판에 적대적 샘플을 적용하여 자율주행차의 오판단을 유도하는 연구[6] 등이 대표적인 예이다.

한편, 딥러닝 기반 모델을 이해하려는 노력으로 다양한 연구가 진행되고 있다.Grad-CAM[7]은 합성 곱 신경망을 시각화적인 설명(visual explanation) 을 가능하게 한다.Grad-CAM은 기울기(gradient)를 이용하여 특징 맵(feature map)의 원소가 출력(output class)에 미치는 영향을 도출한다. 최근에는 Grad- CAM을 적용하여 시각적으로 활용하여 탐지의 정확도를 높이는 연구가 진행되었다[8, 9].

본 논문에서는, 적대적 예제(Adversarial Exam-ple) 생성 방법 중 하나인 FGSM(Fast Gradient SignedMethod)[10]의 성능을 높이기 위해 Grad- CAM을 적용하여 적대적 샘플을 생성하는 기법을 제안한다.FGSM은 신속한 적대적 예제 생성 방법으로 이미지에 노이즈를 주입하여 딥러닝 기반 모델의오분류를 유도하며, 한 번의 변조만으로 효과가 있다. 하지만, FGSM은 이미지 전체에 임의의 노이즈를 주입하기 때문에 불필요한 픽셀에도 노이즈를 주입하여 원본 이미지와 전체적인 차이가 불필요하게 커진다. 본 연구에서는 Grad-CAM을 적용하여 라벨값과 연관성이 높은 픽셀을 식별하여 해당 식별에만 노이즈를 주입함으로써 FGSM의 단점을 극복한다. 성능비교를 위해 Animal Image Dataset(DOG, CAT, and PANDA)[11]과 CIFAR10[12]데이터셋을 이용하여 적대적 샘플을 생성하고 공격 성공률과 왜곡 평균을 FGSM모델과 비교한다. 또한, 제안 모델의 공격 성공률을 높이기 위해 반복하여 노이즈를 생성하는 모듈을 제안한다.

본 논문의 구성은 다음과 같다.2장에서는 적대적 샘플과 Grad-CAM을 설명한다.3장에서는 제안 알고리즘의 구성과 방법에 대해서 다룬다. 4장에서는실험 및 평가로 데이터셋, 공격 대상 모델, 적대적 샘플 생성, 실험 결과에 대하여 언급하며, 5장에서는 결론으로 구성된다.

2. 관련 연구

2.1 적대적 공격과 적대적 예제

적대적 공격은 딥러닝 모델의 인공신경망의 취약점을 이용하여 노이즈(Perturbation)를 생성하여 의도적으로 모델에 오분류를 이끌어내는 과정을 의미한다. 적대적 예제는 딥러닝 모델의 오판단을 유도하는 입력값을 의미한다. 적대적 공격은 크게 공격 대상 모델의 정보양에 따른 분류, 공격 목표에 따른 분류로 나눌 수 있다[13].

공격 대상 모델의 정보양에 따른 분류는 화이트 박스 공격과 블랙박스 공격으로 구분된다. 화이트박스 공격은 공격자가 대상 모델에 대한 정보(모델의 구성, 가중치 등)를 알고 있는 상황에서 실시하는 공격으로 공격 성공률이 높다. 반면, 블랙박스 공격은 공격 대상 모델에 대한 정보 없이 실시하는 공격으로 화이트 박스 공격과 비교했을 시 현실적인 공격 방법이다.공격 목표에 따른 분류는 targeted attack 과 untargetted attack이 있다. Targetted attack은공격 대상 모델이 특정한 라벨 값으로 적대적 예제를 분류하도록 유도하는 공격방법이다. 반면, untarget-tedattack은 특정한 클래스 없이 오분류하는 것만을 목적으로 한다. 예를 들면, Fig.3에서 ‘panda’의 이미지를 ‘cat’과 같이 특정 라벨값으로 유도하는 방법은 targetted attack이 되며, ‘panda’ 이외의 다른 어떠한 라벨이어도 상관이 없을 경우 untargetted at-tack으로 구분지을 수 있다. 일반적으로 특정한 라벨값으로 유도하는 것이 상대적으로 더 어렵기 때문에 targetted attack에서 더 큰 왜곡 값을 갖는다.

적대적 예제는 다양한 방법으로 생성할 수 있다. 대표적인 방법은 Deepfool[14], CarliniWagner(CW) [15], FGSM[8]이 있다.FGSM은 Goodfellowet.al (2014)[8]이 제안한 방법으로 신경망의 기울기(grad-ient)를 이용한다.Fig.1은 FGSM으로 생성된 적대적 예제에 대한 예시이다. 원본 이미지는 높은 확률로 “panda”로 분류하는 반면, 노이즈가 추가된 적대적 예제는 높은 확률로 “cat”으로 분류를 한다.FGSM 이 목표를 정하지 않은(untargeted)적대적 예제를 생성하는 공식은 식(1)과 같다. 목표를 정하지 않은 적대적 예제는 오분류할 클래스를 정하지 않고 공격대상 모델이 실제값과 다른 값으로 출력을 분류하는 것만을 목표로 한다. 원본 이미지(x)에 각 픽셀당 작은 perturbation(ε)을 추가하여 이미지를 조작(′)하는데 이때, perturbation(ε)은 픽셀의 기울기의 부호 \(\left(\operatorname{sign}\left(\nabla_{x} j(\theta, x, y)\right)\right)\) 로 더하거나 뺄지가 결정된다. \(\nabla_{x} j\)는 원본 이미지(x)의 픽셀에 대한 공격 대상 모델 손실 함수의 기울기이며, y는 원본 입력 레이블. \(\theta\)는 모델의 파라미터이다. 이를 이용하여 정답 레이블(y) 로부터 예측값이 멀어지는 방향으로 노이즈를 추가한 적대적 예제를 생성한다. 반면, 식 (2)는 목표를 정한(targeted) 적대적 예제 생성식이다.공격 대상 모델이 공격자가 원하는 목표(ytarget)으로 적대적 예제를 분류하도록 하는 방법으로 출력값이 목표 (ytarget)로 수렴하도록 적대적 예제를 생성한다. FGSM은 기본적으로 원본 이미지를 한번만 조작하는 one-step공격 방법이다. 따라서, 생성 속도가 빠르다는 장점이 있지만, 모델에 최적화되기 어렵고 공격 성공률이 낮다는 단점이 있다[16].

Fig. 1. An example of creating an adversarial example. (a) Original image, (b) Noise, and (c) An adver-sarial example.

\(x^{\prime}=x+\epsilon \times \operatorname{sign}\left(\nabla_{x} J(\theta, x, y)\right)\)       (1)

\(x^{\prime}=x-\epsilon \times \operatorname{sign}\left(\nabla_{x} J\left(\theta, x, y_{\text {target }}\right)\right)\)       (2)

본 연구에서는 FGSM의 장점을 극대화하고 단점을 최소화하기 위하여 FGSM을 개선한 모델을 제시하였다.

2.2 Grad-CAM

Grad-CAM은 합성곱 신경망의 시각화 기술의 하나로 CAM(Class Activation Map)의 단점을 보완한 방법이다.CAM, Grad-CAM과 같은 시각화 기술은 약한 지도학습(Weakly supervised learning)으로 입력 데이터에 대해 제공되는 데이터(클래스 또는 라벨)보다 더 정확한 예측(모델이 분류를 하는 근거를 찾는 등)이 필요로 할 때 사용되는 방법으로 입력이 미지의 픽셀이 출력 클래스에 미치는 영향을 분석하기 위하여 사용한다. 기존의 CAM은 GAP(Global Average Pooling)레이어를 이용하기 때문에 GAP 레이어가 합성곱 모델에 반드시 포함이 되어야만 CAM을 도출할 수 있었다. 따라서, GAP을 사용하지 않은 딥러닝 모델에 적용하는 것이 제한된다.

반면, Grad-CAM은 CAM의 단점을 극복하고 GAP 레이어가 없는 모델에도 적용하기 위하여 기울기 (Gradient)를 사용한다. 여기서 기울기는 출력(클래스 또는 라벨)에 대해 입력 데이터가 주는 영향력이라고 할 수 있다.Grad-CAM의 장점은 컨볼루션 층에 제한이 없이 어떤 컨볼루션 층에도 적용이 가능하다는 점이다. Fig.2는 Grad-CAM이 적용된 예시이다. 좌측 사진(a)은 원본 이미지이고, 우측 사진(b)은 원본이 미지에 Grad-CAM이 추가된 값이다. 각 픽셀이 합성곱 신경망이 분류를 하는데 영향을 미친 정도에 따라 다른 색상으로 표시된 것을 알 수 있다. Grad-CAM의 공식은 식(3), (4)와 같다.

Fig. 2. An example of Grad-CAM. (a) An original image and (b) An image added Grad-CAM.

\(L_{\text {Crad }}^{V}-C A M^{(i, j)}=\operatorname{Re} L U\left(\sum_{k} a_{1}^{i} f_{k(i, j)}\right)\)       (3)

\(a_{k}^{y}=\frac{1}{Z} \sum_{i} \sum_{j} \frac{\partial S^{y}}{\partial f_{k}(i, j)}\)        (4)

식(4)에서 fk(i, j)는 합성곱 신경망에서 번째 특징 맵의 값을 의미하고, Sy는 출력 레이어에서 softmax 하기 전의 목표 클래스(y)의 확률값을 의미한다. 따라서, \(a_{k}^{y}\)는 목표 클래스(y)의 평균값을 나타낸다. 따라서, \(a_{k}^{y}\)에 대한 특징 맵이 가지는 중요도라고 할 수 있다. 식 (3)에서는 \(a_{k}^{y}\)에 특징맵을 곱해 특징맵의 각 픽셀들이 목표 클래스(y)에 미치는 중요도를 도출하고 이를 ReLU함수를 적용하여 Grad-CAM을 구한다.

본 논문에서는 Grad-CAM을 이용하여 입력 이미지의 각 픽셀이 목표 클래스(y)에 대한 중요도를 도출하고 이를 적대적 예제를 생성하는데 가중치로 적용하여 더 효과적인 공격이 가능한 적대적 샘플을 생성한다.

3. 제안한 방법

본 논문에서는 적대적 예제 생성 알고리즘 중 하나인 FGSM에 합성곱 신경망의 시각화 기술중 하나인 Grad-CAM을 적용하여 픽셀별로 교란값 적용 가중치를 다르게 하여 효과적인 공격 예제를 생성하는 알고리즘을 제안한다. FGSM은 동일한 perturba- tion(ε)에 sign 함수를 통해 얻어진 기울기(-1 또는 1) 을 곱하여 입력 데이터 전체 픽셀에 적용한다. 따라서 각 픽셀이 영향을 받는 정도는 -ε또는 ε으로 정해진다. 하지만, Grad-CAM을 적용하면, 각 픽셀이클래스(y)를 분류하는데 미치는 중요도는 서로 다르다. 따라서 같은 값의 perturbation(ε)을 모든 픽셀에 적용하는 것은 비효과적이라 할 수 있다.이에 Grad- CAM에서 도출된 중요도를 FGSM에 적용하여 픽셀별로 서로 다른 노이즈가 효과적으로 적용하는 알고리즘을 제안한다. 식(5)는 FGSM에 Grad-CAM이 적용된 목표를 정하지 않은(untargeted)적대적 예제는 클래스(y)에 생성 알고리즘의 식이다. \(l_{g r a d-c a m}^{y}\)는 클래스(y)에 대한 입력 이미지의 Grad-CAM 값으로  \(l_{g r a d-c a m}^{y}\) 값에 따라 perturbation(ε)값은 픽셀별로 서로 다르게 적용된다.

\(x^{\prime}=x+\epsilon \times \operatorname{sign}\left(\nabla_{x} J(\theta, x, y)\right) \times\left(1+L_{G r a d-C A M}^{y}\right)\)       (5)

\(x^{\prime}=x-\epsilon \times \operatorname{sign}\left(\nabla_{x} J\left(\theta, x, y_{\text {target }}\right)\right) \times\left(1+L_{G \text { rad }}^{y}-C A M\right)\)        (6)

식(6)은 FGSM에 Grad-CAM이 적용된 목표를 설정한(targeted) 적대적 예제 생성 알고리즘 수식이다. 정답(y)으로 분류되지 않으면서 원하는 목표으로 분류되게 하기 위해서 \(l_{g r a d-c a m}^{y}\)을 이용하여 정답(y)를 도출하는 데 중요한 픽셀들에 더 강한 노이즈를 가하여 목표(ytarget)으로 분류되는 확률을 높인다.

또한, 본 논문에서는 FGSM의 단점을 보완한 모델을 제시한다.FGSM은 1회성(one-step)으로 적대적 예제를 생성하는데 그친다. 따라서, 공격의 성공률이 JSMA(Jacobian-basedSaliencymapAttack) [17]와 같이 적대적 예제를 반복적으로 생성하여 성공률을 높이는 공격에 비하여 공격 성공률이 떨어진다. 이를 극복하기 위해 생성한 적대적 예제로 공격을 실시하고 공격 실패시 노이즈를 추가하여 반복적으로 예제를 생성하는 알고리즘을 통해 FGSM의 공격 성공률을 높인다. 제안 방법의 구성은 아래 Fig. 3과 같다. 이때, FGSM과 Grad-CAM이 적용된 제안모델과의 반복 횟수의 차이를 비교한다.

Fig. 3. Iterative adversarial example generation algo- rithm.

4. 실험 및 평가

4.1 데이터셋

데이터셋은 CIFAR10[12]과 Kaggle에서 제공하는 Animal Image Dataset(DOG, CAT and PANDA) [11]을 사용하였다.CIFAR10은 일반적으로 컴퓨터 비전 알고리즘의 훈련과 평가를 위해 사용되는 이미지 모음으로 서로 다른 10개의 클래스를 가진 [32× 32]의 크기의 이미지가 클래스별로 6, 000개씩 총 60, 000개의 데이터로 구성된다.Animal ImageDa- taset은 고양이, 강아지, 판다의 이미지가 각각 1, 000 개씩 총 3, 000개의 데이터로 구성되어 있다. 본 실험에서는 각 데이터에서 90%는 훈련 및 검증에 사용하였으며, 10%는 평가를 위해 분리하였다.

4.2 공격 대상 모델

공격 대상이 되는 모델은 딥러닝 기반 모델로 구성되며, 특히 Grad-CAM을 도출하기 위해서 합성 곱 신경망을 가진 모델로 구성하였다. 공격 대상이 되는 모델은 전이학습(TransferLearning)을 통해 이미지넷(Image Net)을 이용하여 기학습된 ResNet50과 MobileNet에 파인튜닝(fine-tuning)을 실시하여 데이터를 분류하는 모델을 구성하였다. 공격 대상 모델의 세부 구조는 아래 Fig.4와 같다.Base-model인 ResNet50(또는 MobileNet)에 GAP레이어를 추가하여 특징 맵이 가지는 특징을 [1×1]로 압축시킨다. 이후, Dense레이어를 통해 입력 데이터를 분류하도록 구성한다. ResNet50을 base-model로 하는 대상 모델은 CIFAR10을 분류하고, MobileNet을 base-model로 하는 모델은 Animal ImageDataset을 분류한다. 각 모델의 세부 파라미터는 학습률은 0.001, 옵티마이저(optimizer)는 ‘Adam’, batch size는 128, epochs는 100으로 설정하였으며, 학습 데이터의 20% 를 검증 데이터로 사용하여 validationloss가 25ep- ochs동안 줄어들지 않으면 조기 종료(early stop- ping)하도록 설정하였다. 학습 결과, CIFAR10은 82.8%, Animal Image는 99.3%의 정확도를 갖는다.

Fig. 4. Structure of the attack target model.

4.3 적대적 예제 생성

제안한 모델에서 Grad-CAM을 생성하기 위해 공격 대상 모델의 합성곱 레이어 중 하나를 선택하고, Grad-CAM을 생성하였다. Fig.5는 적대적 예제를 생성하기 위해 입력 데이터에 따른 노이즈(a)\(\left(\epsilon \times \operatorname{sign}\left(\nabla_{x} j(\theta, x, y)\right)\right.\) 또는 \(\left.\epsilon \times \operatorname{sign}\left(\nabla_{x} j\left(\theta, x, y_{\text {target }}\right)\right)\right)\)와 Grad-CAM(b), 그리고 노이즈와 Grad-CAM을 합성한 노이즈 맵(c)이다. 합성된 노이즈 맵을 원본 이미지에 주입하여 공격을 실시한다.

Fig. 5. Grad-Cam added a noise map. (a) Noise created by FGSM, (b) Grad-CAM, and (c) Noise+Grad-CAM.

본 실험은 공격 방법에 따라 비목표(untargeted) 와 목표(targeted)예제로 나뉜다.비 목표 적대적 예제의 경우, 정답 클래스값과 다른값을 출력하는 것을 목표로 하고, 목표 적대적 예제의 경우 정답 클래스값에서 +1된 클래스를 목표로 하였다. 즉, Animal Image에서 고양이(class0)가 입력되면 강아지(class 1)로 출력하는 것을 목표로 한다.

적대적 예제의 생성은 테스트 데이터 중 공격 대상 모델이 정확하게 분류한 데이터 중 CIFAR10은각 클래스 별 100개씩 1000개를, Animal Image는 각 클래스별 90개씩 270개를 선별하여 생성하였다. 예제 생성시 perturbation(ε)은 0.001, 0.005, 0.01로 설정하여 육안으로 식별이 어려운 범위 내에서 예제가 생성되도록 하였다. 생성된 노이즈 값의 분포는 Fig. 6과 같다.Fig.6의 (a)는 FGSM의 노이즈 값의 분포를 나타낸 것으로 FGSM의 노이즈는 ε 또는 -ε 의 값만을 갖는다. 반면, Fig.6(b)와 같이 제안한 모델이 생성한 노이즈는 다양한 분포를 갖는 것을 알 수 있다. Fig.5의 (a)와 (b)를 살펴보면 육안으로 차이를 알 수 있다. (a)의 경우, 노이즈가 동일하기 때문에 시각적으로도 픽셀별 차이가 크지 않은 것을 알 수 있다. 반면 (b)의 경우 노이즈가 픽셀별로 다르기 때문에 시각적으로도 차이가 발생한다.

Fig. 6. Value distribution of noise. (a) Value distribution of noise generated by FGSM and (b) Value distribution of noise with Grad-Cam added.

4.4 실험결과

생성한 적대적 예제의 공격 성공률, 왜곡 평균은 다음 Table1과 같다. 여기서 왜곡 평균은 한 픽셀의 값이 0~255값을 가질 때, 원본 이미지와 적대적 예제의 한 픽셀에서의 차이를 의미한다. 동일한 per- turbation에서 제안 모델의 공격 성공률이 기존 FGSM 알고리즘 모델의 성공률보다 높다. 제안 모델의 경우 기존 모델의 노이즈에 Grad-CAM에서 도출된 가중치 만큼의 노이즈가 추가되기 때문에 왜곡 평균이 동일 perturbation에서 상대적으로 높다.

Table 1. The performance for proposed algorithm (Targeted and Untargeted).

시각적으로 구분이 가능한지에 대한 여부는 정량적인 평가가 제한되어 정성적인 비교를 위해 생성된 적대적 예제를 Fig.7에 나타낸다. epsilon이 0.02보다 작은 경우에는 육안으로 노이즈를 식별하는 것조차 어려워 비교를 위해 epsilon을 0.02로 설정하고 적대적 예제를 생성하였다. 그럼에도 불구하고 왜곡 평균(Noiseratio)은 제안 모델이 생성한 예제가 더 큼에도 육안으로는 제안 모델이 생성한 예제와 FGSM 기본 모델이 생성한 예제의 차이를 구분하기 어렵다. 따라서, 제안 모델이 생성한 적대적 예제의 성공률이 높을 뿐만 아니라 두 모델이 생성한 적대적 예제를 사람이 구분하기에는 어렵기 때문에 왜곡 평균증가가 갖는 단점보다 성공률이 높아진다는 점에서 유의미하다 할 수 있다.

Fig. 7. Adversarial examples generated by the proposed model and FGSM.

FGSM을 반복적으로 적용하여 공격의 성공률을 높인 공격의 결과는 Table2와 같다. CIFAR10의 경우 테스트 데이터 중 공격 대상 모델이 정확하게 분류한 데이터 중 클래스별 30개씩 총 300개의 데이터를 선별하여 적대적 예제를 생성하였다. 300의 예제가 모두 성공하는데 걸린 반복횟수(Iterations)는 모든 노이즈(perturbation)에서 제안한 모델이 더 적었다. 또한, Animal ImageDataset의 경우 테스트 데이터 300개 중 공격 대상 모델이 정확하게 분류한 298 개의 데이터를 대상으로 적대적 예제를 생성했으며, 마찬가지로 모든 노이즈에서 더 적은 반복 횟수만으로 100% 공격 성공률을 가졌다.

Table 2. The performance for proposed algorithm (Iterative attack).

5. 결론

본 논문에서는 적대적 예제를 생성하는 대표적인 방법 중 하나인 FGSM에 신경망 모델의 시각화 기술중 하나인 Grad-CAM을 적용하여 공격 성공률을 높이는 방법에 대하여 제안하였다. 제안한 방법은 노이즈 맵을 생성하는 과정에서 Grad-CAM을 적용하여 노이즈의 가중치를 픽셀의 중요도에 따라 서로 다르게 부여하였다. 이를 통해, 동일한 perturbation에서 모든 경우에서 Grad-CAM을 통해 가중치를 적용한 모델이 더 높은 공격 성공률을 보였다. 뿐만 아니라, FGSM을 반복 적용하여 공격 성공률을 높일 경우, Grad-CAM을 적용할 시 반복 횟수가 줄어드는 것을 알 수 있다.

왜곡 평균이 증가하는 문제에 대해서는 왜곡 평균이 증가하였지만, Grad-CAM을 적용하여 생성한 적대적 예제와 그렇지 않은 예제의 시각적인 구분이 어려운 것을 확인할 수 있었다. 따라서, 적대적 예제생성을 위해 중요한 요소인 사람 눈에 구별되지 않아야 하는(unnoticeable) 요소 또한 제안한 모델이 생성한 예제와 FGSM이 생성한 예제가 크게 다르지 않다는 것으로써 확인할 수 있다.

따라서 제안 방법은 Grad-CAM을 적용하여 FGSM 보다 공격 성공률이 높은 예제를 생성할 수 있으며, 상대적으로 신속하게 예제 생성이 가능하다. 왜곡 평균이 증가하지만, 시각적으로 두드러진 차이가 발생하지 않기 때문에 사람의 인식률 측면에서도 큰 차이가 없으면서 성공률이 높은 예제를 생성할 수 있다. 뿐만 아니라, 본 모델의 경우 픽셀에 적용되는 노이즈 값이 다르기 때문에 다양한 예제를 생성하여 딥러닝 모델의 강건성을 높이는 데에도 활용할 수 있을 것이다.

References

  1. I.J. Goodfellow, Y. Bengio, and A. Courville, Deep learning, MIT press, 2016.
  2. J. Lee, S. Lee, D. Kim, S. Hong, and S. Yang, "Trends on Object Detection Techniques Based on Deep Learning," Journal of Electronics and Telecommunications Trends, Vol. 33, No. 4, pp. 23-32, 2018.
  3. W. Liu, Z. Wang, X. Liu, N. Zeng, Y. Liu, and F.E. Alssadi, "A Survey of Deep Neural Network Architectures and Their Applications," Neurocomputing, Vol. 234, pp. 11-26, 2017. https://doi.org/10.1016/j.neucom.2016.12.038
  4. P.N. Druzhkov and V.D. Kustikova, "A Survey of Deep Learning Methods and Software Tools for Image Classification and Object Detection," Pattern Recognition and Image Analysis, Vol. 26, No. 1, pp. 9-15, 2016. https://doi.org/10.1134/s1054661816010065
  5. H. Kim, D. Jung, and B. Wook, "Exploiting the Vulnerability of Deep Learning-Based Artificial Intelligence Models in Medical Imaging: Adversarial Attacks," Journal of the Korean Society of Radiology, Vol. 80, No. 2, pp. 259-273, 2019 https://doi.org/10.3348/jksr.2019.80.2.259
  6. K. Eykholt, I. Evtimov, E. Fernandes, B. Li, A. Rahmati, C. Xiao, et al., "Robust Physical-World Attacks on Deep Learning Models," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1625-1634, 2018.
  7. R.R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, et al., "Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization," Proceeding of the IEEE International Conference on Computer Vision, pp. 168-626, 2017.
  8. D. No and T. Kim, "Fingertip Detection through Atrous Convolution and Grad-CAM," Journal of the Korea Computer Graphics Society, Vol. 25, No. 5, pp. 11-20, 2019.
  9. Y. Kim and E. Kim, "Real-Time Fire Detection based on CNN and Grad-CAM," Journal of the Korea Institute of Information and Communication Engineering, Vol. 22, No. 12, pp. 1596-1603, 2018. https://doi.org/10.6109/JKIICE.2018.22.12.1596
  10. I.J. Goodfellow, J. Shlens, and C. Szegedy, "Explaining and Harnessing Adversarial Examples," arXiv preprint, arXiv:1412.6572, 2014.
  11. Animal Image Dataset(DOG, CAT, and PANDA), https://www.kaggle.com/ashishsaxena2209/animal-image-datasetdog-cat-and-panda (accessed March 14, 2022).
  12. The CIFAR-10 Dataset, https://www.cs.toronto.edu/~kriz/cifar.html (accessed March 14, 2022).
  13. H. Kwon and Y. Kim, "Adversarial Example Technology Trends for Deep Learning Models," Review of Korea Institute of Information Security and Cryptology, Vol. 31, No. 2, pp. 5-12, 2021.
  14. M. Dezfooli, S. Mohsen, A. Fawzi, and P. Frossard, "DeepFool: a Simple and Accurate Method to Fool Deep Neural Networks," Proceeding of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2574-2582, 2016.
  15. N. Carlini and D. Wagner, "Towards Evaluating the Robustness of Neural Networks," IEEE Symposiumon Security and Privacy, pp. 39-57. 2017.
  16. H. Kwon, S. Park, and Y. Kim, "Rapid Misclassification Sample Generation Attack on Deep Neural Network," Journal of Convertgence Security, Vol. 20, No. 2, pp. 111-122, 2020.
  17. R. Wiyatno and A. Xu, "Maximal Jacobianbased Saliency Map Attack," arXiv preprint, arXiv:1808.07945, 2018.
  18. J.Y. Kim, S.H. Jung, and C.B. Sim, "A Study on Object Detection using Restructured Retina Net," Journal of Korea Multimedia Society, Vol. 23, No. 12 pp. 1531-1539, 2020 https://doi.org/10.9717/KMMS.2020.23.12.1531
  19. H. Ahn, S. Son, S. Yu, Y. Suh, J. Son, S. Lee, Y. Chung, and D. Park, "Accurate Pig Detection for Video Monitoring Environment," Journal of Korea Multimedia Society, Vol. 24, No. 7, pp. 890-902, 2021. https://doi.org/10.9717/KMMS.2021.24.7.890