DOI QR코드

DOI QR Code

Reverse-Update Adversarial Data for Enhancing Adversarial Attack and Adversarial Training Performance

적대적 공격 및 방어 기술의 성능 향상을 위한 역방향 적대적 데이터 생성 연구

  • Received : 2024.07.24
  • Accepted : 2024.09.04
  • Published : 2024.10.31

Abstract

Adversarial attacks, which induce malfunctions in AI technologies, can be applied to various domains and models, easily compromising SOTA (State-of-the-Art) models. Although adversarial defense techniques have been developed to counter these attacks, their applicability is limited due to constraints. Consequently, not only is the adoption of AI technology delayed, but also advanced research is restricted. To address this issue, this paper introduces a novel concept of adversarial data by reversing the sign of the loss function update in adversarial attacks. Experiments were conducted by applying the reverse-update adversarial data to data poisoning and adversarial training environments, showing that it can reduce the model's performance up to 72% and is most effective in enhancing robustness in 6 out of 9 environments. Ultimately, the proposed data can stimulate extensive research on adversarial attacks and defenses, further promoting the advancement of defense technology and contributing to the safe adoption of AI.

인공지능 기술의 오작동을 유도하는 적대적 공격은 다양한 도메인과 모델에 적용 가능하며, 성능이 높은 SOTA(State-of-the-Art) 모델의 성능도 손쉽게 저해 시킬 수 있다. 이에 대처하기 위해 적대적 방어 기술들이 개발되고 있지만, 명확한 한계점으로 인해 활용이 제한된다. 그 결과, 특정 분야에서 인공지능 기술의 도입 뿐만 아니라 고도화 연구도 지체되고 있다. 해당 문제를 해결하기 위해, 본 논문에서는 적대적 공격의 손실 함수 업데이트 방향의 부호를 바꿔 새로운 개념의 적대적 데이터를 소개한다. 본 연구에서 소개한 역방향 적대적 데이터를 데이터 오염 및 적대적 훈련 환경에 적용하여 실험을 진행한 결과, 모델의 성능을 최대 72% 낮추고 9개 환경 중 6개 환경에서 강건성 향상에 가장 효율적임을 입증했다. 결과적으로, 제시한 적대적 데이터는 적대적 공격과 방어 기술의 연구 확장을 유도할 수 있으며, 더 나아가 방어 기술 개발의 고도화를 촉진할 수 있어 AI의 안전한 도입에 기여한다.

Keywords

I. 서론

적대적 공격은 정교하게 생성된 섭동을 원본 데이터에 의도적으로 삽입하여 인공지능 기반 기술들의 오작동을 유도하는 공격으로, 이미지, 텍스트, 음성 등 다양한 종류의 데이터에 적용 가능하다. 공격자는 공격이 적용된 데이터들을 새로운 데이터를 지속적으로 학습하는 지속 학습 환경에 노출시켜 모델의 성능을 장기적으로 악화 시키는 것을 목적으로 삼아 문제가 되고 있다. 그 결과, 자율주행 자동차가 보행자를 도로로 오인식하고, 네트워크 공격을 정상 네트워크 트래픽으로 오분류하거나, 의료 보험 사기 피해로 이어질 수 있다[1]. 이렇게 적대적 공격으로 인한 오작동은 의료, 금융, 보안 등 실수가 치명적인 피해로 직결되는 도메인에 AI 기술의 도입을 늦추고 있다.

위와 같이 적대적 공격으로 인해 발생하는 문제를 해결하기 위해서 다양한 적대적 방어 기술들이 개발되고 있다. 이러한 적대적 방어 기술의 예시는 증류(distillation) 모델을 활용해서 학습된 모델의 추론 결과를 레이블로 활용하거나, 적대적 공격 데이터를 지속 학습에 활용하거나, 입력값에 마스킹을 취해 섭동을 줄이는 방식 등이 있다. 그러나 해당 방어 기법들은 강건성이 증가함에 따라 성능이 낮아지거나, 근본적으로 적대적 공격을 제대로 막지 못하는 치명적인 한계점이 있어서 활용이 제한된다[2].

이렇게 적대적 방어 기술에 비해 적대적 공격 기술이 우수하기 때문에 적대적 방어는 당면한 공격 기법들에 대응하기 급급하여 인공지능 기술의 오작동을 저지하기 힘든 상황이며, 이에 따라 더 강한 적대적 공격에 대한 연구 필요성이 희석되어 공격 기법의 연구 속도 또한 더뎌지고 있다. 이에, 본 논문에서는 적대적 공격 및 방어 기술 연구의 고도화를 위해 새로운 개념의 적대적 데이터인 역방향 적대적 데이터를 제시하고, 해당 데이터로 적대적 공격 뿐만 아니라 방어 측면에서도 기존 기술들을 강화할 수 있음을 실험을 통해 입증한다. 그 결과, 공격 기법의 새로운 연구 방향을 제시하고, 방어 기법의 한계를 뛰어넘는 방법론을 제시함과 동시에, 공격 기술의 강화로 인해 더 강한 방어 기법이 연구되는 선순환으로 작은 공격에도 오작동이 발생하는 인공지능 기술의 취약성을 극복하도록 유도한다.

본 논문의 기여는 다음과 같다.

1. 역방향 데이터라는 새로운 적대적 데이터의 개념을 제시한다.

2. 실험을 통해 적대적 공격 및 방어 상황에서 역방향 데이터의 우수성을 입증한다.

3. 역방향 데이터를 활용한 새로운 공격 및 방어 기술의 개발 방향을 제시한다.

II. 배경

2.1 지속 학습

지속 학습은 훈련 데이터가 순차적으로 제공되는 환경에서 모델을 점진적으로 학습시키는 방법론으로, 사전에 학습된 모델을 활용하기 때문에 기존에 학습했던 데이터에 대한 접근 권한이 없어도 훈련이 가능하다는 특징이 있다. 해당 학습 방법은 처음부터 새롭게 학습 시킬 필요가 없어서 연산 리소스가 적게 소모된다는 것이 장점이다. 그래서 데이터 분포가 변하는 상황, 혹은 대규모 데이터를 큰 사이즈의 모델에 최적화 시킬 때 유용한 학습 방법으로, 대규모 생성형 모델의 업데이트에 활용되고 있다.

이런 지속 학습 방법론은 재현(replay), 구조(architecture), 대표(representation), 최적화(optimization), 정규화(regularization), 다섯가지로 나뉜다. 재현 지속 학습은 기존 학습 데이터의 샘플을 최적화 단계에서 재활용하는 방법으로, 망각 효과를 감소시키기 위해 기존 데이터의 특징 정보를 학습에 재활용하거나 버퍼에 기존 데이터 정보를 삽입하는 등의 연구가 있다[3, 4]. 구조 지속 학습은 학습되는 네트워크 구조를 적절히변형하여 필요한 부분만 학습하는 방법으로, 독립적인 파라미터를 가지는 구조의 모델을 추가하여 각 데이터 정보를 따로 추론하는 연구가 있다[5, 6]. 대표 지속 학습은 변하는 상황에 대해서 강건한 특징 정보만 학습하는 방법으로, 각 데이터 버전에 특화된 특징 정보가 아닌 도메인 전체에 일반화된 특징 정보를 학습에 이용하는 연구들이 대표적이다[7, 8]. 최적화 지속 학습은 기본 특징 정보에 도움이 될 수 있는 방향으로 최적화를 진행하는 방법으로, 일반화와 기울기 사영 등을 활용해 최적화 과정 및 구조를 고도화하는 것을 연구한다[9, 10]. 정규화 지속 학습은 학습 시 정규화를 통해 학습 안정성을 개선하는 방법으로, 기존 데이터와 새로운 데이터 간의 균형을 맞추기 위한 연구로 구성된다[11, 12].

지속 학습 방법론의 연구를 통해, 상황에 알맞은 지속 학습 기법을 활용한다면 딥러닝모델이 순차적인 입력 데이터에 대해 성능을 유지할 수 있다. 그러나 대다수의 연구는 지속 학습이 성능에 미치는 영향에 관해서 연구하며, 강건성에 미치는 영향이나 데이터 오염 공격으로 인한 변화에 관한 연구가 부족해서 어떤 위협이 있는지 모른다는 한계점이 존재한다.

2.2 적대적 공격

적대적 공격은 딥러닝 모델의 가중치와 같은 내부 정보를 활용해 적대적인 섭동을 생성하여 모델의 오작동을 유도하는 공격을 말한다. 처음으로 적대적 공격을 제시한 논문은 Ian Goodfellow가 제시한 FGSM[13]으로, 기울기 정보를 활용해 손실 값을 증가시키는 방향으로 입력을 업데이트시키는 공격이다. 해당 공격을 기점으로 다양한 심화 공격들이 개발되었는데, 그 예시로 FGSM을 반복하여 강화한 BIM 공격[14], 기울기 사영을 통해 FGSM을 반복한 PGD 공격[15], 손실 함수의 변형을 통해 최적화 방식으로 공격을 풀어낸 CW 공격[16] 등이 존재한다.

이러한 적대적 공격은 사람이 인지할 수 없을 만큼의 작은 섭동을 취하는 것을 전제로 하기 때문에, 원본 이미지와 얼마나 차이가 있는지 노름을 기반으로 거리를 측정하여 은밀한 정도를 판단한다. 또한, 해당 섭동을 통해 모델이 얼마나 쉽게 오작동하는지, 오작동할 때의 손실 값이 얼마나 작은지를 통해 공격의 강도를 측정한다. 또한, 공격자가 접근할 수 있는 권한, 공격 대상 레이블의 유무에 따라 블랙박스와 화이트박스, 표적(target) 공격과 비표적 (untargeted) 공격으로 나눌 수 있다. 적대적 공격의 특징이자 가장 큰 문제는 SOTA 및 최신 모델들에도 오작동을 유도할 수 있다는 것이다. 그러나 해당 공격들은 단순 오작동에만 초점이 맞춰져 지속적으로 모델의 성능을 낮추는 데에는 효과적인지 검증된 바가 없어서 공격으로서의 활용도가 제한된다는 한계점이 존재한다.

2.3 적대적 방어

적대적 공격으로 인한 딥러닝 모델의 오작동을 방어하기 위해 다양한 적대적 방어 기술이 등장했다. 이러한 적대적 방어 기술은 크게 새로운 구조의 모델을 활용하거나, 마스킹을 통해 입력 데이터에 대한 주요 정보를 숨기거나, 훈련 데이터로 활용하는 것으로 나뉜다. 첫 번째 방어 기법은, 새로운 구조의 모델로 기존 모델의 가중치 정보를 가리거나 학습 결과에 대한 차별점을 제공하여 기존의 공격을 무효화하는 방법으로 대표적인 예시는 모델 내부 정보의 증류를 활용한 방어 (defensive distillation)[17]이다. 마스킹을 통한 방어 기법은 입력된 데이터에 마스킹을 적용하여 적대적인 섭동을 일부 지워내거나, 모델의 내부 값에 대한 마스킹을 진행하여 적대적 공격을 위한 연산 과정에 혼란을 주는 기법으로, 대표적인 예시는 GAN을 활용하여 입력 데이터의 정보를 지우는 Defense-GAN[18]이다. 훈련 데이터로 활용하는 방어 기법은, 적대적 데이터를 생성하여 학습 과정에서 정상 데이터와 함께 활용하는 것으로, 처음으로 FGSM 공격 제시 논문에서 다뤄진다[13].

위와 같이 다양한 적대적 방어 기술들이 소개되었지만, 이들의 한계점이 명확하여 활용이 제한된다. 마스킹을 통한 방어 기법은 출력값에도 영향을 미치게 되어 모델의 성능이 낮아질 수 있으며, 강한 공격에는 방어가 제대로 작용하지 않는다는 한계가 있다. 새로운 구조의 모델을 활용한 방어 기법은 방어 기법으로서 제대로 작용하지 않는다고 밝혀진사례도 있으며, 추가적인 구조의 모델에 대한 정보가 유출되면 방어 기법으로서 효력이 약해진다. 본 연구에서 활용하는 적대적 훈련의 경우, 가장 널리 활용되지만 성능과 강건성 사이의 트레이드 오프가 발생한다는 치명적인 한계점이 있다. 인공지능 기술의 고도화와 적용을 위해서는 이러한 방어 기술들의 한계를 극복하여, 새로운 적대적 공격에도 강건하게 작용할 수 있는 적대적 방어 기술이 필요하다.

III. 방법론

본 연구는 이미지 분류 모델 대상으로 진행되며, 자주 활용되는 최적화 지속 학습 기법중 하나인 새로운 입력 데이터에 대해 작은 수치의 학습률로 재학습하는 환경에서 실험이 진행된다. 해당 환경에서 공격자가 특정 개수의 악의적 데이터를 삽입하여 모델의 성능을 오염시키는 공격을 시도하거나, 방어자가 악의적 데이터를 훈련 데이터로 활용하여 적대적 훈련을 실행하는 상황을 가정하고 본 연구에서 새롭게 제시하는 역방향 데이터의 활용성에 대한 성능 평가를 실시한다.

3.1 역방향 적대적 데이터의 정의

본 연구에서 제시하는 역방향 적대적 데이터는 모델에 대한 데이터의 신로도와 레이블 값이 데이터 오염 공격 및 지속 학습에 어떠한 영향을 미치는지 확인하기 위한 실험 과정에서 고안한 방법론으로, 역방향 적대적 데이터의 정의는 기존의 표적 공격에 대한 공식을 비표적 공격처럼 원본 레이블에 대해 적용하여 생성한 데이터를 의미한다. 적대적 공격을 통해 생성된 역방향 적대적 이미지와 노이즈에 대한 수식은 아래 수식(1)과 같다.

AdvImage = Image - ∊*image.grad.sign()

δ = ∊*sign(∇xL(θ, x, yOriginalLabel))       (1)

아래 수식(2)는 위에서부터 기존의 비표적 적대적 공격에 대한 이미지 생성과 노이즈에 대한 수식, 표적 적대적 공격에 대한 이미지 생성과 노이즈에 대한 수식을 나타낸다.

수식(1)과 수식(2)의 비교를 통해, 본 연구에서 제시하는 역방향 적대적 이미지 생성 수식은 표적 공격과 동일하나, 노이즈를 생성하는 수식은 비표적 공격과 동일하게 원본 레이블을 활용한다. 해당 연구에서 대조군으로 활용하는 순방향 데이터란, 기존의 비표적 공격으로 생성된 적대적 데이터를 의미한다.

AdvImage = Image - ∊*image.grad.sign()

δ = ∊*sign(∇xL(θ, x, yOriginalLabel))

AdvImage = Image - ∊*image.grad.sign()

δ = ∊*sign(∇xL(θ, x, yTargetLabel))      (2)

역방향 데이터 생성 과정에서 공격 강도를 나타내는 엡실론 수치가 낮을 때는 기존 정답 레이블의 신뢰도(confidence)를 높여주는 역할을 하지만, 수치가 커진다면 특징 영역에서 분류 경계선을 넘어가서 레이블이 바뀌어 적대적 예제로 활용될 수 있다. 이러한 역방향 데이터를 생성할 때는, 이미지의 변화 수치인 노름이 0.3이 초과되지 않게, 그리고 픽셀 값이 0과 1 사이를 넘어가지 않게 하는 이중 클램핑(clamping)을 진행한다.

3.2 실험 데이터 및 평가 방법에 대한 정의

본 연구에서는 비표적 공격만 진행하며, 앞선 정의에 따라 기존의 적대적 공격으로 생성한 적대적 데이터를 순방향 (direct) 데이터, 본 연구에서 제시하는 방법론으로 생성한 적대적 데이터를 역방향 데이터(reverse)로 정의한다.

이에 더해, 생성된 적대적 데이터를 오버(over)와 언오버(unover)로 한번 더 분류한다. 오버는 적대적 변형으로 인해 레이블 값이 변한 적대적 공격 샘플을 지칭하고, 언오버는 적대적 변형을 가했지만 레이블은 그대로 인 데이터를 의미한다. 이러한 4종류의 데이터들의 차이는 Fig. 1.에서 살펴볼 수 있다.

JBBHCB_2024_v34n5_981_4_f0001.png 이미지

Fig. 1. Definition of Each Data

거리(distance)의 경우 초기 이미지와 변형된 이미지 사이의 거리를 L2 Norm으로 측정하여 이미지의 변형 정도를 파악하고, 신뢰도는 언오버 데이터의 경우 정답 레이블에 대한 신뢰도, 오버의 경우 모델의 추론 레이블에 대한 신뢰도, 즉 가장 높은 신뢰도를 지닌 레이블에 대한 손실값(loss) 수치를 나타낸다.

적대적 공격에 대한 강건성 검증은 일정 강도의 순방향 적대적 데이터를 생성하여 모델에 입력했을 때, 얼마나 원본 레이블대로 잘 추론하는지 비율을 확인해 이를 토대로 강건성을 측정한다.

3.3 역방향 적대적 데이터에 대한 논의

Fig. 1.에서 살펴볼 수 있듯, 순방향 데이터는 레이블에 대한 손실 값을 늘리는 방향으로 업데이트되는 데이터이며, 반대로 역방향은 분류 경계선(classification boundary)의 중심 방향으로 업데이트되는 데이터를 말한다. 오버 데이터가 발생하는 이유는 한 번의 업데이트로 적대적 데이터를 생성하기 때문에 변화 수치가 분류 경계선을 넘으면 발생한다. 그렇기에 분류 경계의 중앙에 가장 근접한 데이터는 역방향 언오버이며, 가장 먼 데이터는 역방향 오버와 순방향 오버 순이다.

해당 데이터들의 차이는 얼마나 분류 경계선과 밀접한지에 따라 서로 다른 의미를 지닌다. 이에 따라, 가까운 언오버 데이터로 모델을 학습시켰을 때, 2차원적인 특징 공간에서 이론적으로 분류 경계선에 더 가깝게 분포한 데이터들을 학습시키는 것이기 때문에 단일 클래스에 대해 해당 데이터로 학습시키게 된다면 분류 경계선이 축소될 것이다. 마찬가지로, 먼 오버 데이터로 단일 클래스에 대해 모델을 학습시키면 분류 경계선이 확장될 것으로 예상된다.

그러나 본 연구에서는 단일 레이블에 대한 학습을 진행하지 않고 모든 종류의 레이블에 대해 동시에 훈련 시키기 때문에 각 레이블의 분류 경계선이 단순히 확장 및 축소되지 않고 다양한 분포의 특징 정보를 수용하여 적합한 위치로 조정될 것으로 추론된다. 그 결과, 더 일반화된 분류 경계선을 찾도록 학습되어 일반화(generalization)에 도움이 될 것으로 예측된다.

3.4 실험 설계

본 실험에서 활용하는 적대적 데이터를 생성하는 과정은 다음과 같다. 정답 레이블로 올바르게 분류된 2,000개의 데이터를 대상으로 3가지 강도의 엡실론 0.1/255, 0.5/255, 1.0/255으로 각각 순방향과 역방향 공격을 진행하고, 레이블이 변형되었는지 여부를 통해 오버와 언오버로 분류하여 4가지 종류의 데이터를 수집한다. 학습 과정에서는 데이터의 불균형을 최소화하기 위해 생성된 데이터 중 10개를 랜덤 샘플링하여 학습에 활용한다. 이때, 10개보다 적은 데이터 항목이 있다면 이는 전부 활용한다.

본 연구에서는 위에서 수집한 4가지 종류의 적대적 데이터들의 활용성을 비교하는 실험을 진행한다. 이에 따라 4종류의 적대적 데이터를 지속 학습 환경의 이미지 분류 모델에 입력하여 1에폭 학습시켜 정확성 및 강건성의 변화를 측정해 모델의 성능에 어떤 영향을 미치는지 분석한다. 정확성 변화 측정시에는 지속 학습 대상 공격으로 설정하여 기존 공격 환경인 악의적 데이터만을 학습에 활용하고, 강건성 변화 측정시에는 적대적 훈련 상황으로 설정하여 기존 적대적 방어 환경처럼 악의적 데이터와 정상 데이터를 각각 10, 100개 섞어서 학습한 후 0.1/255, 0.5/255, 1.0/255 엡실론 크기로 생성된 순방향 데이터들로 적대적 강건성을 측정한다. 또한, 생성된 적대적 데이터들의 픽셀간 L2 Norm 거리, 추론에 대한 신뢰도를 통해 각 데이터들의 특성을 분석한다.

이후, 성능 차이가 가장 적은 환경을 하나 선별하여, 강건성 측정 환경과 동일하게 악의적 데이터와 정상 데이터를 섞어서 5에폭 동안 지속 학습 모델에 입력하여 업데이트 하는 과정을 거쳐 성능과 강건성의 변화를 더 세부적으로 살펴본다. 마지막으로, 악의적 데이터로 학습된 모델에 대한 검증 데이터의 분포를 T-SNE 기법으로 시각화하여 데이터의 특징 분포에 대한 변화를 추가적으로 분석한다.

실험은 화이트 박스 환경에서 학습 데이터셋 CIFAR10으로 진행되고, 모델은 검증 데이터 대상 정확도 0.9413인 사전 학습된 VGG13을 활용한다. 성능과 강건성 실험에서 학습률은 0.01로 정의하나, 5회 반복 실험에서는 0.001로 실험한다.

IV. 실험 결과

4.1 적대적 데이터들의 특징 분석

생성된 4종류의 적대적 데이터의 원본 데이터와의 거리는 Table 1.에서 살펴볼 수 있다. 동일한 엡실론 크기로 생성한 적대적 데이터들은 역방향, 순방향, 오버, 언오버와 무관하게 원본과 비슷한 거리를 가진 것으로 나타났다. 결국, 클램핑이 과하게 진행될정도로 이미지가 변하지 않았으며 엡실론의 크기와 변한 양은 정비례한다.

Table 1. L2 Distance of Each Data

JBBHCB_2024_v34n5_981_5_t0001.png 이미지

신뢰도의 경우, Table 2.에서 결과를 확인할 수 있다. 순방향의 경우 공격 강도가 강해질수록 오버 상황에서는 신뢰도가 증가하지만, 언오버 상황에서는 점차 작아지는 것을 확인할 수 있다. 역방향의 경우 공격 강도가 강해질 수록 오버 상황에서 신뢰도가 낮아지지만, 언오버의 경우 증가하는 경향을 나타낸다. 이는 실험의 초기 가정인 역방향으로 강하게 업데이트 할수록 신뢰도가 높아지다가 분류 경계선을 넘어서 오분류를 유도하게 된다는 가설을 뒷받침해준다.

Table 2. Confidence of Each Data

JBBHCB_2024_v34n5_981_5_t0002.png 이미지

또한, 오버 데이터를 비교했을 때, 역방향이 더 낮은 신뢰도를 보이고, 언오버 데이터에서는 역방향이 신뢰도가 더 높아서 역방향 데이터의 신뢰도가 편차가 큰 것을 알 수 있다. 이를 통해 역방향에서의 신뢰도 값은 양극단에 위치하며 신뢰도를 조정할 때 순방향보다 역방향이 용이하다는 것을 입증한다.

4.2 정확성과 강건성에 미치는 영향

4종류의 데이터가 지속 학습에 활용될 경우 성능의 변화는 Table 3.에서, 강건성의 변화는 Table 4.에서 살펴볼 수 있다. 오버 데이터의 경우, 레이블이 바뀐 데이터이기 때문에 모델에 학습 시켰을 때, 모델의 성능을 낮추는 포이즈닝(poisoning) 데이터로 작용하게 된다. 이때, 순방향 오버를 1에폭 학습 시켰을 때와 역방향 오버를 1에폭 학습 시켰을 때를 비교하면, 공격자의 관점에서 역방향 오버가 훨씬 강력한 활용성을 보이는 것을 확인할 수 있다. 역방향의 경우 최대 72%의 정확성 감소를 볼 수 있지만, 순방향의 경우 최대 10% 내외의 정확성 감소를 볼 수 있다. 또한, 정확성 감소 뿐만 아니라, 강건성 측면에서도 확인해 봤을 때 유의미하게 감소한 것을 확인할 수 있는데, 이 상황에서도 역방향 오버가 순방향 오버보다 더 높은 강건성 감소를 나타낸다. 순방향오버의 경우 최대 7.9%의 강건성 감소를 이뤘다면, 동일 환경에서 역방향 오버는 1.5%의 강건성 감소를 이뤘다. 즉, 공격자의 입장에서 강건성과 성능을 둘 중 하나라도 목표로 공격을 진행하려고 할 때, 기존의 공격인 순방향보다는 역방향이 더 효과적임을 알 수 있다.

Table 3. Impact on Accuracy

JBBHCB_2024_v34n5_981_6_t0001.png 이미지

Table 4. Impact of Robustness

JBBHCB_2024_v34n5_981_6_t0002.png 이미지

언오버 데이터의 경우 학습하게 되면, 특정 레이블에 대한 폭 넓은 분포의 데이터를 학습시킬 수 있어서 적대적 학습과 동일한 효과를 내게 된다. 그래서 이는 기존의 적대적 학습(adversarial training)처럼 성능의 감소와 함께 강건성의 증가가 일어나는 성능-강건성 트레이드 오프 현상이 발생한다. 더 세부적으로 살펴보면, 강건성 강화 실험에서 역방향 언오버가 9가지 상황 중 6개의 상황에서가장 강건성이 높게 나왔으며, 그에 반해 순방향 언오버는 2개의 상황에서 가장 강건함을 보였다. 이는 방어자의 입장에서, 적대적 학습을 진행하게 되면 순방향 데이터를 활용하기보다는 역방향으로 생성한 적대적 데이터를 적대적 학습에 활용하는 것이 더 효과적임을 입증한다.

학습 후, 정확성 측정 상황에서는 적대적 데이터 생성 시 강도를 조절하는 엡실론 수치가 일정한 변화를 발생시키지 않지만, 강건성 검증 시 활용하는 적대적 데이터의 생성 강도는 높아질수록 강건성이 낮게 나오는 것이 보인다. 이는 적대적 데이터의 생성 방식을 생각해 보면 이론에 부합하는 현상이다. 그러나 강건성 검증을 위한 적대적 훈련 데이터 생성 강도는 0.1에서 0.5로 증가할 때 하강하는 추세를 보이나, 0.5에서 1로 증가할 때는 다시 상승하는 추세를 보여 강건성 강화에 적합한 공격 강도가 있을 것으로추정된다.

4.3 학습 횟수의 증가가 미치는 영향

가장 성능의 차이가 미약한 적대적 훈련 데이터 생성 및 강건성 검증 데이터 생성 시 엡실론 0.5인 환경에서 5회 학습을 반복하여 각 이터레이션(iteration) 마다의 정확성과 강건성 변화는 Table 5.에서 살펴볼 수 있다. 이때, 강건성 측정 실험과 동일하게 정상 데이터와 적대적 데이터를 1:10 비율로 혼합한 서로 다른 데이터들에 대해 반복 실험한 것이다.

Table 5. Changes of Accuracy and Robustness

JBBHCB_2024_v34n5_981_7_t0001.png 이미지

실험 결과, 정상 데이터만을 지속 학습에 활용한 디폴트(default)에 비해, 적대적 데이터를 활용한 환경은 대체로 강건성이 향상된 것을 확인할 수 있다. 오버 데이터를 활용한 경우보다 언오버를 활용한 경우, 강건성이 전반적으로 향상된 것을 확인할 수 있으며, 오버 중에서 특히 역방향 오버는 성능까지 유의미하게 감소한 것을 확인할 수 있다. 언오버를 활용한 상황에서는, 역방향 언오버가 순방향 언오버보다 강건성 및 정확성 모든 측면에서 전반적으로 우수한 성능을 기록했다.

모든 상황에서 일정하게 감소 및 증가하는 추세를 보이는 지표는 없지만, 더 많은 반복을 진행하게 된다면 역방향 오버는 성능 및 강건성이 점진적으로 더 저하되고, 순방향 오버는 성능과 강건성이 유지될 것으로 추정된다. 순방향 언오버와 역방향 언오버를 비교할 경우, 순방향 언오버는 강건성은 유지되나 성능은 낮아질 것으로 예측되는 것에 반해, 역방향 언오버의 경우 강건성은 증가하고 성능도 유지될 것으로 보여진다. 이를 통해 순방향 언오버보다, 본 논문에서 제시하는 역방향 언오버를 활용하는 것이 적대적 훈련 상황에서 성능-강건성 트레이드 오프를 줄이는데 효과적임을 입증한다. 결과적으로, 본 연구에서 제시하는 역방향 데이터 중 언오버는 기존 적대적 학습의 문제점을 완화하며 오버는 유용한 데이터 오염 공격임을 증명한다.

4.4 T-SNE 시각화 및 밀집도 분석

5회 반복 학습 실험 환경과 동일한 엡실론 수치로 생성한 4종류의 적대적 데이터들만 지속 학습 모델에 훈련 시켜 각 모델들을 대상으로 검증 데이터의 분포를 T-SNE로 시각화한 결과는 Fig. 3.과 Fig. 4.와 같다. 이에 반해 원본 모델에 대한 검증 데이터의 분포는 Fig. 2.와 같다. 또한, 위에서 시각화한 분포에 대한 밀집도 수치는 Table 6.에서 확인할 수 있다.

JBBHCB_2024_v34n5_981_7_f0001.png 이미지

Fig. 2. Visualization of Test Data from Default Model

JBBHCB_2024_v34n5_981_7_f0002.png 이미지

Fig. 3. Visualization of Test Data from Models Trained with Direct Over (Left) and Unover (Right)

JBBHCB_2024_v34n5_981_8_f0001.png 이미지

Fig. 4. Visualization of Test Data from Models Trained with Reverse-Update Over (Left) and Unover (Right)

Table 6. Density of Each Class (Unit:1e-6)

JBBHCB_2024_v34n5_981_8_t0001.png 이미지

순방향 데이터로 지속 학습했을 경우, 검증 데이터의 밀집도가 디폴트에 비해 최소 0.1배, 최대 0.8배까지 차이 나지만, 역방향 오버로 지속 학습한 경우 평균 0.08배, 최소 0.04배까지 차이나는 것을 확인할 수 있다. 이를 통해 역방향 오버로 학습하게 될 경우 효과적으로 밀집도를 떨어뜨려 모델의 성능을 우수하게 교란시킴을 확인할 수 있다. 언오버는 분류 경계를 넘지 않게 학습이 되기 때문에 오버에 비해 밀집되는 것이 일반적이며, 역방향의 경우 변화의 값이 더 다양하므로 순방향보다 밀집도가 낮은 것으로 추측된다. 그러나 놀라운 점은 악의적 데이터로만 학습했음에도 불구하고 역방향 언오버로 지속 학습한 모델의 검증 데이터 밀집도가 디폴트 모델의 밀집도와 매우 유사하다는 것이다. 이는 악의적으로 변형된 데이터임에도 학습 시 성능을 유지할 수 있을 만큼 좋은 특징 값을 가지는 데이터임을 증명하는 것이다.

T-SNE 그림을 살펴보면, 오버로 학습한 모델의 검증 데이터 분포는 무질서하게 출력되는데, 이때 순방향보다 역방향에서 훨씬 더 랜덤한 분포를 보이는 것을 확인할 수 있다. 이를 통해 역방향 오버는 순방향 오버를 포함한 타 데이터보다 훨씬 더 공격에 용이하다는 것을 입증한다. 또한, 순방향 언오버로 학습한 모델의 검증 데이터 분포는 제대로 학습된 모델의 분포라고 판단하기 어렵지만, 역방향 언오버에 대한 검증 데이터 분포는 원본 분포와 유사한 구조를 지니며 각 레이블에 대한 분류 경계선을 잘 구성한것을 확인할 수 있어 순방향 언오버에 비해 역방향 언오버는 모델의 판단 능력을 저해시키지 않는다고 할 수 있다. 이를 통해 군집을 와해시키거나 밀집시키는 것도 기존 순방향 방법론에 비해 역방향이 효과적임을 증명한다.

V. 논의

기존 적대적 공격은 단순 오작동을 목적으로 설계돼 모델의 성능을 지속적으로 악화시키는데 효과적인지 입증이 되지 않았으며, 가장 많이 활용되는 적대적 훈련의 경우 성능-강건성 트레이드 오프가 발생한다는 치명적 한계점이 있었다. 그러나 본 연구에서 제시하는 역방향 데이터를 활용할 경우, 모델의 성능을 악화시키는 관점에서 기존 적대적 공격보다 65% 이상 강력하며, 적대적 훈련에서는 최대 3% 이상 강건해지면서 성능-강건성 트레이드 오프는 적게 발생하는 것을 입증한다. 이는 기존의 적대적 공격은 분류 경계선 근처로 이동하는 과정에 기반한다면, 역방향 적대적 데이터는 반대 방향으로 이동하여 분류 경계선을 넘는 오버가 된다면 더 강력하게 정제된 공격 데이터임을 의미하고, 분류 경계선을 넘지 않는 언오버가 된다면 기존 공격보다 더 다양한 특징값을 지니는 데이터가 되기 때문에 적대적 훈련에서 다양한 분포의 데이터를 학습하는데 용이하기 때문일 것이라고 추정된다.

또한, 역방향 오버 데이터는 분류 경계의 중심 방향으로 업데이트될 때 경계선을 넘을만큼 변형이 가해지면 발생하지만, 생성 강도(ε)가 증가하여도 역방향 오버 데이터의 생성 개수가 비례하여 증가하지 않는다. 이를 통해 단순히 강력한 변형보다는, 특정 영역에서 오버가 생성된다는 것을 유추할 수 있고, 이에 따라 역방향 오버의 경계선이 균등하지 않고 불규칙해서 사각이 있는 형태로 구성된 것을 알 수 있다. 해당 분석 결과로 역방향 오버 데이터의 생성 수는 적지만, 사각에 위치한 특징 값을 지니고 있기 때문에 공격에 강력한 영향을 미친다는 것을 밝힐 수 있다.

본 논문에서는 역방향으로 업데이트되는 적대적 데이터를 다뤘지만, 이에 대한 연구가 확장되면서 다양한 방향으로 퍼지는 적대적 데이터 생성 기법이 개발될 수 있다. 해당 데이터를 적대적 훈련 시 활용하게 된다면, 하나의 레이블에 대한 다양한 분포의 데이터를 학습시킬 수 있어 모델에 대한 일반화 성능을 높여 정확성 뿐만 아니라 강건성의 고도화를 달성할 수 있을 것으로 예상된다.

VI. 결론

지속 학습은 대량의 데이터에 대해 효율적으로 업데이트할 수 있는 기법으로, 최신 연구 동향이 대규모 모델에 초점이 맞춰진 현재, 다양하게 활용되고 있다. 그러나 지속 학습은 다량의 데이터를 수집하는 특성상 수집된 데이터의 품질에 민감한데, 적대적 데이터가 포함될 경우 어떤 현상이 발생하는지, 적대적 공격에 강건한지에 대한 연구가 부족하다. 이와 같이 지속 학습의 취약점이 제대로 분석되지 않고, 강건한지 알 수 없기 때문에 여러 도메인에서 지속 학습 뿐만 아니라 인공지능 기술의 도입이 지연되고 있다.

해당 문제점을 해결하고자 본 연구에서는 새로운 종류의 적대적 데이터를 제시해 기존 공격 기법보다 공격과 방어 측면에서 활용도가 뛰어남을 실험을 통해 입증한다. 더 나아가, 지속 학습 모델이 적대적 공격에 성능이 낮아질 수 있다는 취약점을 보이고 본 연구에서 제시한 데이터를 적대적 훈련에 활용할 경우 강건성을 강화할 수 있음을 보였다. 이는 단순히 적대적 훈련 성능의 향상을 야기할 뿐만 아니라 전에 없던 다양한 분포의 데이터를 생성할 수 있어 대량 학습 시 넓어진 학습 데이터의 분포로 일반화에 기여하여 정확성과 강건성의 고도화를 이룰 수 있다.

이를 통해 적대적 공격에 취약하다는 문제로 지속 학습과 같은 AI 기술의 도입이 미뤄졌던 의료, 금융과 같은 분야에 적대적 공격으로 인한 오작동을 줄여 AI 안전성을 강화하고 산업의 피해를 낮춰서 상용화를 촉진한다. 결과적으로 활용하지 못했던 AI 기술을 해당 도메인에 도입할 수 있어 산업적으로 효율성이 증가되고 새로운 기술의 개발을 유도하며, AI 기술 상용화를 위해 AI 보안 기술의 중요성을 강조하여 강건성 및 적대적 방어 기술 개발을 촉진 시킬 수 있다.

References

  1. Sun Lu, Mingtian Tan, and Zhe Zhou. "A survey of practical adversarial example attacks." Cybersecurity, vol. 1, no. 1, pp. 9, Dec. 2018.
  2. Sven Gowal, Chongli Qin, Jonathan Uesato, Timothy Mann, and Pushmeet Kohli. "Uncovering the limits of adversarial training against normbounded adversarial examples." arXiv: 2010.03593, 2020.
  3. S.A. Rebuffi, Alexander Kolesnikov, Georg Sperl, and C.H. Lampert. "icarl: Incremental classifier and representation learning." Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, pp. 2001-2010, Apr. 2017.
  4. Rahaf Aljundi, Min Lin, Baptiste Goujaud, and Yoshua Bengio. "Gradient based sample selection for online continual learning." Advances in neural information processing systems, pp. 10, Oct. 2019.
  5. Mallya, Arun, and Svetlana Lazebnik. "Packnet: Adding multiple tasks to a single network by iterative pruning." Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, pp. 7765-7773, May. 2018.
  6. C.V. Nguyen, Yingzhen Li, T.D. Bui, and R.E. Turner "Variational continual learning." arXiv:1710.10628, 2017.
  7. Purushwalkam, Senthil, Pedro Morgado, and Abhinav Gupta. "The challenges of continuous self-supervised learning." European Conference on Computer Vision, pp. 702-721, Mar. 2022.
  8. Matteo Boschini, Lorenzo Bonicelli, Angelo Porrello, Giovanni Bellitto, Matteo Pennisi, Simone Palazzo, Concetto Spampinato, and Simone Calderara. "Transfer without forgetting." European Conference on Computer Vision. pp. 692-709, Mar. 2022.
  9. S.I. Mirzadeh, Mehrdad Farajtabar, Razvan Pascanu, and Hassan Ghasemzadeh. "Understanding the role of training regimes in continual learning." Advances in Neural Information Processing Systems, vol. 33, pp. 7308-7320, Jun. 2020.
  10. Shipeng Wang, Xiaorong Li, Jian Sun, and Zongben Xu. "Training networks in null space of feature covariance for continual learning." Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition. pp. 184-193, Mar. 2021.
  11. Li, Zhizhong, and Derek Hoiem. "Learning without forgetting." IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 12, pp. 2935-2947, Feb. 2017.
  12. Lin, Guoliang, Hanlu Chu, and Hanjiang Lai. "Towards better plasticity-stability trade-off in incremental learning: A simple linear connector." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 89-98, Mar. 2022.
  13. I.J. Goodfellow, Jonathon Shlens, and Christian Szegedy. "Explaining and harnessing adversarial examples." ar-Xiv:1412.6572, 2014.
  14. Kurakin, Alexey, Ian J. Goodfellow, and Samy Bengio. "Adversarial examples in the physical world." Artificial intelligence safety and security, pp. 99-112, Feb. 2018.
  15. Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt, Dimitris Tsipras, and Adrian Vladu. "Towards deep learning models resistant to adversarial attacks." arXiv:1706.06083, 2017.
  16. Carlini, Nicholas, and David Wagner. "Towards evaluating the robustness of neural networks." 2017 ieee symposium on security and privacy, pp. 39-57, Mar. 2017.
  17. Nicolas Papernot, Patrick McDaniel, Xi Wu, Somesh Jha, and Ananthram Swami. "Distillation as a defense to adversarial perturbations against deep neural networks." 2016 IEEE symposium on security and privacy. pp.582-597, Mar. 2016.
  18. Samangouei, Pouya, Maya Kabkab, and Rama Chellappa. "Defense-gan: Protecting classifiers against adversarial attacks using generative models." arXiv:1805.06605, 2018.