• 제목/요약/키워드: Adversarial attack detection

검색결과 23건 처리시간 0.018초

AI 모델의 Robustness 향상을 위한 효율적인 Adversarial Attack 생성 방안 연구 (A Study on Effective Adversarial Attack Creation for Robustness Improvement of AI Models)

  • 정시온;한태현;임승범;이태진
    • 인터넷정보학회논문지
    • /
    • 제24권4호
    • /
    • pp.25-36
    • /
    • 2023
  • 오늘날 AI(Artificial Intelligence) 기술은 보안 분야를 비롯하여 다양한 분야에 도입됨에 따라 기술의 발전이 가속화되고 있다. 하지만 AI 기술의 발전과 더불어 악성 행위 탐지를 교묘하게 우회하는 공격 기법들도 함께 발전되고 있다. 이러한 공격 기법 중 AI 모델의 분류 과정에서 입력값의 미세한 조정을 통해 오 분류와 신뢰도 하락을 유도하는 Adversarial attack이 등장하였다. 앞으로 등장할 공격들은 공격자가 새로이 공격을 생성하는 것이 아닌, Adversarial attack처럼 기존에 생성된 공격에 약간의 변형을 주어 AI 모델의 탐지체계를 회피하는 방식이다. 이러한 악성코드의 변종에도 대응이 가능한 견고한 모델을 만들어야 한다. 본 논문에서는 AI 모델의 Robustness 향상을 위한 효율적인 Adversarial attack 생성 기법으로 2가지 기법을 제안한다. 제안하는 기법은 XAI 기법을 활용한 XAI based attack 기법과 모델의 결정 경계 탐색을 통한 Reference based attack이다. 이후 성능 검증을 위해 악성코드 데이터 셋을 통해 분류 모델을 구축하여 기존의 Adversarial attack 중 하나인 PGD attack과의 성능 비교를 하였다. 생성 속도 측면에서 기존 20분이 소요되는 PGD attack에 비하여 XAI based attack과 Reference based attack이 각각 0.35초, 0.47초 소요되어 매우 빠른 속도를 보이며, 특히 Reference based attack의 경우 생성률이 97.7%로 기존 PGD attack의 생성률인 75.5%에 비해 높은 성공률을 보이는 것을 확인하였다. 따라서 제안한 기법을 통해 더욱 효율적인 Adversarial attack이 가능하며, 이후 견고한 AI 모델을 구축하기 위한 연구에 기여 할 수 있을 것으로 기대한다.

악성코드 변종 분석을 위한 AI 모델의 Robust 수준 측정 및 개선 연구 (A Study on Robustness Evaluation and Improvement of AI Model for Malware Variation Analysis)

  • 이은규;정시온;이현우;이태진
    • 정보보호학회논문지
    • /
    • 제32권5호
    • /
    • pp.997-1008
    • /
    • 2022
  • 오늘날 AI(Artificial Intelligence) 기술은 악성코드 분야를 비롯하여 다양한 분야에서 광범위하게 연구되고 있다. 중요한 의사결정 및 자원을 보호하는 역할에 AI 시스템을 도입하기 위해서는 신뢰할 수 있는 AI 모델이어야 한다. 학습 데이터셋에 의존적인 AI 모델은 새로운 공격에 대해서도 견고한지 확인이 필요하다. 공격자는 악성코드를 새로 생성하기보단, 기존에 탐지되었던 악성코드의 변종을 대량 생산하여 공격에 성공하는 악성코드를 탐색다. AI 모델의 Misclassification을 유도하는 Adversarial attack과 같이 대부분의 공격은 기존 공격에 약간에 변형을 가해 만든 공격들이다. 이러한 변종에도 대응 가능한 Robust한 모델이 필요하며, AI 평가지표로 많이 사용되는 Accuracy, Recall 등으로는 모델의 Robustness 수준을 측정할 수 없다. 본 논문에서는 Adversarial attack 중 하나인 C&W attack을 기반으로 Adversarial sample을 생성하여 Robustness 수준을 측정하고 Adversarial training 을 통해 Robustness 수준을 개선하는 방법을 실험한다. 본 연구의 악성코드 데이터셋 기반 실험을 통해 악성코드 분야에서 해당 제안 방법의 한계 및 가능성을 확인하였다.

Adversarial Detection with Gaussian Process Regression-based Detector

  • Lee, Sangheon;Kim, Noo-ri;Cho, Youngwha;Choi, Jae-Young;Kim, Suntae;Kim, Jeong-Ah;Lee, Jee-Hyong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권8호
    • /
    • pp.4285-4299
    • /
    • 2019
  • Adversarial attack is a technique that causes a malfunction of classification models by adding noise that cannot be distinguished by humans, which poses a threat to a deep learning model. In this paper, we propose an efficient method to detect adversarial images using Gaussian process regression. Existing deep learning-based adversarial detection methods require numerous adversarial images for their training. The proposed method overcomes this problem by performing classification based on the statistical features of adversarial images and clean images that are extracted by Gaussian process regression with a small number of images. This technique can determine whether the input image is an adversarial image by applying Gaussian process regression based on the intermediate output value of the classification model. Experimental results show that the proposed method achieves higher detection performance than the other deep learning-based adversarial detection methods for powerful attacks. In particular, the Gaussian process regression-based detector shows better detection performance than the baseline models for most attacks in the case with fewer adversarial examples.

데이터 예측 클래스 기반 적대적 공격 탐지 및 분류 모델 (Adversarial Example Detection and Classification Model Based on the Class Predicted by Deep Learning Model)

  • 고은나래;문종섭
    • 정보보호학회논문지
    • /
    • 제31권6호
    • /
    • pp.1227-1236
    • /
    • 2021
  • 딥러닝 분류 모델에 대한 공격 중 하나인 적대적 공격은 입력 데이터에 인간이 구별할 수 없는 섭동을 추가하여 딥러닝 분류 모델이 잘못 분류하도록 만드는 공격이며, 다양한 적대적 공격 알고리즘이 존재한다. 이에 따라 적대적 데이터를 탐지하는 연구는 많이 진행되었으나 적대적 데이터가 어떤 적대적 공격 알고리즘에 의해 생성되었는지 분류하는 연구는 매우 적게 진행되었다. 적대적 공격을 분류할 수 있다면, 공격 간의 차이를 분석하여 더욱 견고한 딥러닝 분류 모델을 구축할 수 있을 것이다. 본 논문에서는 공격 대상 딥러닝 모델이 예측하는 클래스를 기반으로 은닉층의 출력값에서 특징을 추출하고 추출된 특징을 입력으로 하는 랜덤 포레스트 분류 모델을 구축하여 적대적 공격을 탐지 및 분류하는 모델을 제안한다. 실험 결과 제안한 모델은 최신의 적대적 공격 탐지 및 분류 모델보다 정상 데이터의 경우 3.02%, 적대적 데이터의 경우 0.80% 높은 정확도를 보였으며, 기존 연구에서 분류하지 않았던 새로운 공격을 분류한다.

이미지의 Symbolic Representation 기반 적대적 예제 탐지 방법 (Adversarial Example Detection Based on Symbolic Representation of Image)

  • 박소희;김승주;윤하연;최대선
    • 정보보호학회논문지
    • /
    • 제32권5호
    • /
    • pp.975-986
    • /
    • 2022
  • 딥러닝은 이미지 처리에 있어 우수한 성능을 보여주며 큰 주목을 받고 있지만, 입력 데이터에 대한 변조를 통해 모델이 오분류하게 만드는 적대적 공격에 매우 취약하다. 적대적 공격을 통해 생성된 적대적 예제는 사람이 식별하기 어려울 정도로 최소한으로 변조가 되며 이미지의 전체적인 시각적 특징은 변하지 않는다. 딥러닝 모델과 달리 사람은 이미지의 여러 특징을 기반으로 판단하기 때문에 적대적 예제에 속지 않는다. 본 논문은 이러한 점에 착안하여 이미지의 색상, 모양과 같은 시각적이고 상징적인 특징인 Symbolic Representation을 활용한 적대적 예제 탐지 방법을 제안한다. 입력 이미지에 대한 분류결과에 대응하는 Symbolic Representation과 입력 이미지로부터 추출한 Symbolic Representation을 비교하여 적대적 예제를 탐지한다. 다양한 방법으로 생성한 적대적 예제를 대상으로 탐지성능을 측정한 결과, 공격 목표 및 방법에 따라 상이하지만 specific target attack에 대하여 최대 99.02%의 탐지율을 보였다.

Intrusion Detection System을 회피하고 Physical Attack을 하기 위한 GAN 기반 적대적 CAN 프레임 생성방법 (GAN Based Adversarial CAN Frame Generation Method for Physical Attack Evading Intrusion Detection System)

  • 김도완;최대선
    • 정보보호학회논문지
    • /
    • 제31권6호
    • /
    • pp.1279-1290
    • /
    • 2021
  • 차량 기술이 성장하면서 운전자의 개입이 필요 없는 자율주행까지 발전하였고, 이에 따라 차량 내부 네트워크인 CAN 보안도 중요해졌다. CAN은 해킹 공격에 취약점을 보이는데, 이러한 공격을 탐지하기 위해 기계학습 기반 IDS가 도입된다. 하지만 기계학습은 높은 정확도에도 불구하고 적대적 예제에 취약한 모습을 보여주었다. 본 논문에서는 IDS를 회피할 수 있도록 feature에 잡음을 추가하고 또한 실제 차량의 physical attack을 위한 feature 선택 및 패킷화를 진행하여 IDS를 회피하고 실제 차량에도 공격할 수 있도록 적대적 CAN frame 생성방법을 제안한다. 모든 feature 변조 실험부터 feature 선택 후 변조 실험, 패킷화 이후 전처리하여 IDS 회피실험을 진행하여 생성한 적대적 CAN frame이 IDS를 얼마나 회피하는지 확인한다.

공개 딥러닝 라이브러리에 대한 보안 취약성 검증 (Security Vulnerability Verification for Open Deep Learning Libraries)

  • 정재한;손태식
    • 정보보호학회논문지
    • /
    • 제29권1호
    • /
    • pp.117-125
    • /
    • 2019
  • 최근 다양한 분야에서 활용중인 딥러닝은 적대적 공격 가능성의 발견으로 위험성이 제기되고 있다. 본 논문에서는 딥러닝의 이미지 분류 모델에서 악의적 공격자가 생성한 적대적 샘플에 의해 분류 정확도가 낮아짐을 실험적으로 검증하였다. 대표적인 이미지 샘플인 MNIST데이터 셋을 사용하였으며, 텐서플로우와 파이토치라이브러리를 사용하여 만든 오토인코더 분류 모델과 CNN(Convolution neural network)분류 모델에 적대적 샘플을 주입하여 탐지 정확도를 측정한다. 적대적 샘플은 MNIST테스트 데이터 셋을 JSMA(Jacobian-based Saliency Map Attack)방법으로 생성한 방법과 FGSM(Fast Gradient Sign Method)방식으로 변형하여 생성하였으며, 분류 모델에 주입하여 측정하였을 때 최소 21.82%에서 최대 39.08%만큼 탐지 정확도가 낮아짐을 검증하였다.

딥러닝 기반 적외선 객체 검출을 위한 적대적 공격 기술 연구 (Adversarial Attacks for Deep Learning-Based Infrared Object Detection)

  • 김호성;현재국;유현정;김춘호;전현호
    • 한국군사과학기술학회지
    • /
    • 제24권6호
    • /
    • pp.591-601
    • /
    • 2021
  • Recently, infrared object detection(IOD) has been extensively studied due to the rapid growth of deep neural networks(DNN). Adversarial attacks using imperceptible perturbation can dramatically deteriorate the performance of DNN. However, most adversarial attack works are focused on visible image recognition(VIR), and there are few methods for IOD. We propose deep learning-based adversarial attacks for IOD by expanding several state-of-the-art adversarial attacks for VIR. We effectively validate our claim through comprehensive experiments on two challenging IOD datasets, including FLIR and MSOD.

객체탐지 모델에 대한 위장형 적대적 패치 공격 (Camouflaged Adversarial Patch Attack on Object Detector)

  • 김정훈;양훈민;오세윤
    • 한국군사과학기술학회지
    • /
    • 제26권1호
    • /
    • pp.44-53
    • /
    • 2023
  • Adversarial attacks have received great attentions for their capacity to distract state-of-the-art neural networks by modifying objects in physical domain. Patch-based attack especially have got much attention for its optimization effectiveness and feasible adaptation to any objects to attack neural network-based object detectors. However, despite their strong attack performance, generated patches are strongly perceptible for humans, violating the fundamental assumption of adversarial examples. In this paper, we propose a camouflaged adversarial patch optimization method using military camouflage assessment metrics for naturalistic patch attacks. We also investigate camouflaged attack loss functions, applications of various camouflaged patches on army tank images, and validate the proposed approach with extensive experiments attacking Yolov5 detection model. Our methods produce more natural and realistic looking camouflaged patches while achieving competitive performance.

선형 판별 분석 및 k-means 알고리즘을 이용한 적대적 공격 유형 분류 방안 (An Adversarial Attack Type Classification Method Using Linear Discriminant Analysis and k-means Algorithm)

  • 최석환;김형건;최윤호
    • 정보보호학회논문지
    • /
    • 제31권6호
    • /
    • pp.1215-1225
    • /
    • 2021
  • 인공지능 기술은 우수한 성능을 기반으로 다양한 분야에 적용되고 있지만 입력 데이터에 인간이 감지할 수 없는 적대적 섭동을 추가하여 인공지능 모델의 오작동을 유도하는 적대적 예제에 취약하다. 현재까지 적대적 예제에 대응하기 위한 방법은 세 가지 범주로 분류할 수 있다. (1) 모델 재학습 방법; (2) 입력 변환 방법; (3) 적대적 예제 탐지 방법. 이러한 적대적 예제에 대응하기 위한 방법은 끊임없이 등장하고 있지만 각 적대적 공격 유형을 분류하는 연구는 미비한 실정이다. 따라서, 본 논문에서는 차원 축소와 군집화 알고리즘을 활용한 적대적 공격 유형 분류 방법을 제안한다. 구체적으로, 제안하는 방법은 적대적 예시로부터 적대적 섭동을 추출하고 선형 판별 분석(LDA)를 통해 적대적 섭동의 차원을 축소한 후에 k-means 알고리즘으로 적대적 공격 유형 분류를 수행한다. MNIST 데이터셋과 CIFAR-10 데이터셋을 대상으로 한 실험을 통해, 제안하는 기법은 5개의 적대적 공격(FGSM, BIM, PGD, DeepFool, C&W)을 효율적으로 분류할 수 있으며, 적대적 예제에 대한 정상 입력을 알 수 없는 제한적인 상황에서도 우수한 분류 성능을 나타내는 것을 확인하였다.