Beating Attackers At Their Own Games: Adversarial Example Detection Using Adversarial Gradient Directions

Link
Abstract

Adversarial examples are input examples that are specifically crafted to deceive machine learning classifiers. State-of-the-art adversarial example detection methods characterize an input example as adversarial either by quantifying the magnitude of feature variations under multiple perturbations or by measuring its distance from estimated benign example distribution. Instead of using such metrics, the proposed method is based on the observation that the directions of adversarial gradients when crafting (new) adversarial examples play a key role in characterizing the adversarial space. Compared to detection methods that use multiple perturbations, the proposed method is efficient as it only applies a single random perturbation on the input example. Experiments conducted on two different databases, CIFAR-10 and ImageNet, show that the proposed detection method achieves, respectively, 97.9% and 98.6% AUC-ROC (on average) on five different adversarial attacks, and outperforms multiple state-of-the-art detection methods. Results demonstrate the effectiveness of using adversarial gradient directions for adversarial example detection.

Synth

Problem:: 적대적 예제 탐지를 위한 기존 방법들은 여러 변환(Perturbation)을 필요로 하여 계산 비용이 높음/양성 예제 분포 추정을 위한 많은 참조 데이터가 필요해 실용성이 제한됨

Solution:: 적대적 그래디언트 방향(Adversarial Gradient Directions)을 활용/단일 랜덤 변환과 단일 참조 예제만으로 적대적 예제 탐지

Novelty:: 적대적 예제 탐지에 적대적 그래디언트 방향을 활용한 최초의 연구/단일 변환으로도 강력한 탐지 성능 달성

Note:: 제안된 점수(αa)가 기존 변환 기반 점수(r)보다 다양한 변환에 대해 일관된 값을 유지/White-box 공격에도 견고한 탐지 가능 → 해당 방식을 알고 공격하면 공격 성공률이 떨어짐

Summary

Motivation

Method

file-20250331191742784.png

왼쪽은 Adversarial Example x의 경우, 오른쪽은 Benign Example x의 경우

세 가지 각도 유사성 점수

  1. 변환 일관성(α): 입력과 변환된 입력 간의 AGD 유사성
    • αk=<Δfm(Iq,k),Δfm(Ip,k)>
    • 양성 예제는 변환 후에도 AGD가 일관적으로 유지되지만, 적대적 예제는 크게 변화
  2. 이웃 유사성(β): 입력과 프로토타입 간의 AGD 유사성
    • βk=<Δfm(Iq,k),Δfm(In,k)>
    • 양성 예제는 같은 클래스의 프로토타입과 AGD가 유사하지만, 적대적 예제는 다름
  3. 변환-이웃 유사성(γ): 변환된 입력과 프로토타입 간의 AGD 유사성
    • γk=<Δfm(Ip,k),Δfm(In,k)>
    • 양성 예제의 변환된 버전은 프로토타입과 AGD가 유사하지만, 적대적 예제는 다름

Method 검증

최신 기술과의 비교

White-box Attack Setting 실험

실험 설정:

Detection Visualization 분석

file-20250331192922091.png|500

논문에서 제안한 Score αa와 기존 rl의 차이. 기존 방식은 Clean과 Adver사이에 겹치는 구간이 있음
file-20250331193821242.png|500
동일하게 제안 Score는 Adver Sample에 다양한 변환이 적용되어도 비슷한 값을 나타내지만 기존 방식은 그렇지 않음 → 탐지 기준으로 기존 방식은 부적합