Beating Attackers At Their Own Games: Adversarial Example Detection Using Adversarial Gradient Directions

#adversarial-attack-detection #gradient-based-detection

Link

https://ojs.aaai.org/index.php/AAAI/article/view/16404

Abstract

Adversarial examples are input examples that are specifically crafted to deceive machine learning classifiers. State-of-the-art adversarial example detection methods characterize an input example as adversarial either by quantifying the magnitude of feature variations under multiple perturbations or by measuring its distance from estimated benign example distribution. Instead of using such metrics, the proposed method is based on the observation that the directions of adversarial gradients when crafting (new) adversarial examples play a key role in characterizing the adversarial space. Compared to detection methods that use multiple perturbations, the proposed method is efficient as it only applies a single random perturbation on the input example. Experiments conducted on two different databases, CIFAR-10 and ImageNet, show that the proposed detection method achieves, respectively, 97.9% and 98.6% AUC-ROC (on average) on five different adversarial attacks, and outperforms multiple state-of-the-art detection methods. Results demonstrate the effectiveness of using adversarial gradient directions for adversarial example detection.

Synth

Problem:: 적대적 예제 탐지를 위한 기존 방법들은 여러 변환(Perturbation)을 필요로 하여 계산 비용이 높음/양성 예제 분포 추정을 위한 많은 참조 데이터가 필요해 실용성이 제한됨

Solution:: 적대적 그래디언트 방향(Adversarial Gradient Directions)을 활용/단일 랜덤 변환과 단일 참조 예제만으로 적대적 예제 탐지

Novelty:: 적대적 예제 탐지에 적대적 그래디언트 방향을 활용한 최초의 연구/단일 변환으로도 강력한 탐지 성능 달성

Note:: 제안된 점수( $α_{a}$ )가 기존 변환 기반 점수( $r$ )보다 다양한 변환에 대해 일관된 값을 유지/White-box 공격에도 견고한 탐지 가능 → 해당 방식을 알고 공격하면 공격 성공률이 떨어짐

Summary

Motivation

Deep Neural Networks(DNN)는 뛰어난 성능으로 다양한 분류 시스템에서 널리 사용되지만 적대적 예제에 취약함
적대적 예제란 사람이 감지할 수 없는 악의적 교란(Perturbation)을 입력에 추가하여 잘못된 예측을 유도하는 것
최신 적대적 예제 탐지 방법들은 주로 두 가지 관찰된 속성을 활용
- 적대적 예제는 입력 공간에서의 교란에 양성 예제(Benign Example)보다 더 민감함
- 적대적 예제와 양성 예제 데이터 분포 간의 거리가 비정상적임
이러한 방법들은 여러 변환을 사용하거나 충분한 예측 클래스 예제를 필요로 하여 계산 복잡성이 높거나 실용성이 제한됨
- 입력 예제 $I_{q}$ 에 여러 변환 $T_{l}$ (예: 회전, 필터링, 노이즈 추가)을 적용하여 변환된 예제 $I_{p}$ 를 생성
- 원본과 변환된 예제 간의 특징 차이 측정: $r_{l} = | | f_{m} (I_{p}) - f_{m} (I_{q}) | |_{1}$
- 이 차이값들을 집계하여 적대적 예제 탐지
본 연구는 적대적 예제 생성에 사용되는 적대적 그래디언트 방향(AGD)이 적대적 공간을 특성화하는 데 충분히 판별력 있다는 관찰에 기초

Method

왼쪽은 Adversarial Example $x^{'}$ 의 경우, 오른쪽은 Benign Example $x$ 의 경우

그래디언트 기반 공격(FGSM, PGD 등)은 입력 예제에 대해 계산된 그래디언트 방향을 사용하여 적대적 예제 생성
제안된 방법은 다음 단계로 작동
- 쿼리 이미지 $I_{q}$ 에 단일 랜덤 교란 $μ$ 를 적용하여 변환된 이미지 $I_{p}$ 생성
- 예측된 클래스에서 $I_{q}$ 의 최근접 이웃 $I_{n}$ 을 참조 데이터베이스에서 검색
- 상위 K개 예측 클래스에 대해 $I_{q}$ , $I_{p}$ , $I_{n}$ 의 적대적 그래디언트 계산
  - 적대적 그레디언트 계산에 FGSM 등의 공격 기법이 활용됨
- 세 가지 각도 유사성 점수( $α$ , $β$ , $γ$ ) 계산하여 적대적 예제 탐지에 활용
  - 이 점수들을 랜덤 포레스트 분류기에 입력하여 적대적 예제 탐지 점수 생성
계산 복잡성은 $O (K)$ 로, 기존 방법의 $O (L N)$ 보다 훨씬 효율적

세 가지 각도 유사성 점수

변환 일관성( $α$ ): 입력과 변환된 입력 간의 AGD 유사성
- $α_{k} =< Δ f_{m} (I_{q}, k), Δ f_{m} (I_{p}, k) >$
- 양성 예제는 변환 후에도 AGD가 일관적으로 유지되지만, 적대적 예제는 크게 변화
이웃 유사성( $β$ ): 입력과 프로토타입 간의 AGD 유사성
- $β_{k} =< Δ f_{m} (I_{q}, k), Δ f_{m} (I_{n}, k) >$
- 양성 예제는 같은 클래스의 프로토타입과 AGD가 유사하지만, 적대적 예제는 다름
변환-이웃 유사성( $γ$ ): 변환된 입력과 프로토타입 간의 AGD 유사성
- $γ_{k} =< Δ f_{m} (I_{p}, k), Δ f_{m} (I_{n}, k) >$
- 양성 예제의 변환된 버전은 프로토타입과 AGD가 유사하지만, 적대적 예제는 다름

각 점수마다 효과적인 클래스와 블럭 위치가 약간씩 다름
$α$ 는 상위 두 클래스를 이용할 때, $β$ 는 세 번째 클래스부터, $γ$ 는 모든 클래스에 대해 Discriminative
세 점수 모두 5번째 Block부터 효과가 두드러짐

Method 검증

White-box Attack Setting 실험

실험 설정:

데이터셋: ImageNet에서 1,000개 이미지 선택
공격 방법: PGD(Projected Gradient Descent) 적응형 공격
목표 함수: $λ ϕ (f (I), y)$ 와 모든 유사성 점수( $α$ , $β$ , $γ$ )를 동시에 최적화 ( $λ = 2$ ) → 스코어를 활용하지 못하도록 하는 것
허용된 교란: $l_{\infty}$ norm 제약 하에서 픽셀 값 범위의 0.1
비교 대상: Rand-1 ( $r = | | f_{m} (I_{p}) - f_{m} (I_{q}) | |_{1}$ ) → 기존 Score를 이용한 방식
주요 발견:
제안된 방법(K=4)은 공격 성공률을 크게 감소시킴 (53.5~60.3%)
동시에 더 높은 탐지 성능 달성 (AUC 62.5~64.1%)
Rand-1은 높은 공격 성공률(78~79.4%)과 낮은 탐지 성능(AUC 53~53.1%)을 보임

Detection Visualization 분석

논문에서 제안한 Score $α_{a}$ 와 기존 $r_{l}$ 의 차이. 기존 방식은 Clean과 Adver사이에 겹치는 구간이 있음

동일하게 제안 Score는 Adver Sample에 다양한 변환이 적용되어도 비슷한 값을 나타내지만 기존 방식은 그렇지 않음 → 탐지 기준으로 기존 방식은 부적합