Detecting Adversarial Data by Probing Multiple Perturbations Using Expected Perturbation Score

#adversarial-attack-detection #visual-adversarial-attack #diffusion-models #expected-perturbation-score #maximum-mean-discrepancy #score-network

Link

https://proceedings.mlr.press/v202/zhang23ac.html

Abstract

Adversarial detection aims to determine whether a given sample is an adversarial one based on the discrepancy between natural and adversarial distributions. Unfortunately, estimating or comparing two data distributions is extremely difficult, especially in high-dimension spaces. Recently, the gradient of log probability density (a.k.a., score) w.r.t. the sample is used as an alternative statistic to compute. However, we find that the score is sensitive in identifying adversarial samples due to insufficient information with one sample only. In this paper, we propose a new statistic called expected perturbation score (EPS), which is essentially the expected score of a sample after various perturbations. Specifically, to obtain adequate information regarding one sample, we perturb it by adding various noises to capture its multi-view observations. We theoretically prove that EPS is a proper statistic to compute the discrepancy between two samples under mild conditions. In practice, we can use a pre-trained diffusion model to estimate EPS for each sample. Last, we propose an EPS-based adversarial detection (EPSAD) method, in which we develop EPS-based maximum mean discrepancy (MMD) as a metric to measure the discrepancy between the test sample and natural samples. We also prove that the EPS-based MMD between natural and adversarial samples is larger than that among natural samples. Extensive experiments show the superior adversarial detection performance of our EPS-AD.

Synth

Problem:: 단일 샘플의 Score만으로는 적대적 데이터 탐지에 충분한 정보를 제공하지 못함/기존 방법들은 타임스텝에 민감하고 벡터의 방향 정보를 무시함

Solution:: 여러 타임스텝에서 다양한 교란을 통합한 Expected Perturbation Score(EPS) 제안/Maximum Mean Discrepancy(MMD)를 사용해 EPS 분포 차이 측정 및 방향 정보 사용

Novelty:: 단일 샘플의 여러 타임 스텝을 통한 새로운 통계량 EPS 제안/자연-적대적 샘플 간 EPS 차이를 이론적으로 분석

Note:: 우선 Score 방식을 제안한 방법을 봐야 제대로 이해가 될 듯

Summary

Motivation

딥 뉴럴 네트워크는 입력에 미세한 변화를 가하는 적대적 공격에 취약함
- 적대적 샘플은 기계학습 시스템의 보안을 위협하므로 이를 탐지하는 것이 중요함
- 적대적 탐지는 적대적 샘플을 탐지하고 거부함으로써 자연 정확도를 유지하고 보안 문제를 해결할 수 있음
기존의 탐지 방법들은 특정 공격이나 특정 분류기에 맞춰진 탐지기를 학습시키는 데 집중하여 알려지지 않은 공격이나 전이 가능한 공격에 취약함
적대적 탐지의 핵심은 자연 분포와 적대적 분포 간의 차이를 식별하는 것이지만, 고차원 공간에서 분포를 추정하거나 비교하는 것은 매우 어려운 과제임

Score 함수와 그 한계점

최근 연구에서는 Score 함수(로그 확률 밀도의 그래디언트, $\nabla_{x} \log p (x)$ )가 분포 비교를 위한 강력한 도구로 사용됨
- Score 함수는 샘플이 자연 데이터의 고밀도 영역으로 향하는 방향을 나타내며, Score norm이 낮으면 샘플이 자연 분포를 따를 확률이 높음
Yoon et al.(2021)은 정제 과정에서 Score norm을 사용하여 자연 샘플과 적대적 샘플을 구분하는 임계값으로 활용
그러나 단일 샘플의 Score만으로는 정보가 부족하여 적대적 샘플 식별에 한계가 있음:
- 하나의 타임스텝에서의 Score는 타임스텝에 따라 크게 변동하여 신뢰성이 떨어짐
- 단일 관점의 정보만으로는 복잡한 분포 차이를 충분히 포착하지 못함
- Score norm만 사용하면 벡터의 방향 정보를 무시하게 됨

Method

Expected Perturbation Score (EPS)

정의: $$S(x) = E_{t\sim U(0,T)}[\nabla_x \log p_t(x)]$$
- 시간 구간 [0, T] 내의 여러 타임스텝에서의 Score 함수의 기댓값 → 여러 타임스텝에서의 Score를 통합
가우시안 분포 가정 하에 EPS의 특성 분석(Theorem 1):
- 자연 샘플 $x \sim p (x)$ 에 대해: $S (x) \sim N (0, σ_{S}^{2} I)$
- 적대적 샘플 $\hat{y} = y + ε$ 에 대해: $S (\hat{y}) \sim N (- μ_{S}, σ_{S}^{2} I)$
- 이러한 **통계적 차이(평균 $μ_{S}$ )**로 인해 자연 샘플과 적대적 샘플을 명확히 구분 가능
Score 모델 구현:
- 사전 학습된 Diffusion Model을 사용하여 Score 함수 추정
- Continuous-Time Diffusion Models의 forward와 reverse 과정 활용
  - Forward Process: $d x = f (x, t) d t + g (t) d w$ (원본→노이즈)
  - Reverse Process: $d x = [f (x, t) - g (t)^{2} \nabla_{x} \log p_{t} (x)] d t + g (t) d \bar{w}$ (노이즈→원본)

EPS 기반 적대적 탐지 (EPS-AD)

${x_{0}^{(i)}}$ : Natural Image, ${\tilde{x}}_{0}$ : Test Image

EPS-AD 알고리즘 구성:
1. 자연 샘플 집합과 테스트 샘플에 Forward Diffusion Process 적용 (타임스텝 T*)
2. 각 샘플의 EPS 계산 (여러 타임스텝의 Score 통합)
3. Deep Kernel MMD를 사용하여 테스트 샘플의 EPS와 자연 샘플들의 EPS 간 거리 측정
4. MMD 값이 임계값보다 크면 테스트 샘플을 적대적 샘플로 분류
  - Clean 검증 셋에서 MMD 분포를 계산하고, 이 분포의 상위 95%를 임계값으로 설정
Score norm의 제한 해결을 위한 MMD 활용:
- Maximum Mean Discrepancy(MMD)를 사용해 테스트 샘플과 자연 샘플 간의 EPS 분포 차이 측정
- MMD는 벡터의 방향 정보까지 고려하여 단순 norm보다 더 풍부한 정보 활용
- 정의: $$\text{MMD}(p, q; F) = \sup_{f\in F} |E[f(X)] - E[f(Y)]|$$
  - 두 분포가 모든 차수의 모멘트에서 같아야 동일하며, 가장 큰 차이를 보이는 모멘트가 측정 기준 (수식의 $sup$ )
  - Norm이 단순 크기인 것과 달리 MMD는 커널 함수를 통해 고차원으로 매핑하고 해당 공간에서는 방향 성분들이 보존됨

Method 검증

CIFAR-10과 ImageNet에서 다양한 공격 방법에 대해 검증:
- $L_{\infty}$ 공격: PGD, FGSM, BIM 등 (픽셀별 최대 변화량 제한)
- $L_{2}$ 공격: PGD- $L_{2}$ , FGSM- $L_{2}$ , BIM- $L_{2}$ 등 (전체적인 변화량 제한)
- 총 12가지 공격 방법 테스트
실험 결과:
- $ε$ =4/255일 때 대부분의 공격에 대해 AUROC 1.0000 달성 (KD, LID, MD 등 기존 방법보다 우수)
- 낮은 공격 강도( $ε$ =2/255)에서도 높은 성능 유지하여 민감한 적대적 샘플도 탐지 가능
- 알려지지 않은 공격에 대한 일반화 성능 우수 (FGSM, FGSM- $L_{2}$ 로만 학습해도 다른 공격 탐지 가능)
- 전이 가능한 공격에도 강인한 성능 (ResNet-50에서 훈련, ResNet-101에서 생성된 적대적 샘플 탐지)
제안 방법의 효과성 검증:
- 다양한 타임스텝(T)에 대한 실험: EPS 기반 방법이 단일 Score 방법보다 타임스텝 변화에 더 안정적
- EPS를 사용하지 않는 경우 ImageNet에서 AUROC가 약 28% 하락하여 EPS의 중요성 확인
- 교란(Perturbations)을 추가하지 않으면 최대 4.84% 성능 하락하여 다중 교란의 효과 검증
- 적응형 공격(Adaptive Attack)에도 높은 AUROC(0.9154) 유지하여 방법의 강인성 입증