MMA-Diffusion: MultiModal Attack on Diffusion Models

Link
Abstract

In recent years, Text-to-Image (T2I) models have seen remarkable advancements, gaining widespread adoption. However, this progress has inadvertently opened avenues for potential misuse, particularly in generating inappropriate or Not-Safe-For-Work (NSFW) content. Our work introduces MMA-Diffusion, a framework that presents a significant and realistic threat to the security of T2I models by effectively circumventing current defensive measures in both open-source models and commercial online services. Unlike previous approaches, MMA-Diffusion leverages both textual and visual modalities to bypass safeguards like prompt filters and post-hoc safety checkers, thus exposing and highlighting the vulnerabilities in existing defense mechanisms. Our codes are available at https: //github.com/cure-lab/MMA-Diffusion.

Synth

Problem:: T2I 확산 모델의 방어 메커니즘(프롬프트 필터/사후 안전성 검사기) 우회 가능성 평가 연구 부족 / 두 방어 메커니즘을 동시에 우회하는 체계적 공격 방법 필요

Solution:: 텍스트 모달에서는 민감 단어 없이 의미적으로 동등한 프롬프트 생성 / 이미지 모달에서는 사후 안전성 검사를 우회하는 미세 변형 적용

Novelty:: 두 모달리티를 결합한 최초의 체계적 공격 프레임워크 / 다양한 상용 및 오픈소스 T2I 모델에 대한 높은 공격 성공률 입증 / 그래디언트 기반 최적화와 동적 손실 선택 전략의 효과적 결합

Note:: Editing Setting에서 이미지에 변형을 가하는 방식. Full Noise에 Perturbation을 줘서 공격하는 방법은 없나?

Summary

Motivation

Method

file-20250409233530069.png

텍스트 모달리티 공격

file-20250409233548515.png|475

핵심 내용: "텍스트 모달리티 공격은 민감한 단어를 피하면서도 원래 NSFW 프롬프트와 의미적으로 동일한 효과를 내도록 텍스트 인코더의 출력 공간에서 최적화하는 방식이다."

이미지 모달리티 공격

file-20250409233609656.png|550

핵심 내용: "이미지 모달리티 공격은, 생성된 NSFW 이미지가 안전성 검사기의 NSFW 임베딩과 유사도 임계값을 초과하지 않도록 입력 이미지에 사람 눈으로는 감지할 수 없는 미세한 변형을 가하는 공격이다."

Method 검증

오픈소스 모델 공격

온라인 T2I 서비스 공격

다중 모달 공격