GuardT2I: Defending Text-to-Image Models from Adversarial Prompts
Recent advancements in Text-to-Image models have raised significant safety concerns about their potential misuse for generating inappropriate or Not-Safe-For-Work contents, despite existing countermeasures such as Not-Safe-For-Work classifiers or model fine-tuning for inappropriate concept removal. Addressing this challenge, our study unveils GuardT2I a novel moderation framework that adopts a generative approach to enhance Text-to-Image models’ robustness against adversarial prompts. Instead of making a binary classification, GuardT2I utilizes a large language model to conditionally transform text guidance embeddings within the Text-to-Image models into natural language for effective adversarial prompt detection, without compromising the models’ inherent performance. Our extensive experiments reveal that GuardT2I outperforms leading commercial solutions like OpenAI-Moderation and Microsoft Azure Moderator by a significant margin across diverse adversarial scenarios. Our framework is available at https://github.com/cure-lab/GuardT2I.
Problem:: T2I 모델의 NSFW 콘텐츠 생성 방지를 위한 기존 방어 메커니즘(프롬프트 필터/사후 안전성 검사기)이 적대적 프롬프트에 취약 / 기존 분류 기반 방어 방법은 해석 불가능하고 맞춤화 어려움 / 두 방어 메커니즘을 모두 우회하는 적대적 프롬프트에 대응하는 효과적 방어 체계 필요
Solution:: c·LLM을 활용한 프롬프트 해석 생성으로 적대적 프롬프트의 숨겨진 의도 파악 / 이중 파싱 메커니즘으로 정상과 적대적 프롬프트 구분
Novelty:: 적대적 프롬프트 방어를 위한 최초의 해석 패러다임 프레임워크 / T2I 모델 수정 없이 기존 성능 유지하며 적대적 프롬프트 방어 가능 / 다양한 NSFW 개념에 대한 우수한 일반화 능력과 의사결정 해석 제공
Note:: c·LLM 학습에 Unsafe/safe 구분이 필요하지 않음 / 해석 불가능한 영역에 있지만 NSFW를 생성하는 프롬프트도 존재할까?
Summary
Motivation
- Text-to-Image(T2I) 확산 모델들이 발전함에 따라 고품질 이미지 생성이 가능해졌으나, Not-Safe-For-Work(NSFW) 콘텐츠 생성 등 오용 가능성 증가
- 현재 T2I 모델의 방어 메커니즘은 두 가지로 구분
- Training Interference: 부적절한 개념을 학습 단계에서 제거 → 정상 이미지 품질 저하 및 적대적 공격에 취약
- Post-hoc Content Moderation: 프롬프트 필터나 사후 안전성 검사기 → 적대적 프롬프트에 취약
- 기존 연구들은 주로 텍스트 프롬프트 변형에만 중점을 두어, 두 방어 메커니즘을 모두 우회하는 체계적 공격 방법 필요
- 방어 메커니즘의 효과적 평가와 더 강력한 보안 대책 개발을 위한 연구 필요성 대두
Method

- GuardT2I의 핵심 통찰: 적대적 프롬프트는 시각적으로는 정상 프롬프트와 다르지만, T2I 모델의 잠재 공간에서는 동일한 의미적 정보 포함
- Conditional LLM(c·LLM)을 활용한 Prompt Interpretation 개념 도입
- 텍스트 가이던스 임베딩
을 이용해 프롬프트를 자연어로 "번역" → 입력 프롬프트로 임베딩 생성하고, GuardT2I의 Cross Attention의 Query로 이용. Self-Attention의 쿼리는 토큰으로 Autoregressive하게 생성 - 정상 프롬프트: 입력과 유사한 해석 생성
- 적대적 프롬프트: 숨겨진 NSFW 의도가 드러나는 해석 생성
- 텍스트 가이던스 임베딩

- c·LLM 구조 및 훈련
개의 트랜스포머 블록으로 구성된 디코더 전용 아키텍처 토큰으로 시작하는 시퀀스 을 입력으로 사용 - Self-attention: 토큰 시퀀스
내부 관계 모델링 - Cross-attention: T2I 가이던스 임베딩
(query)와 토큰 시퀀스 출력(key, value) 간 관계 모델링 - Teacher Forcing 기법으로 각 단계에서 실제 토큰을 사용하여 다음 토큰 예측
- 손실 함수:
- 추론 시 가이던스 임베딩
를 조건으로 하여 autoregressive하게 텍스트 생성

- 이중 파싱 메커니즘
- Verbalizer: NSFW 단어 목록 기반 명시적 단어 검출
- Sentence Similarity Checker: 입력 프롬프트와 해석된 프롬프트간 유사도로 검출
- 낮은 유사도 또는 NSFW 단어 포함 시 적대적 프롬프트로 판단
- 적응형 공격에 대한 내성
- T2I와 GuardT2I 동시 공격 시 상충되는 최적화 방향 발생 → 텍스트 임베딩에서 공격적이지 않으면서, 공격적인 영상을 만들기 어려움
- GuardT2I 우회율 증가는 T2I 모델의 NSFW 생성률 감소로 이어짐
Method 검증
- 실험 설정 및 구현 세부사항
- 베이스라인 비교 실험
- GuardT2I는 평균 AUROC 96.77%, AUPRC 96.16% 달성 → 모든 베이스라인보다 우수
- FPR@TPR95 19.26%, ASR 11.68%로 가장 낮은 수치 → 높은 방어 성능과 일관성 입증
- 표준 편차(±3.15 AUROC, ±4.35 AUPRC)가 낮음 → 다양한 공격에 대해 안정적 성능 입증
- 정상 사용 케이스 영향 평가
- FID 52.10, CLIP-Score 0.1502 → 정상 이미지 생성 품질 유지
- 프롬프트 해석 기능을 통해 의사결정 과정의 투명성 제공

Adv. Prompt의 가장 첫 번째 예시의 경우 해석되기 전 문장도 충분히 NSFW임 → 애초에 기존 Safety Checker의 성능이 낮은 듯
- 다양한 적대적 프롬프트에 대한 일반화 능력
- 다양한 NSFW 테마(Violence, Self-harm, Hate, Shocking, Illegal 등)에 대해 90% 이상 AUROC 달성 → 넓은 범위의 위협에 대응 가능
- 단어 클라우드 분석을 통해 적대적 프롬프트의 숨겨진 의도 시각화 가능
- 상용 T2I 서비스 방어 실험
- Midjourney: 10회 질의 Black-Box 공격에서 83.33% 방어 성공률
- Leonardo.Ai: 10회 질의 Black-Box 공격에서 90.00% 방어 성공률
- 서비스별/테마별 취약점 분석 가능 → 맞춤형 방어 전략 개발에 유용
- 적응형 공격 평가
- 다양한 공격 가중치(
)에 따른 GuardT2I 우회율 및 NSFW 생성률 분석 - 최고 적응형 공격 성공률 16%에 불과 → 기존 안전성 검사기(85.48%)보다 월등히 우수
- GuardT2I를 우회하는 프롬프트는 합성 품질이 저하됨 → 위협의 실질적 영향 감소
- 다양한 공격 가중치(