Circumventing Concept Erasure Methods For Text-To-Image Generative Models
Text-to-image generative models can produce photo-realistic images for an extremely broad range of concepts, and their usage has proliferated widely among the general public. On the flip side, these models have numerous drawbacks, including their potential to generate images featuring sexually explicit content, mirror artistic styles without permission, or even hallucinate (or deepfake) the likenesses of celebrities. Consequently, various methods have been proposed in order to "erase" sensitive concepts from text-to-image models. In this work, we examine seven recently proposed concept erasure methods, and show that targeted concepts are not fully excised from any of these methods. Specifically, we leverage the existence of special learned word embeddings that can retrieve "erased" concepts from the sanitized models with no alterations to their weights. Our results highlight the brittleness of post hoc concept erasure methods, and call into question their use in the algorithmic toolkit for AI safety.
Problem:: "개념 제거" 방법론들이 실제로 효과적인지 검증 필요
Solution:: Concept Inversion(CI) 기법 제안 / 모델 가중치 변경 없이 특수 단어 임베딩 학습 / 기존 Textual Inversion 확장하여 각 개념 제거 방법에 맞춤형 접근법 개발
Novelty:: 7가지 개념 제거 방법 모두 우회 가능함을 증명 / 개념이 실제로 제거되지 않고 입력 필터링 수준임을 입증
Note:: SLD와 같은 타임스텝별로 임베딩 스페이스를 동적으로 수정하는 방어 기법은 우회가능 하지만 실용적 장벽을 높임
Summary
Motivation
- Text-to-Image 생성 모델(Stable Diffusion 등)은 사실적인 이미지 생성 능력이 발전하면서 광범위하게 활용됨
- 그러나 이러한 모델들은 성인물, 저작권이 있는 예술 스타일, 유명인의 얼굴 등 부적절한 콘텐츠 생성 가능성을 내포
- 이를 방지하기 위한 접근법들이 등장
- 데이터셋 사전 필터링: 대규모 재학습 필요로 비효율적
- 추론 시간 가이드(Negative Prompt, Safe Latent Diffusion): 모델 가중치 공개 시 우회 가능
- Fine-tuning 기반 개념 제거(Erased Stable Diffusion 등): 특정 개념을 모델에서 영구 제거 주장
- 이러한 방법들이 실제로 모델에서 개념을 완전히 제거하는지 검증 필요
Method
- Concept Inversion(CI): 개념이 "지워진" 모델에서 특정 개념을 복원하는 기법 제안
- 기존 Textual Inversion 기술을 확장하여 각 Concept Erasure 방법에 맞춤화된 접근법 개발
- 공격 방법
- 예시 이미지 수집: 복원하려는 개념(아티스트 스타일, NSFW 콘텐츠, 특정 객체 등)의 예시 이미지를 수집
- 논문에서는 각 개념마다 Google 이미지에서 소수(약 3-5개)의 예시 이미지만 사용했다고 언급
- 특수 임베딩 학습: 특수 플레이스홀더 문자열(c*)에 대응하는 단어 임베딩을 학습
- 최적화 목적 함수
- 기본 목적 함수:
: Concept Inversion의 최종 결과물 : 표준 정규 분포 에서 샘플링된 노이즈
- 기본 목적 함수:
- 복원된 개념 적용
- 학습된 특수 임베딩을 사용하여 지워진 모델에서 이미지 생성
- 일반 프롬프트에 특수 플레이스홀더 문자열(
)을 추가하거나 대체하여 사용 - 예: "A painting in the style of
" → "A painting in the style of "
- 예시 이미지 수집: 복원하려는 개념(아티스트 스타일, NSFW 콘텐츠, 특정 객체 등)의 예시 이미지를 수집
- 연구 대상 Concept Erasure 방법(총 7가지)
- Fine-tuning 기반 방법: 표준적인 Textual Inversion 방식 이용
- Erased Stable Diffusion(ESD): Cross-attention(ESD-x)과 Self-attention(ESD-u) 파라미터를 선택적으로 조정
- Selective Amnesia(SA): 모델의 기억 재구성을 통한 개념 제거
- Forget-me-not(FMN): 특수한 Fine-tuning 방식 적용
- Ablating Concepts(AC): 특정 개념 관련 뉴런 제거
- Unified Concept Editing(UCE): 모델 가중치 직접 편집
- 추론 가이드 기반 방법: 추론 모데릐 샘플링에 의한 과도한 연산량 때문에 기본 목적 함수를 수정하여 사용
- Negative Prompt(NP): 특정 개념을 부정적 프롬프트로 사용
- Safe Latent Diffusion(SLD): 안전 가이드 항으로 생성 과정 제어
- Fine-tuning 기반 방법: 표준적인 Textual Inversion 방식 이용
Method 검증
- 아티스트 스타일 제거 우회: 6개 현대 아티스트 스타일에 대한 인간 연구 수행
- 인간연구: 50명 참가자 대상 시각적 유사도 평가 수행
- 지워진 모델 평가 점수 1.31/5 → CI 적용 후 3.85/5 점수로 상승 → 원본 모델보다도 높은 스타일 일치도 달성
- 시각적으로도 지워진 스타일이 CI를 통해 정확하게 복원됨을 확인
- 객체 제거 우회: Imagenette 데이터셋 10개 클래스(Cassette Player, Chain Saw 등) 대상
- 지워진 모델에서 분류 정확도 77.9% → 13.68%로 감소 → CI 적용 후 68.8%로 복원 → Concept Erasure가 완전하지 않음을 입증
- 모든 erasure 방법에서 동일한 경향 발견 → 기존 방법의 일관된 취약성 시사
- 얼굴 ID 제거 우회: "Brad Pitt"와 "Angelina Jolie"의 얼굴 ID 제거 검증
- GIPHY 유명인 감지기에서 감지율 90.9% → 12.52%로 감소 → CI 적용 후 67.13%로 복원 → ID 보존 능력 확인
- 시각적으로도 원래 인물과 매우 유사한 얼굴 생성 → 얼굴 식별 정보 여전히 모델에 존재함을 입증
- NSFW 콘텐츠 제거 우회: I2P 데이터셋 4,703개 프롬프트 사용
- 감지된 노출 신체 부위 평균 99.75개 → 지워진 모델 26.21개 → CI 적용 후 170.93개로 증가 → 전체적인 안전 메커니즘 우회 가능성 입증
- 모든 방법 중 SLD가 가장 우회하기 어려웠으나, 강도 설정에 따라 CI 성공률 차이 발생 → 완벽한 방어 메커니즘 부재 확인
- 임베딩 전이성 검증: 학습된 CI 임베딩의 원본 모델 적용 테스트
- 학습된 CI 임베딩을 원본 SD 1.4 모델에 적용 가능 → 현재 방법들이 입력 필터링에 가까움을 증명
- CLIP 기반 평가에서 CI가 원본 모델 수준의 재구성 능력과 편집 가능성 보유 → 모델 내 개념 지식 유지됨을 시사