Erasing Concepts from Diffusion Models

Link
Abstract

Motivated by concerns that large-scale diffusion models can produce undesirable output such as sexually explicit content or copyrighted artistic styles, we study erasure of specific concepts from diffusion model weights. We propose a fine-tuning method that can erase a visual concept from a pre-trained diffusion model, given only the name of the style and using negative guidance as a teacher. We benchmark our method against previous approaches that remove sexually explicit content and demonstrate its effectiveness, performing on par with Safe Latent Diffusion and censored training. To evaluate artistic style removal, we conduct experiments erasing five modern artists from the network and conduct a user study to assess the human perception of the removed styles. Unlike previous methods, our approach can remove concepts from a diffusion model permanently rather than modifying the output at the inference time, so it cannot be circumvented even if a user has access to model weights. Our code, data, and results are available at erasing.baulab.info.

Synth

Problem:: 대규모 디퓨전 모델이 원치 않는 콘텐츠(성인물, 저작권 있는 아티스트 스타일)를 생성하는 문제 / 기존 방식(데이터셋 필터링, 추론 시간 검열)은 비용이 많이 들거나 쉽게 우회 가능

Solution:: 텍스트 설명만을 사용하여 모델 가중치에서 특정 개념을 영구적으로 제거하는 Fine-tuning 방법 제안 / 부정적 가이던스를 통한 자기 지도 학습으로 추가 데이터 없이 개념 제거

Novelty:: 모델 가중치 수준에서 직접 개념을 제거하여 우회 불가능한 안전장치 구현 / Cross-attention과 Self-attention 파라미터의 선택적 조정을 통한 맞춤형 개념 제거 방식

Note:: 근데 FT를 한다는거 자체가 이미 추가 연산량이 소모되는 게 아닌가?

Summary

Motivation

Method

file-20250407200438302.png

file-20250407200501859.png|550

Cross-Attention은 프롬프트에 명시된 Feature, Self-Attention은 프롬프트와 무관하게 알고있는 Feature에 관여

Method 검증

예술 스타일 제거

성인물 콘텐츠 제거

객체 제거

메모리화된 이미지 제거

가이던스 강도(η) 효과

Limitation