Unified Concept Editing in Diffusion Models

Link
Abstract

Text-to-image models suffer from various safety issues that may limit their suitability for deployment. Previous methods have separately addressed individual issues of bias, copyright, and offensive content in text-to-image models. However, in the real world, all of these issues appear simultaneously in the same model. We present a method that tackles all issues with a single approach. Our method, Unified Concept Editing (UCE), edits the model without training using a closed-form solution, and scales seamlessly to concurrent edits on text-conditional diffusion models. We present scalable simultaneous debiasing, style erasure, and content moderation by editing text-to-image projections, and perform extensive experiments demonstrating improved efficacy and scalability over prior work. Our code is available at unified.baulab.info.

Synth

Problem:: 텍스트-이미지 디퓨전 모델이 저작권 침해, 편향성, 부적절한 콘텐츠 생성 등 여러 안전 문제 동시 발생 / 기존 방법들은 각 문제를 개별적으로 다루어 실용성 부족 / 데이터 큐레이션만으로는 해결 어렵고 추론 시간 필터링은 우회 가능

Solution:: 디퓨전 모델의 Cross-Attention 가중치를 Closed-Form 수식으로 직접 수정 / 개념 지우기, 편향 제거, 콘텐츠 조절을 통합 방법으로 처리 / 편집 개념과 보존 개념을 명시적으로 구분하여 간섭 최소화

Novelty:: 추가 훈련 없이 즉시 계산 가능한 닫힌 형태 해법 제공 / 여러 개념 동시 편집과 다중 속성(성별, 인종 등) 편향 처리 가능

Note:: 500개 이상에서는 이미지 품질 저하 → 이 논문에서 많은 컨셉 제거에 의한 생성 품질 저하를 처음 보고한 것 같음 / NSFW뿐만 아니라 편향 제거에도 초점을 맞춤 (이 분야의 기본적ㅇ니 연구 방향인가?) / 핵심은 텍스트만 학습 없이 가지고 개념 보존과 수정을 수행 한 것

Summary

Motivation

Method

file-20250418074922908.png|600

Method 검증

지우기(Erasing) 실험

file-20250418075130330.png|550

지운 스타일의 수가 많아져도 지우려는 스타일을 잘 지움

file-20250418075903270.png|550

지운 스타일의 수가 많아져도 지우지 않은 스타일을 잘 보존함 → 다른 방법들은 보존하지 못함

편향 제거(Debiasing) 실험

file-20250418080047271.png|550

콘텐츠 조절(Moderation) 실험

file-20250418081138651.png|525