Conditional Generation from Unconditional Diffusion Models using Denoiser Representations

Link
Abstract

Denoising diffusion models have gained popularity as a generative modeling technique for producing high-quality and diverse images. Applying these models to downstream tasks requires conditioning, which can take the form of text, class labels, or other forms of guidance. However, providing conditioning information to these models can be challenging, particularly when annotations are scarce or imprecise. In this work, we propose adapting pre-trained unconditional diffusion models to new conditions using the learned internal representations of the denoiser network. We demonstrate the effectiveness of our approach on various conditional generation tasks, including attributeconditioned generation and mask-conditioned generation. Additionally, we show that augmenting the Tiny ImageNet training set with synthetic images generated by our approach improves the classification accuracy of ResNet baselines by up to 8%. Our approach provides a powerful and flexible way to adapt diffusion models to new conditions and generate high-quality augmented data for various conditional generation tasks.

Synth

Problem:: 기존 Diffusion Model로 특정 조건(예: '웃는 얼굴')의 이미지를 만들려면 라벨 데이터가 많이 필요함 / 라벨이 적으면 조건을 알려주기 어렵고, 모델을 새로 학습하거나 크게 고쳐야 함 / 특히 픽셀 단위의 세밀한 조건(예: 특정 영역 마스크)은 더 어려움

Solution:: Classifier Guidance를 위한 분류기 학습에서 라벨, 노이즈 쌍을 이용한 학습이 라벨, 클린 이미지 쌍을 이용한 학습으로 근사 / 실제로는 노이즈 제거 중간 단계 이미지에서 추출한 Denoiser의 특징(Feature) 을 조건 만족 여부를 판단하는 분류기(Guidance Classifier)에 입력하여 학습 / 데이터가 조금 더 있다면, 모델을 약간 수정(Fine-tuning)하고, 추가로 원본 Unconditional Denoiser의 내부 정보로 '잘못 만들어진 이미지'를 골라내는 분류기(Rejection Classifier) 를 만들어 결과 필터링

Novelty:: Denoiser의 내부 정보를 직접 사용하여 적은 데이터만으로도 원하는 조건의 이미지를 만들도록 유도

Note:: 단순하게 Classifier Guidance의 Classifier 학습에 노이즈 이미지 대신 Unet Feature를 사용하는 방식

Summary

Motivation

Method

Learning the Guidance Signal Using Denoiser Representations

Combining Adaptation with Denoiser Representations

Method 검증

Few-shot Guidance for Face Attributes

Few-shot Guidance for Semantic Segmentations

Mask-conditional Generation on Faces

Mask-conditional Generation with Large Diffusion Models

Synthetic Data Augmentation