An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

Link
Abstract

Text-to-image models offer unprecedented freedom to guide creation through natural language. Yet, it is unclear how such freedom can be exercised to generate images of specific unique concepts, modify their appearance, or compose them in new roles and novel scenes. In other words, we ask: how can we use language-guided models to turn our cat into a painting, or imagine a new product based on our favorite toy? Here we present a simple approach that allows such creative freedom. Using only 3-5 images of a user-provided concept, like an object or a style, we learn to represent it through new "words" in the embedding space of a frozen text-to-image model. These "words" can be composed into natural language sentences, guiding personalized creation in an intuitive way. Notably, we find evidence that a single word embedding is sufficient for capturing unique and varied concepts. We compare our approach to a wide range of baselines, and demonstrate that it can more faithfully portray the concepts across a range of applications and tasks. Our code, data and new words will be available.

Synth

Problem:: 텍스트-이미지 모델이 발전했지만 특정 고유 개념(사용자 객체, 스타일 등)을 생성하거나 수정하는 능력에 한계 존재 / 새로운 개념을 모델에 도입하기 위한 기존 방법들(재학습, 미세조정)은 비용이 많이 들거나 Catastrophic Forgetting 발생

Solution:: 사전 학습된 텍스트-이미지 모델의 임베딩 공간에서 새로운 Pseudo-Word를 찾는 Textual Inversion 방법 제안 / 사용자가 제공한 3-5장의 이미지만으로 특정 개념을 표현하는 임베딩 벡터를 최적화 / 학습된 pseudo-word를 자연어 문장에 포함시켜 직관적인 방식으로 개인화된 생성 안내

Novelty:: 단일 임베딩 벡터만으로도 다양하고 고유한 개념을 포착 가능함을 입증 / 시각적 재구성 목표를 통해 pseudo-word 학습

Note:: 복잡한 형태 보존에는 여전히 한계 존재 / 최적화 시간이 길다는 단점(단일 개념 학습에 약 1시간 소요)

Summary

Motivation

Method

file-20250417205713099.png|675

Textual Inversion 구현

Method 검증

실험에 사용된 비교 방법들

실험 결과

file-20250417210416850.png|500

정량적 평가

file-20250417211846151.png|775