Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models

Link
Abstract

To truly understand vision models, we must not only interpret their learned features but also validate these interpretations through controlled experiments. Current approaches either provide interpretable features without the ability to test their causal influence, or enable model editing without interpretable controls. We present a unified framework using sparse autoencoders (SAEs) that bridges this gap, allowing us to discover human-interpretable visual features and precisely manipulate them to test hypotheses about model behavior. By applying our method to state-of-the-art vision models, we reveal key differences in the semantic abstractions learned by models with different pre-training objectives. We then demonstrate the practical usage of our framework through controlled interventions across multiple vision tasks. We show that SAEs can reliably identify and manipulate interpretable visual features without model re-training, providing a powerful tool for understanding and controlling vision model behavior. We provide code, demos and models on our project website: https://osu-nlp-group.github.io/SAE-V.

Synth

Problem:: Vision Model 해석 방법들이 해석 가능한 특징 제공과 인과적 통제를 동시에 수행 못함 / Feature Visualization은 관찰만 가능하고 검증 불가 / Adversarial Examples는 조작은 가능하나 해석 불가 / Network Dissection은 분산 표현과 Polysemanticity 문제로 신뢰성 부족

Solution:: Sparse Autoencoders (SAEs)를 Vision Transformer에 적용하여 해석과 통제를 통합 / Dense Activation을 Sparse Feature로 분해하여 각 차원이 특정 개념 담당 / 6단계 개입 프로세스로 특정 Feature 값 조작 후 모델 행동 변화 관찰 / Fine-grained Classification과 Semantic Segmentation에서 검증

Novelty:: 과학적 방법론 (관찰→가설→실험)을 Vision Model 해석에 체계적 적용 / Language Supervision이 만드는 추상화 차이 발견 (CLIP: 문화적/추상적 개념 vs DINOv2: 저수준 시각 패턴) / Feature 간 Pseudo-Orthogonality로 독립적 조작 가능 / 기존 모델에 재학습 없이 적용 가능한 Plug-and-Play 방식

Note:: Language Supervision을 이용한 학습이 Semantic 정보를 많이 가지는데, 우리가 해석 가능한 방식은 언어이므로 당연한거라고 봐아햐나?

Motivation

문제제기: Vision Model 이해의 한계

file-20250613233819738.png|500

SAE가 발견하는 다양한 특징들

file-20250613233852849.png|500

Method

file-20250613233945188.png

Method 검증

CLIP Vs DINOv2 비교 분석: 문화적 이해

file-20250613234243851.png

Style-Agnostic Semantic Abstraction

file-20250613234311251.png

Fine-Grained Classification 실험

file-20250613234338012.png

Semantic Segmentation 실험

file-20250613234404996.png

주요 통찰과 시사점