Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery

Link
Abstract

Concept Bottleneck Models (CBMs) have recently been proposed to address the 'black-box' problem of deep neural networks, by first mapping images to a human-understandable concept space and then linearly combining concepts for classification. Such models typically require first coming up with a set of concepts relevant to the task and then aligning the representations of a feature extractor to map to these concepts. However, even with powerful foundational feature extractors like CLIP, there are no guarantees that the specified concepts are detectable. In this work, we leverage recent advances in mechanistic interpretability and propose a novel CBM approach -- called Discover-then-Name-CBM (DN-CBM) -- that inverts the typical paradigm: instead of pre-selecting concepts based on the downstream classification task, we use sparse autoencoders to first discover concepts learnt by the model, and then name them and train linear probes for classification. Our concept extraction strategy is efficient, since it is agnostic to the downstream task, and uses concepts already known to the model. We perform a comprehensive evaluation across multiple datasets and CLIP architectures and show that our method yields semantically meaningful concepts, assigns appropriate names to them that make them easy to interpret, and yields performant and interpretable CBMs. Code available at https://github.com/neuroexplicit-saar/discover-then-name.

Synth

Problem:: 기존 Concept Bottleneck Model은 사람이 특정 과제에 맞춰 사전에 개념을 정의해야 함 / 정의된 개념을 모델이 실제로 탐지할 수 있다는 보장이 없어 설명의 충실도(Faithfulness)에 문제가 생길 수 있음 /새로운 Task마다 개념을 다시 정의하고 학습해야 해 비효율적

Solution:: Sparse Autoencoder를 이용해 Task-Agnostic하게 모델이 이미 학습한 개념들을 자동으로 발견 / SAE의 Decoder 가중치와 CLIP의 텍스트 임베딩 간 유사도를 측정하여 발견된 각 개념에 자동으로 이름을 부여함 / 완성된 개념을 고정시킨 뒤 선형 분류기만 추가하여 과제를 수행

Novelty:: 사람이 개념을 정의하고 모델을 맞추는 것이 아닌, 모델이 아는 개념을 먼저 발견하고 후에 이름을 붙이는 역발상적 'Discover-then-Name' 패러다임 / 특정 과제와 무관하게(Task-Agnostic) 한 번만 개념을 추출하면 여러 과제에 재사용할 수 있는 효율성 / Sparse Autoencoder의 'Decoder 가중치'를 직접 CLIP 텍스트 임베딩과 매칭하여 개념을 자동으로 명명하는 새로운 기법 / 과제마다 LLM에 물어볼 필요 없이 범용적인 개념 집합을 구축함

Note:: 핵심은 잘 정의된 언어 임베딩들을 컨셉으로 이용하는 것 / 언어적으로 이해할 수 없지만 모델 입장에서 이해하기 쉬운 개념들이 존재한다면 해석 가능성은 낮아도 성능은 향상시킬 수 있을까?

Summary

Motivation

Method

file-20250617223949040.png|550

DN-CBM의 전체 파이프라인은 Automated Concept Discovery, Automated Concept Naming, Concept Bottleneck Model의 3단계로 구성됨

Method 검증