Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning

Link
Abstract

Although pretrained language models can be fine-tuned to produce state-of-the-art results for a very wide range of language understanding tasks, the dynamics of this process are not well understood, especially in the low data regime. Why can we use relatively vanilla gradient descent algorithms (e.g., without strong regularization) to tune a model with hundreds of millions of parameters on datasets with only hundreds or thousands of labeled examples? In this paper, we argue that analyzing fine-tuning through the lens of intrinsic dimension provides us with empirical and theoretical intuitions to explain this remarkable phenomenon. We empirically show that common pre-trained models have a very low intrinsic dimension; in other words, there exists a low dimension reparameterization that is as effective for fine-tuning as the full parameter space. For example, by optimizing only 200 trainable parameters randomly projected back into the full space, we can tune a RoBERTa model to achieve 90% of the full parameter performance levels on MRPC. Furthermore, we empirically show that pre-training implicitly minimizes intrinsic dimension and, perhaps surprisingly, larger models tend to have lower intrinsic dimension after a fixed number of pre-training updates, at least in part explaining their extreme effectiveness. Lastly, we connect intrinsic dimensionality with low dimensional task representations and compression based generalization bounds to provide intrinsic-dimension-based generalization bounds that are independent of the full parameter count.

Synth

Problem:: 수백만 개의 파라미터를 가진 언어 모델이 적은 데이터로도 효과적으로 Fine-tuning되는 현상을 설명하기 어려움 / 기존 접근법으로는 Low Data Regime에서 정규화 없이도 높은 성능을 보이는 이유를 이해하기 어려움

Solution:: Intrinsic Dimensionality라는 개념을 도입하여 언어 모델 Fine-tuning의 효과를 분석 / 모델이 저차원의 Intrinsic Dimensionality에서 최적화 되므로 적은 데이터로도 높은 성능 달성 가능을 보임 / Structure-Aware Intrinsic Dimension(SAID) 방법으로 더 효과적인 측정 방법 제안

Novelty:: 사전학습된 언어 모델이 매우 낮은 Intrinsic Dimension을 가짐을 발견 / 모델 크기가 클수록 Intrinsic Dimension이 감소하는 역상관관계 증명 / Pre-training이 다운스트림 태스크의 압축 프레임워크를 학습한다는 새로운 해석 제시 / 전체 파라미터 수가 아닌 Intrinsic Dimension에 기반한 일반화 경계 제시

Note:: 이 연구는 LoRA와 같은 파라미터 효율적인 Fine-tuning 기법의 이론적 기반 제공

Summary

Motivation

Method

file-20250403204140638.png|700

점선이 각 모델을 Full Finetuning 했을 때의 90% 성능. 90%를 달성하기 위해 학습해야하는 파라미터 수가 많지 않음을 볼 수 있음

Method 검증

Sentence Prediction Tasks의 Intrinsic Dimension 측정

Pretraining과 Intrinsic Dimension의 관계

Parameter Count와 Intrinsic Dimension의 관계

Intrinsic Dimension과 일반화 성능의 관계

이론적 일반화 경계 분석