CLIP-Gaze: Towards General Gaze Estimation via Visual-Linguistic Model

Link
Abstract

Gaze estimation methods often experience significant performance degradation when evaluated across different domains, due to the domain gap between the testing and training data. Existing methods try to address this issue using various domain generalization approaches, but with little success because of the limited diversity of gaze datasets, such as appearance, wearable, and image quality. To overcome these limitations, we propose a novel framework called CLIP-Gaze that utilizes a pre-trained vision-language model to leverage its transferable knowledge. Our framework is the first to leverage the vision-and-language cross-modality approach for gaze estimation task. Specifically, we extract gaze-relevant feature by pushing it away from gaze-irrelevant features which can be flexibly constructed via language descriptions. To learn more suitable prompts, we propose a personalized context optimization method for text prompt tuning. Furthermore, we utilize the relationship among gaze samples to refine the distribution of gaze-relevant features, thereby improving the generalization capability of the gaze estimation model. Extensive experiments demonstrate the excellent performance of CLIP-Gaze over existing methods on four cross-domain evaluations.

Synth

Problem:: Gaze Estimation 모델의 Cross-Domain 성능 저하 / Gaze-Irrelevant Factor의 강한 영향력

Solution:: 언어 설명 기반 Gaze-Irrelevant Feature 생성 및 Gaze-Relevant Feature 와의 분리 / 개인화된 Prompt Tuning을 위한 Personalized Context Optimization (PCO) 제안 / 샘플 간 관계를 이용한 Feature 분포 개선을 위한 Feature Rank Loss 제안

Novelty:: Gaze Estimation 분야 최초의 Vision-Language Cross-Modality 접근법 적용

Note:: Gaze Estimation에 갑작스런 CLIP 사용 → 흥미로움 / PCO를 제안해서 당연히 떠오르는 Text Embedding으로만 Irrelevant Feature가 매칭 된다고? 라는 질문에 대답 / 연산량 많고 효과 좋은 Contrastive Regression Loss인 Feature Rank Loss

Summary

Motivation

Method

CLIP-Gaze Framework

file-20250422214957631.png|775

Learning Robust Gaze Representation

핵심 아이디어: Gaze Feature Extractor와 Clip Vision Encoder의 Feature를 Align → MLP 하나 통과시킨 다음 Gaze Irrelevant Text Feature와 멀어지게함

  1. Distill to CLIP Feature Space (Ld): Gaze Model의 Feature f를 CLIP의 fv와 유사하게 만들어 CLIP의 풍부한 Feature Space로 정렬

    (1)Ld(f,fv)=1(ffvffv+1)0.5
  2. Separate Gaze-relevant Feature (Lir): 학습 대상인 fre를 고정된 fkir와 최대한 멀어지게 (유사도를 낮추게) 하여 Gaze-Irrelevant 정보를 제거. 각 샘플과 k-번째 Factor 간의 연관도 wk를 계산하여 관련 없는 Factor의 영향을 줄임

    (2)Lir(fre,{fkir}k=1K)=k=1Kwkfrefkirfrefkir

    (여기서 W=softmax(w1,...,wK), wk=ffkirffkir)

  3. Gaze Estimation (Lg): Angular Error를 사용하여 예측 Gaze g^와 실제 Gaze g의 차이를 최소화

    (3)Lg(g^,g)=arccos(g^gg^g)

Improvements

  1. Personalized Context Optimization (PCO): 아까 정의한 "An image of a face with glass"는 Gaze Irrelevant라고 하기에 모자라서 개선
    file-20250422215932173.png|550

    • 목적: Prompt Engineering의 어려움을 해소하고, 각 개인(Identity)에게 맞는 더 적합한 Text Prompt를 학습하여 정확한 fkir를 생성하기 위함

    • 학습: Face Attribute Classification을 Proxy Task로 사용. 3DMM에서 추출한 개인별 Identity Feature(fm)를 Meta-Net에 입력하여 Input-Conditional Token(π)을 생성하고, 이를 기존 Context Vector에 더해 개인화된 Prompt tk(fm)를 만듦. Positive/Negative Prompt Feature(fkt,fkt)와 Image Feature(fv) 간의 유사도를 이용한 분류 손실 함수(pk 최대화)로 학습 → 얼굴 Attribute 뽑는 모델(3DMM) Feature로 개인화된 특징 얻은 다음, 이걸 토큰화(Meta-Net)해서 Learnable Token(vi)에 더한 다음 학습하면 Text Feature가 더 Gaze Relevant 해지겠지?

      pk=exp(sim(fv,fkt)/τ)exp(sim(fv,fkt)/τ)+exp(sim(fv,fkt)/τ)
  2. Feature Rank Loss (Lre): Contrastive Supervision 좋아보이는데, Regression에 맞게 수정해서 쓸게

    • 목적: 개별 샘플 학습의 한계를 넘어, 샘플 간의 관계를 활용하여 fre의 분포를 실제 Gaze Label(g)의 분포와 유사하게 정렬함으로써 Feature의 Robustness 향상

    • 방법: 샘플 쌍 (i,j)에 대해 Label Similarity (sijg)와 Feature Similarity (sijf)를 계산. 모든 쌍을 sg 기준으로 정렬했을 때, sf의 순서도 동일하게 유지되도록 Ranking Loss 적용. S12는 Feature Similarity에 대해 s1g>s2g이면 1, 아니면 -1

      (4)Lre=max(0,S12(s1fs2f))

Method 검증

실험 설정

실험 결과