PnP-GA+: Plug-and-Play Domain Adaptation for Gaze Estimation Using Model Variants

Link
Abstract

Appearance-based gaze estimation has garnered increasing attention in recent years. However, deep learning-based gaze estimation models still suffer from suboptimal performance when deployed in new domains, e.g., unseen environments or individuals. In our previous work, we took this challenge for the first time by introducing a plug-and-play method (PnP-GA) to adapt the gaze estimation model to new domains. The core concept of PnP-GA is to leverage the diversity brought by a group of model variants to enhance the adaptability to diverse environments. In this article, we propose the PnP-GA+ by extending our approach to explore the impact of assembling model variants using three additional perspectives: color space, data augmentation, and model structure. Moreover, we propose an intra-group attention module that dynamically optimizes pseudo-labeling during adaptation. Experimental results demonstrate that by directly plugging several existing gaze estimation networks into the PnP-GA+ framework, it outperforms state-of-the-art domain adaptation approaches on four standard gaze domain adaptation tasks on public datasets. Our method consistently enhances cross-domain performance, and its versatility is improved through various ways of assembling the model group.

Synth

Problem:: Deep Learning 기반 Gaze Estimation Model이 새로운 Domain(환경, 사람 등)에 적용될 때 발생하는 성능 저하 문제 / 기존 Domain Adaptation 방법들의 Label 의존성 및 UDA의 어려움

Solution:: 다양한 Model Variants Group의 예측 다양성을 활용하는 Plug-and-Play 방식의 UDA Framework (PnP-GA+) 제안 / Collaborative Learning, Outlier-Guided Adaptation, Intra-Group Attention Module을 통해 Adaptation 수행

Novelty:: Model Variants Group을 활용한 UDA 접근 방식 확장 (Color Space, Data Augmentation, Model Structure 관점 추가) / Adaptation 중 Pseudo-Label을 동적으로 최적화하는 Intra-Group Attention Module 제안 / Outlier-Guided Loss를 통한 효과적인 Adaptation

Note:: 한번의 Adaptation을 하기 위한 Group Pretraining이 너무 많음 / ICCV 2021년도 논문을 개선한 저널 논문이라 지금 시점에서는 약간 뒤쳐짐

Summary

Motivation

Method

file-20250509231750062.png

세부 설명

  1. Collaborative LearningTarget이 들어왔을 때 Moving Average랑 원래 그룹이랑 Feature 분포 맞춤
    • 두 개의 모델 그룹(기본 그룹 G, 시간적 평균을 내는 Momentum Group G)이 서로 학습을 도움
    • 두 그룹 간 Feature 분포의 유사성을 유지 (LJS)
  2. Outlier-Guided Adaptation두 모델이 동일한 입력에 대해 서로의 예측에 너무 벗어나지 않도록 함
    • Momentum Group G의 예측을 사용하여 Pseudo-Label (평균 μ, 분산 σ2)을 생성 (PL-Mapping)
    • 이 Pseudo-Label을 기준으로 각 모델의 예측(gk)이 정해진 범위 밖(Outlier)이면 더 큰 패널티를 부여하는 Loss (LOG) 사용
    • Source Domain의 실제 Label을 활용한 Loss (LSG)도 함께 사용 → Source 정보 안 까먹으려고
  3. Intra-Group Attention Module그룹 내 모델들의 예측을 그냥 사용하지 않고 더 좋은 모델의 예측에 가중치를 높여서 사용
    file-20250510011301333.png|425
    • Pseudo-Label 생성 시, 단순히 모델 예측을 평균 내는 대신, Source Domain 데이터에 대한 각 모델의 정확도에 따라 가중치(wk)를 부여
    • 더 정확한 모델이 Pseudo-Label 생성에 더 큰 영향을 미치도록 하여 Adaptation 성능 향상
  4. Group Assembling여러 그룹들의 예측으로 더 좋은 Pseudo Label을 만들기 때문에 다양성 확보
    file-20250510011840813.png|450
    • Model Variants Group은 다음 네 가지 관점에서 다양하게 구성 가능:
      • Color Space: 다른 색 공간으로 학습
      • Data Augmentation: 다른 데이터 증강 기법 사용
      • Model Structure: 다른 신경망 구조 사용
      • Iteration: 학습 중 다른 Epoch의 모델 사용

Method 검증

Plugging the Existing Gaze Estimation Networks

Comparison With State-of-the-Art Domain Adaptation Approaches

Analysis of Group Assembling From Various Perspectives