AL-GTD: Deep Active Learning for Gaze Target Detection

#gaze-target-estimation #gaze-following #self-supervised-learning #pseudo-label #active-learning #acquisition-function

Mar 11, 2025 11:47 AM

Apr 14, 2025 08:35 AM

Link

Abstract

Gaze target detection aims at determining the image location where a person is looking. While existing studies have made significant progress in this area by regressing accurate gaze heatmaps, these achievements have largely relied on access to extensive labeled datasets, which demands substantial human labor. In this paper, our goal is to reduce the reliance on the size of labeled training data for gaze target detection. To achieve this, we propose AL-GTD, an innovative approach that integrates supervised and self-supervised losses within a novel sample acquisition function to perform active learning (AL). Additionally, it utilizes pseudo-labeling to mitigate distribution shifts during the training phase. AL-GTD achieves the best of all AUC results by utilizing only 40-50% of the training data, in contrast to state-of-the-art (SOTA) gaze target detectors requiring the entire training dataset to achieve the same performance. Importantly, AL-GTD quickly reaches satisfactory performance with 10-20% of the training data, showing the effectiveness of our acquisition function, which is able to acquire the most informative samples. We provide a comprehensive experimental analysis by adapting several AL methods for the task. AL-GTD outperforms AL competitors, simultaneously exhibiting superior performance compared to SOTA gaze target detectors when all are trained within a low-data regime. Code is available at https://github.com/francescotonini/al-gtd.

Synth

Problem:: Gaze Target Detection에는 일반적인 Acquisition Function이 적합하지 않음

Solution:: Objectness, Scatteredness, Discrepency를 이용한 새로운 Acquisition Function 제안/Self-supervised learning를 적용해 모델의 강건성 개선/

Novelty:: AL을 적용한 최초의 시도임/도메인에 특화된 Acquisition Function 제안/현존하는 SOTA AL을 재구성해 현 도메인에서 평가

Note:: Object 중심으로 Gaze Heatmap의 중심점이 형성되는 현상 보고

Summary

Motivation

모든 데이터가 모델에게 풍부한 정보를 주지 않기 때문에, 정보가 풍부한 샘플만 라벨링하는 Active Learning이 발전함
- 정보가 풍부한 샘플을 찾는 함수를 Acquisition Function이라 함
Gaze Target Estimation을 위한 데이터는 부족하지만 라벨링 비용은 높음 → Active Learning 적용 가능
일반적으로 Confident가 낮고 Entropy 높은 샘플들이 정보가 풍부함 (모델이 잘 모르는 샘플이므로) → Gaze Target Detection의 경우 모호하여 새로운 Acquisition Function이 요구됨
- High Confident Low Entropy의 샘플을 선택하는 경우 → 한 장면에 다양한 사람과 Object 시선 목표 후보들이 등장하므로, 잘못된 매칭이 발생 할 수 있음
- Low Confident High Entropy의 샘플을 선택하는 경우 → 모델이 제대로 학습되지 않아 나오는 결과로 학습 성능이 너무 낮아 해당 샘플을 라벨링 하더라도 효과적이지 않음
결과적으로, confidence와 entropy의 관점이 아닌 다른 관점들을 이용해 AL을 수행해야 함

Method

노란색은 Augmented Image, 빨간색은 Original Image를 의미함
Augmentation 에시: cropping, horizontal flipping, contrast/brightness changes, 등...

한정된 라벨링 데이터로 모델 학습 → 라벨 안된 데이터에 대해 학습시킨 모델로 Score 측정 → Score가 높은 (정보량이 많은) 것들을 예산안에서 선택해 직접 라벨링 + Pseudo Score가 높은 (사람이 라벨링 할 필요 없을 정도로 쉬운) 샘플은 Pseudo 라벨링 → 정해진 Iteration 동안 반복

GTN

깊이, 얼굴, 장면 정보를 다 사용
Score 계산을 위해 깊이와 얼굴 정보만을 이용해 $M_{A}$ 생성

Supervised/Self-Supervised Training

Supervised Learning
- 예측된 Gaze Heatmap $H_{G}^{a}$ 과 실제(또는 Pseudo) Heatmap ${\tilde{H}}_{G}^{a}$ 사이의 Mean Squared Error(MSE):
Self-Supervised Training
- 같은 이미지의 서로 다른 Augmentation $(a, a^{'}$ ) 간 Gaze 예측이 일관성 있도록 유도하는 손실 (inverse augmentation $A^{- 1}$ 으로 정렬 후 비교):
- 이를 통해 정보성이 낮은 샘플(easy, non-informative)에 높은 점수를 주는 현상을 막고, 능동학습을 더 효과적으로 만듦.
총 손실 (Total Loss)

L_{total} (A) = \sum_{a \in A} \sum_{a^{'} \in A ∖ a} L_{c} (a, a') + \sum_{a \in A} L_{h} (a)

Score 및 Pseudo Score

S c o r e (A) = λ_{1} Γ (A) + λ_{2} Σ (A) + λ_{3} Δ (A)

$λ$ : Learnable Weight
어려운 샘플을 찾기 위함

P s e u d o S c o r e (A) = H_{G}^{P_{H}} (1 - Σ (A))

$H_{G}^{P_{H}}$ : Heatmap의 Peak Value, Confidence를 나타낸다고 볼 수 있음 → High Entropy 일수록 Score가 커짐
$1 - Σ (A)$ : Scatteredness가 크면 Entropy가 크다고 볼 수 있음 → Low Entropy일수록 Score가 커짐
쉬운 샘플을 찾기 위함

Objectness $Γ$

모델이 장면 내의 객체들에 얼마나 쉽게 끌려가는지 나타내는 값.
즉, Heatmap이 사람의 실제 시선(attention) 이 아니라, 단지 전경(foreground)에 있는 물체 중심으로만 쉽게 집중되는 현상을 방지하기 위해 측정함.

γ (O, H_{G}) = max ({c_{o} 1_{O_{H}} (o) : o \in O})

$O$ : 이미지 속 검출된 모든 객체 집합
$H_{G}$ : Gaze Heatmap
$O_{H} \subseteq O$ : Gaze Heatmap의 최대 활성 지점 $P_{H}$ 를 포함하는 객체들의 부분집합
$c_{o}$ : 객체 $o$ 의 Confidence 값
$1_{O_{H}} (o)$ : indicator 함수 (객체가 Heatmap 최대점 포함시 1, 아니면 0)

즉, Heatmap이 객체 영역 안에 집중될수록 $γ$ 가 높아짐.
여러 Augmentation을 고려했을 때 최종값은:

Γ (A) = max ({γ (O^{a}, H_{G}^{a}) : a \in A})

Scatteredness $Σ$

Gaze Heatmap의 활성화가 얼마나 좁은 영역에 밀집(dense) 되어있는지, 혹은 얼마나 흩어져(sparse) 있는지 나타냄.
활성화가 좁은 영역에 밀집된 경우는 모델이 확신을 갖고 예측하는 경우이며, 흩어진 경우는 모델이 불확실한 예측을 하고 있다는 뜻임.
먼저, Heatmap에서 가장 큰 활성점( $π_{1}$ )에서부터, 상위 P개의 가장 먼 활성점( $π_{p + 1}$ )까지의 평균 거리를 계산:

σ (π) = \frac{1}{P} \sum_{p = 1}^{P} ∥ π_{1} - π_{p + 1} ∥_{2}

여러 Augmentation 중 산포도 값이 가장 큰 경우를 대표값으로 선택:

Σ (A) = max ({σ (ρ (H_{G}^{a})) : a \in A})

$ρ (\cdot)$ : $R^{n \times n} \to R^{n^{2} t i m e s 2}$ Heatmap 값을 내림차순으로 정렬하여 활성점 좌표를 얻는 함수.
높은 $Σ$ 는 모델이 불확실한 상태라는 것을 나타냄.

Discrepancy $Δ$

모델이 예측한 얼굴과 깊이 정보를 기반으로 한 Attention Map( $M_{A}$ )과 최종적으로 예측한 Gaze Heatmap( $H_{G}$ ) 사이의 차이.
이 값이 크다는 건, 모델이 얼굴과 깊이정보로 추정한 방향(Attention)과 실제로 시선을 집중한 지점(Gaze)이 일치하지 않는다는 뜻. 즉, 모델이 제대로 이해하지 못하거나, 예측에 어려움을 느끼는 상태.

Attention map $M_{A}$ 와 Gaze Heatmap $H_{G}$ 의 Peak Activation 좌표 간의 유클리드 거리:

δ (M_{A}, H_{G}) = ∥ P_{A} - P_{H} ∥_{2}

여러 Augmentation을 고려했을 때 가장 큰 불일치 값을 대표값으로 사용:

Δ (A) = max ({δ (M_{A}^{a}, H_{G}^{a}) : a \in A})

$P_{A}$ : 얼굴 기반 Attention Map에서의 최대 활성화 좌표
$P_{H}$ : 실제 Gaze Heatmap에서의 최대 활성화 좌표
높은 $Δ$ 값을 가진 샘플을 라벨링하여, Attention Map과 Gaze Heatmap의 차이를 줄일 수 있음.

먼저 논문을 살펴본 후 내용을 분석하고 Method 검증 부분을 작성하겠습니다. Sequential Thinking을 통해 논문의 핵심 내용을 파악해보겠습니다.

Method 검증

타 AL 방법들과의 비교: GazeFollow 및 VideoAttentionTarget 데이터셋에서 다양한 AL 방법과 비교
- AUC 87.67%, 평균 거리 0.208, 최소 거리 0.140으로 모든 비교 방법 중 최고 성능 -> 제안된 Acquisition Function이 정보가 풍부한 샘플을 효과적으로 선택
- 초기 훈련 데이터의 3.7%만 사용 상태에서도 타 방법 대비 우수한 성능(AUC +1.6%) -> 적은 데이터로도 빠른 학습 가능
- VideoAttentionTarget 데이터셋에서도 AUC 90.03% 달성 -> 다른 데이터셋에 대한 일반화 능력 입증
제안 방법의 구성 요소별 영향 분석: SSL, Acquisition Function 구성 요소 각각의 효과 검증
- SSL 제거 시 AUC 2% 이상 감소 -> Self-Supervised Learning 통한 모델 강건성 향상
- Objectness(Γ) 제거 시 AUC 0.47% 감소 -> 객체 중심으로 편향되는 현상 방지
- Discrepancy(Δ) 제거 시 AUC 0.76% 감소 -> Attention Map과 Gaze Heatmap 간 일관성 보장
- Scatteredness(Σ) 제거 시 AUC 0.30% 감소 -> Gaze Heatmap 집중도 측정이 정확도 향상에 기여
- 모든 구성 요소 함께 사용 시 최상 결과 -> 측정 기준들이 상호 보완적으로 작용
다양한 Pseudo-Labeling 비율 영향 분석
- 2% Pseudo-Labeling 적용 시 AUC 0.48% 향상 -> 적절한 의사 레이블링이 성능 향상에 기여
- 5% Pseudo-Labeling에서는 성능 저하 -> 저데이터 체제에서 최적의 Pseudo-Labeling 비율 존재
- Scatteredness(Σ) 기준이 가장 효과적 -> 확신도 높은 샘플 선별에 유리
SSL의 효과: SSL을 다른 AL 방법에 적용 시 영향 분석
- SSL을 다른 방법에 적용 시 성능 향상 -> SSL이 일반적인 AL 방법 성능 개선에 기여
- AL-GTD는 여전히 최고 성능 유지 -> 제안된 Acquisition Function의 근본적 우수성
SOTA 시선 대상 탐지기와의 비교: 저데이터 체제에서 비교
- 훈련 데이터 10% 사용 시 CNN 및 Transformer 기반 모델 대비 큰 성능 향상 -> 제한된 데이터에서 AL-GTD의 효율성
- 훈련 데이터 50% 사용 시 AUC 92.21%로 SOTA 달성 -> 절반의 데이터로 전체 데이터셋 사용 성능과 동등
정성적 분석: 시각화 비교 분석
- 더 집중된 Gaze Heatmap 생성 -> 정확한 시선 위치 예측 능력
- 복잡한 배경에서도 정확한 시선 위치 파악 -> 실제 응용 환경 적용성

Summary

Motivation

Method

GTN

Supervised/Self-Supervised Training

Score 및 Pseudo Score

Objectness Γ

Scatteredness Σ

Discrepancy Δ

Method 검증

Objectness $Γ$

Scatteredness $Σ$

Discrepancy $Δ$