AL-GTD: Deep Active Learning for Gaze Target Detection

Link
Abstract

Gaze target detection aims at determining the image location where a person is looking. While existing studies have made significant progress in this area by regressing accurate gaze heatmaps, these achievements have largely relied on access to extensive labeled datasets, which demands substantial human labor. In this paper, our goal is to reduce the reliance on the size of labeled training data for gaze target detection. To achieve this, we propose AL-GTD, an innovative approach that integrates supervised and self-supervised losses within a novel sample acquisition function to perform active learning (AL). Additionally, it utilizes pseudo-labeling to mitigate distribution shifts during the training phase. AL-GTD achieves the best of all AUC results by utilizing only 40-50% of the training data, in contrast to state-of-the-art (SOTA) gaze target detectors requiring the entire training dataset to achieve the same performance. Importantly, AL-GTD quickly reaches satisfactory performance with 10-20% of the training data, showing the effectiveness of our acquisition function, which is able to acquire the most informative samples. We provide a comprehensive experimental analysis by adapting several AL methods for the task. AL-GTD outperforms AL competitors, simultaneously exhibiting superior performance compared to SOTA gaze target detectors when all are trained within a low-data regime. Code is available at https://github.com/francescotonini/al-gtd.

Synth

Problem:: Gaze Target Detection에는 일반적인 Acquisition Function이 적합하지 않음

Solution:: Objectness, Scatteredness, Discrepency를 이용한 새로운 Acquisition Function 제안/Self-supervised learning를 적용해 모델의 강건성 개선/

Novelty:: AL을 적용한 최초의 시도임/도메인에 특화된 Acquisition Function 제안/현존하는 SOTA AL을 재구성해 현 도메인에서 평가

Note:: Object 중심으로 Gaze Heatmap의 중심점이 형성되는 현상 보고

Summary

Motivation

Method

file-20250312000414293.png|1125

노란색은 Augmented Image, 빨간색은 Original Image를 의미함
Augmentation 에시: cropping, horizontal flipping, contrast/brightness changes, 등...

한정된 라벨링 데이터로 모델 학습 → 라벨 안된 데이터에 대해 학습시킨 모델로 Score 측정 → Score가 높은 (정보량이 많은) 것들을 예산안에서 선택해 직접 라벨링 + Pseudo Score가 높은 (사람이 라벨링 할 필요 없을 정도로 쉬운) 샘플은 Pseudo 라벨링 → 정해진 Iteration 동안 반복

GTN

file-20250312003018057.png|550

Supervised/Self-Supervised Training

Ltotal(A)=aAaAaLc(a,a)+aALh(a)

Score 및 Pseudo Score

Score(A)=λ1Γ(A)+λ2Σ(A)+λ3Δ(A) PseudoScore(A)=HGPH(1Σ(A))

Objectness Γ

모델이 장면 내의 객체들에 얼마나 쉽게 끌려가는지 나타내는 값.
즉, Heatmap이 사람의 실제 시선(attention) 이 아니라, 단지 전경(foreground)에 있는 물체 중심으로만 쉽게 집중되는 현상을 방지하기 위해 측정함.

γ(O,HG)=max({co1OH(o):oO})

즉, Heatmap이 객체 영역 안에 집중될수록 γ가 높아짐.
여러 Augmentation을 고려했을 때 최종값은:

Γ(A)=max({γ(Oa,HGa):aA})

Scatteredness Σ

Gaze Heatmap의 활성화가 얼마나 좁은 영역에 밀집(dense) 되어있는지, 혹은 얼마나 흩어져(sparse) 있는지 나타냄.
활성화가 좁은 영역에 밀집된 경우는 모델이 확신을 갖고 예측하는 경우이며, 흩어진 경우는 모델이 불확실한 예측을 하고 있다는 뜻임.
먼저, Heatmap에서 가장 큰 활성점(π1)에서부터, 상위 P개의 가장 먼 활성점(πp+1)까지의 평균 거리를 계산:

σ(π)=1Pp=1Pπ1πp+12

여러 Augmentation 중 산포도 값이 가장 큰 경우를 대표값으로 선택:

Σ(A)=max({σ(ρ(HGa)):aA})

Discrepancy Δ

모델이 예측한 얼굴과 깊이 정보를 기반으로 한 Attention Map(MA)과 최종적으로 예측한 Gaze Heatmap(HG) 사이의 차이.
이 값이 크다는 건, 모델이 얼굴과 깊이정보로 추정한 방향(Attention)과 실제로 시선을 집중한 지점(Gaze)이 일치하지 않는다는 뜻. 즉, 모델이 제대로 이해하지 못하거나, 예측에 어려움을 느끼는 상태.

Attention map MA와 Gaze Heatmap HG의 Peak Activation 좌표 간의 유클리드 거리:

δ(MA,HG)=PAPH2

여러 Augmentation을 고려했을 때 가장 큰 불일치 값을 대표값으로 사용:

Δ(A)=max({δ(MAa,HGa):aA})

먼저 논문을 살펴본 후 내용을 분석하고 Method 검증 부분을 작성하겠습니다. Sequential Thinking을 통해 논문의 핵심 내용을 파악해보겠습니다.

Method 검증