Patch-Level Gaze Distribution Prediction for Gaze Following
Gaze following aims to predict where a person is looking in a scene, by predicting the target location, or indicating that the target is located outside the image. Recent works detect the gaze target by training a heatmap regression task with a pixel-wise mean-square error (MSE) loss, while formulating the in/out prediction task as a binary classification task. This training formulation puts a strict, pixel-level constraint in higher resolution on the single annotation available in training, and does not consider annotation variance and the correlation between the two subtasks. To address these issues, we introduce the patch distribution prediction (PDP) method. We replace the in/out prediction branch in previous models with the PDP branch, by predicting a patch-level gaze distribution that also considers the outside cases. Experiments show that our model regularizes the MSE loss by predicting better heatmap distributions on images with larger annotation variances, meanwhile bridging the gap between the target prediction and in/out prediction subtasks, showing a significant improvement in performance on both subtasks on public gaze following datasets.
Problem:: 기존 Gaze Following 모델들은 단일 가우시안 분포를 강제하여 주석 불일치 문제 발생/Heatmap 예측과 In-Out 예측을 분리하여 처리함으로써 상관관계 무시
Solution:: Patch-Level 시선 분포 예측으로 강제성 완화 및 상관관계 고려
Novelty:: 라벨의 시선 목표 불확실성에 대한 문제를 분석함/시선 목표 예측과 In-Out 예측을 통합하여 수행한 첫 번째 접근 법
Note:: GazeFollow Dataset은 In-Out 평가가 의미없는데 (Test Set은 다 In이라) 학습시 이를 위한 Loss를 사용하면 Test 성능이 떨어짐을 발견
Summary
Motivation
- Gaze Following은 장면 이미지에서 사람이 어디를 보고 있는지를 예측하는 작업
- 최근 연구들은 시선 목표 탐지를 Heatmap Regression 문제로 공식화하고 Pixel-wise MSE Loss를 사용
- 이는 주석된 시선 좌표 주변에 가우시안 커널을 적용하여 생성된 Ground Truth Heatmap과 예측 간의 오차를 최소화하는 방식

- 이는 주석된 시선 좌표 주변에 가우시안 커널을 적용하여 생성된 Ground Truth Heatmap과 예측 간의 오차를 최소화하는 방식
- 그러나 기존 Gaze Following 데이터셋은 훈련 세트에서 각 인물당 하나의 주석만 제공하지만, 실제로는 주석자마다 정확한 시선 목표 위치에 대해 의견 불일치가 존재
- 항상 고해상도에서 단일 가우시안 분포를 예측하도록 강제하는 것은 회귀에 있어 제약이 심함
- 모델이 주석 불일치를 고려하지 않고 동일한 분포 패턴만 예측하도록 편향됨
- Variance가 존재하는 이미지 수가 꽤 많음
- 또한 기존 모델들은 Target 예측과 In/Out 예측(타겟이 이미지 밖에 있는지 예측)을 별도의 작업으로 분리하여 두 작업 간 상관관계를 고려하지 않음
Method

- 기존 모델의 In/Out 예측 분기를 제거하고 Patch-level 시선 분포 예측으로 대체
- Outside 토큰을 추가하여 시선 목표가 이미지 내부 또는 외부 모두를 고려한 분포 예측 가능
- KL Divergence Loss를 사용해 예측 분포와 Ground Truth 분포 간 차이 최소화
- 시선 분포 특징
은 다음 두 가지 Head로 전달됨: - Heatmap 예측 Head: Inside 토큰들을 공간적으로 재구성하여 시선 Heatmap 예측 →
만 사용 - Patch 분포 예측 Head: 모든 토큰(Inside + Outside)을 이용해 패치 확률 점수 예측 →
, 둘 다 사용
- Heatmap 예측 Head: Inside 토큰들을 공간적으로 재구성하여 시선 Heatmap 예측 →
Attention Module

- 시선 분포 특징 계산은 Patch Attention 모듈과 Temporal Attention 모듈을 통해 이루어짐
- Patch Attention: 각 패치 토큰이 전역 장면 정보를 더 잘 이해하도록 함 → Outside Token 하나 추가한 Self-Attention
- Temporal Attention: 비디오에서 인접 시간 프레임의 정보를 집계 → Outside Token 추가 한 채널 줄이고 Self-Attention 후 채널 늘림
Gaze Distribution 예측
- Ground Truth Patch 분포 생성:

- Ground Truth Heatmap에서 각 패치 내 최대값을 해당 패치의 확률 점수로 사용
- 정규화를 통해 패치 분포 생성 (타겟이 이미지 외부인 경우 Outside 토큰에 1, Inside 토큰에 0 할당)
- 이 방법은 다양한 분포 패턴을 생성할 수 있어 단일 가우시안 패턴보다 유연함
Method 검증
다른 연구와 비교
- GazeFollow에서 AUC 0.934 달성 (인간 성능 0.924 초과)
- 모든 메트릭에서 최신 모델들보다 우수한 성능 보임
- VideoAttentionTarget에서도 기존 모델보다 Target 예측과 In/Out 예측 모두에서 향상된 성능
Ablation Study
- Patch Attention 모듈 제거, KL Divergence를 MSE나 BCE로 대체, PDP Head를 원래 In/Out 예측 Head로 대체 등 실험 수행
- KL Loss 없이 Outside 토큰과 Attention만 추가 → 성능 하락
- 모든 변형에서 성능 저하 확인되어 제안 방법의 각 컴포넌트 중요성 입증
- 특히 PDP를 분포 예측 작업으로 공식화하는 것의 중요성 확인
- GazeFollow 테스트 세트를 주석 불일치 점수에 따라 10개 부분으로 나누어 분석
- 높은 불일치 점수를 가진 이미지에서 제안 모델이 VideoAtt 모델보다 현저히 높은 AUC 기록
- 질적 결과를 통해 제안 모델이 불확실한 이미지에서 다중 모달 Heatmap 예측 능력 확인
- GazeFollow 테스트시 In/Out Task를 학습시킨 경우 Heatmap 예측 성능이 저하됨을 발견