Toward Semantic Gaze Target Detection

Link
Abstract

From the onset of infanthood, humans naturally develop the ability to closely observe and interpret the visual gaze of others. This skill, known as gaze following, holds significance in developmental theory as it enables us to grasp another person's mental state, emotions, intentions, and more [6]. In computer vision, gaze following is defined as the prediction of the pixel coordinates where a person in the image is focusing their attention. Existing methods in this research area have predominantly centered on pinpointing the gaze target by predicting a gaze heatmap or gaze point. However, a notable drawback of this approach is its limited practical value in gaze applications, as mere localization may not fully capture our primary interest understanding the underlying semantics, such as the nature of the gaze target, rather than just its 2D pixel location. To address this gap, we extend the gaze following task, and introduce a novel architecture that simultaneously predicts the localization and semantic label of the gaze target. We devise a pseudo-annotation pipeline for the GazeFollow dataset, propose a new benchmark, develop an experimental protocol and design a suitable baseline for comparison. Our method sets a new state-of-the-art on the main GazeFollow benchmark for localization and achieves competitive results in the recognition task on both datasets compared to the baseline, with 40% fewer parameters.

Synth

Problem:: 기존 시선 목표 추정 연구는 사실상 좌표 예측이라 실용성이 떨어짐/의미적 정보 추론을 위해선 카테고리가 한정된 검출 모델을 사용해야 함/Semantic 정보가 포함된 HOI 데이터 셋은 시선 목표 추정과 적합하지 않음

Solution:: 언어 모델 임베딩을 이용해 검출 모델 없이 의미적 정보와 시선 목표를 함께 추론/시선 목표 추정에 적합한 GazeHOI 데이터 셋 제안

Novelty:: 최초로 SAM 등의 파운데이션 모델을 이용해 시선 목표와 관련된 의미적 정보를 라벨링/언어 모델 임베딩을 활용한 Recognition 수행

Note:: 저자들은 Vocabulary 기반이라 Zero-Shot도 가능하다고 하지만 성능이 잘 나오진 않음. 다음 스텝으로 시선과 관련된 행동의 동기를 추정해 보는건 어떨까

Summary

Motivation

Method

Text Vocabulary Based Gaze Target Estimation

file-20250319235035199.png

Loss

L=λhmLhm+λlabLlab+λangLang

임베딩과 라벨 매칭 과정

원래 GazeFollow는 시선 목표에 대한 라벨이 없는데, 저자들은 Foundation을 이용한 Pseudo-Annotation으로 할당함

GazeHOI

Method 검증

실험 파트의 Baseline은 Recognition 성능 비교를 위한 것으로, Heatmap만 가지고 Recognition을 했을 때의 성능을 나타냄. 아래 그림의 오른쪽 처럼 CLIP VIsion Model에 넣어 Recognition 성능을 측정하겠다는 의미
file-20250320002153953.png|700