Gaze Target Detection by Merging Human Attention and Activity Cues

Link
Abstract

Despite achieving impressive performance, current methods for detecting gaze targets, which depend on visual saliency and spatial scene geometry, continue to face challenges when it comes to detecting gaze targets within intricate image backgrounds. One of the primary reasons for this lies in the oversight of the intricate connection between human attention and activity cues. In this study, we introduce an innovative approach that amalgamates the visual saliency detection with the body-part & object interaction both guided by the soft gaze attention. This fusion enables precise and dependable detection of gaze targets amidst intricate image backgrounds. Our approach attains state-of-the-art performance on both the Gazefollow benchmark and the GazeVideoAttn benchmark. In comparison to recent methods that rely on intricate 3D reconstruction of a single input image, our approach, which solely leverages 2D image information, still exhibits a substantial lead across all evaluation metrics, positioning it closer to human-level performance. These outcomes underscore the potent effectiveness of our proposed method in the gaze target detection task.

Synth

Problem:: 인간의 주의(Attention)와 활동(Activity) 단서 간 연결 관계 고려 부족/얼굴 가시성 제한 상황에서 견고성 부족

Solution:: 5개 신체 부위와 객체 간 상호작용을 학습에 도입하여 Activity와의 연결성 확보/얼굴의 키 포인트를 추출하여 가시성 제한 상황에서 견고성 확보

Novelty:: 인간 주의와 활동 단서를 시선 목표 감지에 통합한 최초 연구/얼굴과 5개 머리 키포인트를 활용한 견고한 시선 주의 메커니즘

Note:: Pretrained 모델(Pose, Object Detection)이 요구됨/자기들 마음대로 AUROC 성능 지표 제거함/2024년도 연구인데 그 이전에 나온 SOTA 연구들 다 성능 비교표에서 제거함 → 이딴게 AAAI?/얼굴이 제대로 나오지 않는 경우에도 동작 → 사실 얼굴은 크게 중요하지 않을지도?

Summary

Motivation

file-20250402202344014.png|475

Method

file-20250402202836639.png

Method 검증

file-20250402204356331.png

얼굴이 제대로 보이지 않거나 이미지 변형으로 인해 인식이 제대로 되지 않는경우 실험