From Feature to Gaze: A Generalizable Replacement of Linear Layer for Gaze Estimation
Deep-learning-based gaze estimation approaches often suffer from notable performance degradation in unseen target domains. One of the primary reasons is that the Fully Connected layer is highly prone to overfitting when mapping the high-dimensional image feature to 3D gaze. In this paper, we propose Analytical Gaze Generalization framework (AGG) to improve the generalization ability of gaze estimation models without touching target domain data. The AGG consists of two modules, the Geodesic Projection Module (GPM) and the Sphere-Oriented Training (SOT). GPM is a generalizable replacement of FC layer, which projects high-dimensional image features to 3D space analytically to extract the principle components of gaze. Then, we propose Sphere-Oriented Training (SOT) to incorporate the GPM into the training process and further improve cross-domain performances. Experimental results demonstrate that the AGG effectively alleviate the overfitting problem and consistently improves the cross-domain gaze estimation accuracy in 12 cross-domain settings, without requiring any target domain data. The insight from the Analytical Gaze Generalization framework has the potential to benefit other regression tasks with physical meanings.
Problem:: 고차원 Feature를 3D Gaze로 매핑하는 FC Layer의 Overfitting이 주요 원인 / FC Layer가 Domain-Specific한 비시선 정보까지 과도하게 학습함
Solution:: 고차원 Feature를 Geodesic Distance 기반 Isomap으로 3D 공간에 투영 / 투영된 3D Feature(PGF)를 적은 파라미터(10개)로 정렬 및 변환하여 Gaze 예측 / Feature Extractor를 PGF가 이상적 구면 분포에 가깝도록 추가 학습
Novelty:: Image Feature 간 Geodesic Distance와 실제 Gaze 각도 차이 간의 선형 비례 관계 발견 및 활용
Note:: Single-View Gaze Estimation이라는 좁은 분야에서 색다른 접근법을 도입한 흥미로운 연구 / ResNet50의 Base 성능(제안방식 X)이 너무 높아 확인할 필요가 있음 → Base 성능이 이미 SOTA임 / 24년도 CVPR인데 자기보다 성능이 좋은 SOTA는 다 비교에서 제외함 (대표적으로 CRGA)
Summary
Motivation
- 기존 Appearance-Based Gaze Estimation 모델은 학습 환경과 다른 새로운 환경(Target Domain)에서 시선 범위, 조명, 외형 변화 등으로 인해 정확도가 크게 떨어짐
- Domain Adaptation 기법은 Target Domain 데이터를 요구하여 실제 적용에 한계가 있으며, Target Domain 데이터 없이 일반화 성능을 높이는 Gaze Generalization이 필요함
- 성능 저하의 주요 원인 중 하나는 고차원 Image Feature를 저차원 Gaze로 Mapping하는 FC Layer의 Overfitting임. FC Layer의 많은 파라미터가 Gaze와 무관한 Domain-Specific 정보까지 학습함
- 핵심 동기: 본 연구는 Feature 공간의 내재적 구조(Intrinsic Structure)와 Gaze의 물리적 구조 사이의 유사성에 주목함

- Gaze 방향은 물리적으로 3D Unit Sphere 표면에 분포하며, 두 Gaze 방향 간의 각도 차이(
)는 해당 지점 간의 구면 거리(Spherical Distance)에 비례함 - Pretrained 모델이 추출한 고차원 Image Feature(
)들이 분포하는 Feature 공간에서도 유사한 관계가 있는지 확인하기 위해, Feature 간 거리 측정 방식을 비교함 - Feature 벡터 간의 단순 직선 거리인 L2 Distance와 달리, Feature Manifold 표면을 따라 측정된 최단 거리인 Geodesic Distance는 데이터의 내재적 구조를 더 잘 반영함
- 관찰 결과 (Observation): 실험적으로 Feature 간 Geodesic Distance가 L2 Distance보다 Gaze 방향 간 각도 차이(
)와 훨씬 더 강한 선형 비례 관계를 보임을 발견함 - 이는 Feature 공간의 내재적 기하 구조가 실제 Gaze의 물리적 기하 구조를 반영하고 있음을 시사함
- Gaze 방향은 물리적으로 3D Unit Sphere 표면에 분포하며, 두 Gaze 방향 간의 각도 차이(
Method
Analytical Gaze Generalization (AGG) Framework

- Domain-Independent한 Geodesic Distance 특성을 이용하여 Feature로부터 Gaze의 Principal Component를 추출하면, Overfitting 없이 Gaze 정보를 효과적으로 포착하여 일반화 성능을 높일 수 있을 것으로 기대함
- AGG는 **GPM (Geodesic Projection Module)**과 **SOT (Sphere-Oriented Training)**로 구성됨
- 사전 학습 (Pretrain):
- Source 데이터로 일반적인 Gaze 모델(Feature Extractor
)을 학습
- Source 데이터로 일반적인 Gaze 모델(Feature Extractor
- GPM 파라미터 결정 (Fix GPM):
- 고정된
로 Feature를 추출하고 Isomap으로 3D PGF(Gaze 주요 특징)를 획득 - PGF와 Gaze 라벨을 사용하여 Sphere Alignment 파라미터(
, 10개)를 최적화하고 고정
- 고정된
- SOT 최적화 (Optimize Extractor):
- Feature Extractor
를 추가로 학습: GPM의 역과정을 이용해 PGF가 이상적인 위치에 가깝도록 을 최적화(Isomap 근사를 위한 MLP(IP) 사용)
- Feature Extractor
- 추론 (Inference):
- 새로운 이미지에서 (SOT로 최적화된)
로 Feature를 추출 - Isomap을 사용하여 3D PGF를 계산
- 고정된 GPM 파라미터(
)를 사용하여 최종 Gaze를 예측
- 새로운 이미지에서 (SOT로 최적화된)
- 사전 학습 (Pretrain):
Geodesic Projection Module (GPM)
- Pretrained 모델의 FC Layer를 대체하여 분석적으로 Gaze를 예측하고 Overfitting을 완화
- PGF 추출: Pretrained Feature Extractor(
)로 추출된 고차원 Feature( ) 집합에 대해 Geodesic Distance 기반 Isomap을 적용, 3D 공간의 **Principle Gaze Feature (PGF, )**를 생성. PGF는 3D Sphere 표면 근처에 분포함

- Sphere Alignment (SA): 추출된 PGF Sphere를 Gaze Label Unit Sphere에 정렬하여 Gaze 예측
- PGF 데이터의 중심 이동 및 회전 (
) - 정렬된 PGF의 Euler Angle을 계산 후, 4개 파라미터(
)를 사용한 선형 피팅으로 최종 Gaze 각도 예측 - 전체 SA 과정(
)은 **총 10개의 학습 가능한 파라미터( )**만 사용하여 Overfitting 위험을 크게 줄임. 이 파라미터는 Source Domain 데이터 일부로 결정 후 고정됨
- PGF 데이터의 중심 이동 및 회전 (
Sphere-Oriented Training (SOT)
- GPM의 이점을 활용하여 Feature Extractor (
) 자체를 최적화하여 일반화 성능을 더욱 향상시키는 학습 단계 - 핵심 아이디어: GPM의 SA 과정은 분석적이므로 역함수(
)를 통해 Ground Truth Gaze( )에 해당하는 **이상적인(Ideal) PGF 위치( )**를 계산 가능 - 최적화 목표:
이 생성한 Feature의 실제 PGF 위치가 이상적인 위치( )에 가까워지도록 를 학습 - Isometric Propagator (IP): Isomap은 Backpropagation에 통합하기 어려우므로, 이를 근사하는 3-Layer MLP인 IP를 도입. IP는 SOT 학습 전에 Isomap의 출력을 모방하도록 사전 학습됨. SOT 중에는 고정된 IP를 사용하여
를 효율적으로 학습시키고, Test 시에는 IP 대신 실제 Isomap을 사용하는 GPM으로 예측함
Method 검증
- GPM 단독 성능 평가
- 실험: FC Layer를 GPM으로 교체 후 Cross-Domain 성능 비교 → 기본 ResNet50의 성능이 너무 높음: 아마 pitch,yaw 대신 x, y, z 예측으로 바꾸었기 때문으로 보임
- 결과: GPM이 FC Layer 대비 대부분의 Cross-Domain 설정에서 더 낮은 오류와 높은 안정성(낮은 표준편차)을 보임. 이는 GPM이 Overfitting에 강건함을 시사. Within-Domain 성능 감소는 일반화를 위한 합리적 트레이드 오프
- AGG Framework 전체 성능 평가
- 실험: 다양한 Backbone(ResNet-18/50, VGG16)에 AGG(GPM+SOT) 적용 후 성능 비교
- 결과: 모든 12개 Cross-Domain 설정에서 Baseline 대비 일관된 성능 향상(최대 35.79% 오류 감소)을 보여 AGG의 효과와 견고성 입증
- SOTA 모델과 비교
- 실험: AGG를 SOTA Gaze Estimation/Generalization 방법들과 비교
- 결과: AGG는 Target Domain 데이터 없이도 다수 설정에서 SOTA 수준 또는 그 이상의 일반화 성능을 달성함
- 핵심 아이디어 및 SOT 검증
- 실험: 다양한 데이터셋에서 Geodesic Distance-Gaze Difference 관계 및 PGF 분포 확인, SOT 전후 Sphere Error 비교
- 결과
- Feature 간 Geodesic Distance와 Gaze Difference 간의 비례 관계는 Domain-Independent하게 유지됨을 확인

- SOT가 PGF의 Sphere Error를 감소시키고 분포를 이상적인 구 형태에 더 가깝게 개선하여 Feature Extractor를 효과적으로 최적화함을 입증

- Isomap이 다른 차원 축소 기법(T-SNE, LLE)보다 Gaze 구조 보존에 효과적임

- Feature 간 Geodesic Distance와 Gaze Difference 간의 비례 관계는 Domain-Independent하게 유지됨을 확인
- 한계점: Loss에 대해서는 Robust 하지만, x, y, z 대신 pitch, yaw를 예측하는 경우에 Feature도 2D Plane에 놓임 → 이 경우에 대한 다른 방법이 필요
