Few-Shot Adaptive Gaze Estimation

Seonwook Park12, Shalini De Mello1, Pavlo Molchanov1, Umar Iqbal1, Otmar Hilliges2, Jan Kautz1
1NVIDIA,2ETH Zürich

2019ICCV

(1) 评价:少样本自适应注视估计。

(2)针对问题:

a.由于个体解剖学之间的差异,基于大量数据训练出的注视估计网络限制了对于个体注视估计的准确性。

每个人眼睛的生理结构不同,即使处于同一位置的人盯着同一物体,所获得的视线也可能有差异。眼睛类似于相机,每一双眼睛的内参都不一眼。

b.过度参数化的神经网络并不适合从少数例子中学习,因为它们会很快过度拟合。

(3) 本文的目的:使用小样本自适应凝视估计网络,再少量校准样本情况下处理个性化的凝视估计。

(4)实现的方法:通过一个解耦的编码-解码器架构,以及使用元学习训练的高度适应性的凝视估计器,获得旋转(rotation aware)感知的凝视潜在表征

image-20211118144150719

FAZE framework在给定一组具有地面真实注视方向信息的训练图像的基础上,首先学习一种为注视估计任务量身定制的潜在特征表示。考虑到这些特征,然后学习一个适应性强的注视估计网络adaptable gaze estimation network AdaGEN。使用元学习可以很容易地适应一个强大的个人特定的注视估计网络Person-specific gaze estimation network(PS-GEN),只需很少的校准数据。

实验

https://github.com/NVlabs/few_shot_gaze

The bash script should be self-explanatory and can be edited to replicate the final FAZE model evaluation procedure, given that hardware requirements are satisfied (8x GPUs, where each are Tesla V100 GPUs with 32GB of memory)

需要显卡资源多Orz

We also provide a realtime demo that runs with live input from a webcam in the demo/ folder. Please check the separate demo instructions for details of how to setup and run it.、

给了实时demo。