MPIIGaze数据集,其中包含了从15名参与者在超过三个月的自然日常笔记本电脑使用过程中收集的213,659张图像。
实现了在参与者的笔记本电脑上作为后台服务运行的定制软件。每隔10分钟,软件就会自动要求参与者观看屏幕上随机排列的20个位置(这是一段录音过程),这些位置被可视化为一个正在缩小的灰色圆圈,中间有一个白点。参与者被要求盯着这些点,并在圆圈即将消失时按下空格键确认。这是为了确保参与者专注于任务,并准确地盯着屏幕上预期的位置。研究人员没有给他们任何其他指示,尤其是没有关于如何以及在哪里使用笔记本电脑的限制。由于我们的数据集涵盖了不同屏幕尺寸和分辨率的笔记本电脑型号,屏幕上的注视位置被转换为摄像机坐标系统中的物理3D位置。事先得到了每个摄像机的内部参数。使用基于反射镜的校准方法[33]估计每个屏幕平面的3D位置。
还收共标注了10,848幅图像的随机子集提供人脸注释,以增加数据集对其他任务(如人脸检测和对齐)的价值。他们用总共12个关键点来标注这些图像,遵循扩展的LFW风格[14],另外还包括一个脸部边界框和两个眼睛边界框,以及左右瞳孔位置。
我们从15名参与者那里总共收集了213,659张图片。每个参与者收集的图像数量从34,745到1,498。图3(左)显示了记录会话时间的直方图。虽然对工作时间有一定的偏差,但从图中可以看出记录时间的高度变化。
数据集还包含光照的较大可变性。为了可视化不同的光照条件,图3(底部)显示了人脸区域内平均灰度强度的直方图。图3(右)进一步显示了人脸区域从右侧到左侧的平均强度差异的直方图,它近似于方向光源的统计。
为了进一步描述我们的MPIIGaze数据集与其他近期数据集的比较[8,39],图4总结了头部和凝视角度h, g在归一化空间中的分布。标准化操作如第4.2节所述。每个图对应一个二维直方图,由蓝色(最小值)到红色(最大值)进行颜色编码。虽然UT Multiview数据集(见图4b和4e)是在受控照明条件下记录的,但它包含了合成的眼睛图像的视线和姿势空间。虽然Eyediap数据集主要有两个不同的注视目标,但图4c和4f显示的是2D屏幕目标的分布,这更接近我们的设置。我们的MPIIGaze数据集覆盖了一个2D屏幕空间,就像Eyediap数据集一样;然而,由于摄像机位置的不同,凝视角度的分布并不重叠(见图4a和图4d)。这表明Eyediap数据集没有涵盖在笔记本电脑交互过程中可能发生的注视方向范围,我们的MPIIGaze可以作为更合适的训练和测试注视估计器的基础。
首先采用最先进的人脸检测和人脸特征检测方法来定位从校准的单目RGB相机获得的输入图像中的关键点。然后,我们拟合一个通用的3D面部形状模型来估计检测到的人脸的3D姿势,并应用[3]中提出的空间归一化技术来裁剪和扭曲头部姿势和眼睛图像到归一化的训练空间。CNN用于学习从头部姿势和眼睛图像到相机坐标系中注视方向的映射。
针对基于外观的注视估计方法,提出一种基于CNN的多模态模型。此 CNN 模型的基本结构包括两个卷积层和一个全连接层,以及顶部的线性回归。我们将头部姿势信息放入此 CNN 模型中,方法是将头部姿势角度矢量与全连接层的输出连接起来。