xgaze_competition

2021Gaze Estimation with an Ensemble of Four Architectures

abstract

提出了一种基于人脸图像的视线估计方法。

我们培训了几种采用四种不同网络架构的凝视估计器,包括一种为凝视估计器设计的架构(即iTracker MHSA)和三种最初为一般计算机视觉任务设计的架构(即BoTNet、HRNet和ResNeSt)。

然后,我们选择最好的六个估计器,并通过线性组合对它们的预测进行集成。该方法在ETH XGaze竞赛中排名第一,在ETH XGaze测试集上平均角度误差为3.11◦。

Introduction

考虑到ETH XAzee中的各种设置,包括视点变化、极端凝视角度、照明变化和眼镜等遮光罩,准确地对其进行凝视估计是一个挑战。

像Resnet-50这样的基本神经模型在变化的环境中提供足够精确的信息方面存在局限性,需要探索更精细的网络结构以获得更高的精度。

在本文中,我们提出了一种基于iTracker[14]和其他三种架构的凝视估计网络,用于一般计算机视觉目的。我们探讨了多尺度、分裂注意网络和不同训练技术在凝视估计任务中的效用。

Methods

3.1. iTracker-MHSA

zff:修改网络回归出pitch和yaw。使用transformer。多头注意力,self-attention。蛮力挖掘,将前30%样本的损失加倍。

为了解决注视点估计问题,Krafka等人[14]提出了iTracker,它结合了左眼和右眼图像、人脸图像以及人脸网格信息的信息。面部网格指示面部区域在用于注视点估计的捕获图像中的位置。我们对iTracker进行了一些改进,用于我们的视线方向估计任务,与iTracker相比,在输入和架构方面的关键修改总结如下。

变压器编码器的子网络结构如图2所示。变压器编码器有两个子层。第一个是多头自我注意层,第二个是完全连接的前馈网络。我们在两个子层的周围实现了一个剩余连接,并使用层规范化来规范化和。因此,每个子层的输出是LayerNorm(x个子层(x)),其中子层是一个多头自我注意层或前馈层。有关多头自我注意机制的详细信息,请参见[20]。给定由主干提取的人脸和眼睛特征作为输入,编码器输出具有相同输入形状的编码特征。

为了在给定的人脸图像中定位眼睛的位置,我们使用hr net w18[21]来检测人脸标志。由于检测到的面部地标是小数,我们使用RoI align[9]来裁剪眼睛图像,以获得准确的眼睛位置。

在培训iTracker MHSA期间,执行在线硬示例挖掘策略[17],以确保模型处理硬示例的能力。具体地说,我们将样本损失按批次独立排序,并将前30%样本的损失加倍。

3.2. BoTNet

为了提取图像特征并改进图像分类、目标检测等下游任务,人们提出了许多网络结构。其中一些在我们的注视估计任务中被证明是有效的。BoTNet[18]提出了一种方法,用Transformer[20]中提出的多头自我注意层替换空间卷积层,这有助于网络学习输入的全局特征。图3显示了如何将Resnet瓶颈块更改为瓶颈transformer[18]中描述了多头自我注意层的结构。我们设计了一个botNet的网络,如图4所示。我们使用步长2和最大池的卷积对输入特征图进行下采样,然后通过三个resnet瓶颈块和三个块transformer获得2048维特征,然后通过两个完全连接的层完成注视估计。

3.3. HRNet

眼睛的高分辨率表征学习在注视估计中起着重要作用。与其他对特征地图进行下采样的网络不同,HRNet[19]开发了一种创造性的方法,在模型的整个推理过程中保持输入的高分辨率表示。HRNet并行连接高分辨率和低分辨率卷积,并重复执行并行卷积之间的融合,以实现高分辨率表示。我们使用HRNetV2-W64[19]学习输入人脸图像的1000dim高分辨率表示。基于HRNet主干网,我们添加了两个完全连接层(1000-128-2)来学习从1000维表示到2维注视结果的映射。

3.4ResNeSt ResNeS

是一种网络体系结构,它将通道注意与多路径表示策略相结合,以提高网络表示能力。ResNeSt块在低维特征上执行一系列转换,并将其输出连接在多路径网络中。每次转换都会执行一个通道式注意策略,以捕捉不同特征地图之间的关系。与HRNet方法一样,我们使用ResNeSt269[24]作为主干来提取特征,并在主干之后使用三个完全连接层(2048-128-128-2)来估计注视方向.