gaze use diff method

1.前人的工作:凝视校准问题也限制了cnn的性能。针对这一问题,许多出版物提出了一种有效且简单的解决方法,即在训练后调整模型的权重[11,21 - 24]。然而,这种解决方案需要许多带有标签的推断图像。Liu等人[25]提出了一种微分网络(Diff-Nn),通过直接预测两张眼睛图像之间的差异信息来解决凝视校准问题。Gu等人[26]开发了Diff-Nn,用于同时使用一张脸的左右眼patch进行凝视估计。其他一些研究提到,基于考虑差异信息的方法的性能直接受到推理图像的数量和特定标签的影响[25,26]。

2.实现的方法:

a.首先将差分信息作为辅助信息处理。通过DRNet中的快捷连接将原始的注视方向和差分信息结合起来。

b.提出了一种新的凝视估计损失函数。例如,原始损失函数评估预测向量的数量与它的地面真值之间的差距,如俯仰和偏航。新的损失函数直接在三维空间中计算预测值与其地面真值向量的交角。

3.贡献:

据我们所知,这是第一个通过结合差分信息的shortcut-connection捷径连接来解决凝视校准问题的研究。我们的贡献可以总结如下:

a.我们提出了DRNet模型,该模型应用了快捷连接来解决凝视校准问题,从而提高了人眼图像的抗噪性。DRNet的性能优于目前最先进的仅使用眼睛特征的凝视估计方法,在结合面部特征的凝视估计方法中也具有很强的竞争力。

b.我们提出了一种新的凝视估计损失函数。它在一定程度上促进了现有的基于外观的方法。

本文其余部分的结构如下。相关工作见第2节。第3节描述了基于管道的DRnet。我们在第4节给出了实验结果。最后,第5节总结了我们工作的主要贡献。

4.1方法:

本文提出了一种带有新的损失函数的DRNet模型来优化凝视估计的性能。具体而言,差分信息被用作DRNet模型的辅助信息。下面是DRNet模型的简要概述。

a. Proposed DRNet

图4显示了拟议的DRNet管道。它由特征提取、差分(DIFF)、调整(AD)和快捷(SC)模块组成。具体来说,DRnet接收两张眼睛图像(即测试和制导图像),其中一张眼睛图像(即制导图像)代表校准图像。此外,两个眼输入图像需要来自同一个人。

b.Feature Extractor

DRNet的原始输入不是单一的眼睛图像,而是同时采用测试和引导眼睛图像。该特征提取器由卷积层(Conv)、批归一层(BN)和整流线性单元(ReLU)组成。然后将这些特征用作从完全连接的层派生的特征.

c. Residual Branch

其他三个组件(即DIFF、AD和SC模块)构成了拟议DRNet架构的剩余分支。更具体地说,DIFF模块负责提供测试和制导图像之间的差异信息, AD模块将差异信息转换为辅助信息。SC模块提供测试图像的基于注视估计的信息。最后,凝视方向代表SC和AD输出的总和。

image-20220928163012338

image-20220930131240386

image-20220930135139569

4.2 The Residual Structure in DRNet

图5为残余结构过程框图。利用特征提取器提取制导和试验图像的特征。这些特性是DIFF模块的输入。另外,将测试图像特征单独传输到SC模块中。

值得注意的是,我们DRNet模型的残差结构是基于ResNet体系结构[37]设计的。DRNet参考了ResNet[37]中快捷连接的思想,通过快捷连接将差异信息和凝视方向结合起来。DRNet中的残差结构由全连通层构造,ResNet中的残差结构由卷积层构造因此,ResNet的残差结构是对特征映射的一次操作,最终输出是两个特征映射的和。因此,DRNet的残差结构作用于一个一维向量上,而最终输出是两个一维向量的和。

4.3 Loss Function

提出一个新颖的损失函数如下:

image-20221010120253223

image-20221010120930335

image-20221010121035997

image-20221010121120298