[2015IEEEtransaction in multimedia]Deep_Head_Pose_Gaze-Direction_Estimation_in_Multimodal_Video.pdf

我想找到哪个有b。。的gaze数据集

[2015IJCV]Gaze Estimation in the 3D Space Using RGB-D sensors.pdf

针对问题：

1.与以往大多数仅限于屏幕凝视的应用的工作不同，解决了传感器在三维环境中的三维视线估计问题。

2.解决由于使用传感器而导致的眼睛图像的低分辨率问题。

可以看完这篇后看一下引出的matrix。

评价：

1.针对问题1，

a）利用RGB-D相机的深度数据执行精确的头部姿势跟踪，

b）通过3D校正过程获取头部姿势不变性，该过程将头部姿势相关的眼睛图像渲染成标准视点，并计算3D空间中的视线。

2.针对问题2，依赖基于外观的凝视估计范式，该范式已证明对低分辨率这一因素具有鲁棒性。

3.在文章中提出的框架内对于基于外观的策略进行了比较。研究了这些方法对于不属于数据集中的新个体的算法推理表现。在公共数据集上进行大量视线估计的实验，并且把算法应用于面试过程。

解决了在不同头部姿势和用户使用remote RGB-D相机时基于外观的凝视估计问题。

深度传感器的好处

基于appearance的视线估计。眼睛外观因用户、头部姿势、照明条件、图像分辨率和对比度、眼睑形状和运动、镜面反射、运动模糊、自遮挡等而不同。

仅从视觉域（RGB）推断形状信息仍然困难且成本高昂。深度传感器提供了场景形状的明确和可靠的测量，而不是嵌入RGB数据中的隐式形状信息。

方法简介

得益于消费者RGBD传感器，将眼睛外观校正为标准的头部姿势视点。依赖于深度信息来执行头部姿势的精确跟踪，并根据估计的头部姿势对眼睛纹理进行深度驱动的扭曲。传感器提供的原始深度信息，或由拟合的3D变形模型（3DMM）产生的眼球表面深度。

校正框架的主要优点是将头部姿势不变性引入现有的基于外观的凝视估计方法中。

为了解决眼睛区域裁剪和对齐问题，这是避免视线估计偏差的关键步骤，提出了一种使用同步对齐对眼部进行更精细剪裁的新方法。并表明该方法适用于几种最新的基于用户独立外观的方法。尽管输入眼睛图像的分辨率较低，注视方向范围较大，姿势变化较大，但仍获得了令人满意的结果。

一些别的方法介绍

Funes Mora和Odobez（2012）建议使用深度数据将眼睛外观校正为标准的头部视点，爱格等人（2014）后来使用了这种方法，该方法依赖于与2D图像相匹配的3D人脸模型，而不是深度数据。

翻译

abstract

我们解决了传感器在三维环境中的三维视线估计问题，这对于人与人的交互和人机交互的应用都非常有价值。与以往大多数仅限于屏幕凝视的应用的工作不同，我们建议利用RGB-D相机的深度数据执行精确的头部姿势跟踪，通过3D校正过程获取头部姿势不变性，该过程将头部姿势相关的眼睛图像渲染成标准视点，并计算3D空间中的视线。

为了解决由于使用传感器而导致的眼睛图像的低分辨率问题，我们依赖基于外观的凝视估计范式，该范式已证明对该因素具有鲁棒性。在此背景下，我们在我们的框架内对最近基于外观的策略进行了比较研究，研究了这些方法对不可见个体的推广，并提出了一种基于凝视同步眼睛图像直接配准的跨用户眼睛图像对齐技术。我们通过在一个公共数据集上进行的大量凝视估计实验以及应用于自然工作面试的凝视编码任务，证明了我们方法的有效性。

1.introduction

1.1 Motivations

视线估计的好处和应用。互动，广告啥的。
rgb有各种模糊问题
ir或者头戴式设备贵
depth提供了形状信息，有帮助
深度对于头部位姿估计有帮助，这是却似那个注视方向之前必要的步骤。凝视本身需要标准的视觉测量来根据眼睛图像确定眼睛方向，需要解决的最重要的挑战是，在考虑不限制用户移动的应用时，由于头部姿势、用户和低眼睛图像分辨率而导致的眼睛外观变化。

在过去，人们一直致力于设计自动注视估计解决方案，从而产生了根据传感器不同而不同的方法技术和原理：从高度侵入性的电子眼图到更灵活的视频眼图，即依靠视频输入的凝视跟踪（Hansen和Ji，2010）。尽管后者具有更高的实际应用潜力，但它需要应对重大挑战。尤其是，眼睛外观因用户、头部姿势、照明条件、图像分辨率和对比度、眼睑形状和运动、镜面反射、运动模糊、自遮挡等而不同。

为了克服其中一些挑战，许多凝视估计系统，尤其是市场上现成的系统，依赖于专门的硬件，如头戴式摄像机和/或红外（IR）设置。前者的优点是捕捉标准化的眼睛图像，即使用单一比例和视点。然而，在许多应用中，头戴式传感器仍然被认为是侵入式的。红外设置得益于明亮/黑暗的瞳孔效应和校准红外光源在角膜中的反射。然而，它需要高分辨率成像和可能昂贵的红外硬件。因此，就硬件可用性、成本和应用而言，基于自然光的远程传感器方法仍然是最佳选择。然而，在使用消费相机时，上述许多挑战远未得到解决。

然而，廉价深度传感器的出现可能有助于解决这些挑战。事实上，在最近的过去，这种传感器使研究人员能够处理已知的仅基于标准视觉的高度挑战性问题（Murphy Chutorian和Trivedi，2008），例如身体姿势估计（Shotton等人，2011）或面部表情识别（Weise等人，2011）。通过深度（D），这些传感器提供了场景形状的明确和可靠的测量，而不是嵌入RGB数据中的隐式形状信息。请注意，仅从视觉域（RGB）推断形状信息仍然困难且成本高昂（Barron and Malik，2013）。

因此，深度传感能够在进一步的处理阶段使用形状信息。特别是，深度数据对于准确的头部姿势估计是有价值的（Fanelli等人，2011；Weise等人，2011），这是确定注视方向之前的必要步骤。另一方面，凝视本身需要标准的视觉测量来根据眼睛图像确定眼睛方向，需要解决的最重要的挑战是，在考虑不限制用户移动的应用时，由于头部姿势、用户和低眼睛图像分辨率而导致的眼睛外观变化。在这方面，图2示出了与其他作品中考虑的更高分辨率图像相比，使用Kinect获得的眼睛图像。

1.2 Approach and contributions

我们解决了在不同头部姿势和用户使用remote RGB-D相机时基于外观的凝视估计问题。一个主要贡献是提出了一种方法，该方法得益于消费者RGBD传感器，将眼睛外观校正为标准的头部姿势视点。这依赖于深度信息来执行头部姿势的精确跟踪，并根据估计的头部姿势对眼睛纹理进行深度驱动的扭曲；传感器提供的原始深度信息，或由拟合的3D变形模型（3DMM）产生的眼球表面深度。

校正框架的主要优点是将头部姿势不变性引入现有的基于外观的凝视估计方法中。在此背景下，我们评估了针对特定用户和独立用户的最新模型的性能。特别是，为了解决眼睛区域裁剪和对齐问题，这是避免视线估计偏差的关键步骤，我们提出了一种使用同步对齐方法的新方法。

在一个公共数据库上进行的广泛评估显示，16名用户在固定或移动头部姿势下执行两种类型的任务（看屏幕，更具挑战性的是看3D空间中的目标），所提出的方法取得了令人满意的结果。我们的方法的有效性在一个应用于工作面试交互数据的凝视编码任务中得到了进一步证明。

本文的结构如下。第2节讨论了相关工作。

第3节描述了基于头部姿势不变外观的凝视估计框架。

第4节简要介绍了适合这种情况的凝视-外观方法。

第5节描述了获取用户不变性的扩展。凝视估计数据和实验方案见第6节，结果见第7节。

第8节介绍了自动凝视编码任务的实验。

第9节讨论了限制和未来的工作。

最后，第10节总结了这项工作。

Geometric based methods.

30多年来，人们对凝视的自动估计进行了充分的研究，Hansen和Ji（2010）对此进行了详细的描述。确定了两种主要策略：基于几何和基于外观的方法。

基于几何的方法。它们依赖于映射到凝视参数的局部特征的检测。大多数方法都需要一次校准来收集带注释的样本。这些参数用于确定描述眼球几何结构的用户特定参数，或直接映射到关注点。这类技术中最精确的技术依赖于红外照明和传感。这会导致明暗瞳孔效应，并在角膜表面产生镜面反射，称为闪光。然后可以从瞳孔中心和角膜反射位置推断凝视方向（Guestrin和Eizenman，2006）。这些方法使用多个红外光源实现头部姿势不变性。然而，需要专门且昂贵的红外硬件。

在自然光照条件下，许多建议还利用眼睛的局部特征来建立眼睛的几何模型。可以使用虹膜中心（Timm和Barth，2011；Valenti和Gevers，2012）、瞳孔/虹膜上的椭圆（Li等人，2005），甚至包括眼睑的复杂形状（Yuille等人，1992）或全眼区域（Moriyama和Cohn，2004）。例如，为消费者RGB-D传感器面部运动捕捉而设计的商用系统faceshift1利用这一原理进行眼睛跟踪。

在之前的工作中，Ishikawa等人（2004年）依靠虹膜椭圆拟合，通过仔细的校准协议从中找到眼球几何参数。然后使用该模型在测试时通过椭圆拟合计算凝视。Yamazoe等人（2008年）提出了类似的策略，减少了校准时间。椭圆拟合也被使用，但从基于阈值的眼睛区域的先验分割中获得。

最近的方法对RGB-D数据应用了类似的策略。Jianfeng和Shigang（2014）基于虹膜中心定位和微软Kinect SDK的头部姿势跟踪器推断凝视。眼球中心在校准过程中被细化，而眼球的其他参数是固定的。Xiong等人（2014）使用了相同的传感器，但依靠椭圆拟合和面部地标进行三维头部姿势跟踪，并建立了特定于人的面部地标位置模型。他们的校准方法可以推断出额外的眼球参数。然而，在这两种情况下，Kinect都配置为1280×960的最高RGB分辨率，以允许本地功能追踪。此外，评估的注视方向范围较小，头部姿势变化最小。
然而，以前的方法的一个重要限制是需要检测局部特征，这需要高分辨率和高对比度的图像。

Appearance based methods.

通过建模从整个眼睛图像到凝视参数的直接映射（Baluja和Pomerleau，1994年；Tan等人，2002年；Funes Mora和Odobez，2012年；Lu等人，2011年；Martinez等人，2012年；Sugano等人，2008年；Noris等人，2011年），这些方法避免了繁琐的局部特征跟踪，为低分辨率凝视感知提供了可能。

作为一项开创性的工作，Baluja和Pomerleau（1994）依靠神经网络，但需要数千个训练样本来减少注视估计误差。Tan等人（2002）使用局部注视外观流形的线性插值，这也需要大量的训练集。Williams等人（2006）提出了一种半监督稀疏高斯过程回归（S3GPR）方法，通过利用弱标记样本来减少所需的训练样本。

类似地，Sugano等人（2008年）建议利用用户-计算机交互痕迹作为局部线性插值方法中的训练数据，该方法依赖于基于头部姿势的样本的先验聚类。为了避免线性插值之前的局部流形选择，Lu等人（2011）建议在对所有样本进行插值时使用稀疏性。他们报告说，即使对于低分辨率的图像，也有很高的精确度，但这些图像是在同一个过程中人工创建的，这种方法需要使用下巴托固定头部姿势。这些作者后来在他们的框架内集成了眨眼检测和改进的亚像素对齐方法（Lu等人，2014b）。他们的整体方法允许在低分辨率和轻微头部运动的情况下估计凝视(≈静态），因此不需要下巴休息。

Noris et al（2011）提出使用叠加的眼睛图像像素作为外观特征向量来训练支持向量回归（SVR）模型，首先对其进行预处理以处理光照变化。或者，Martinez等人（2012年）建议使用多层次的定向梯度直方图（mHoG）（Dalal和Triggs，2005年）作为外观特征来训练SVR或相关向量回归（RVR）模型。其优点是，与基于强度的特征相比，HoG可以更好地应对光照变化。然而，在这两种情况下，这些方法都是针对头戴式摄像机提出的，即单视点。

尽管基于外观的方法对图像分辨率具有鲁棒性，但它们存在泛化问题。以前的工作很少涉及头部姿势不变性，所有这些方法都是在同一个人身上训练和测试的。

什么是头部姿势不变性。

为了解决头部姿势的变化，Lu等人（2014a）提出了一种基于GPR的头部姿势引起的凝视参数偏差校正方法。或者，他们建议使用单姿势凝视外观模型和来自不同头部姿势的几个样本，以扭曲从测试视点（头部姿势）看到的已知集合（Lu等人，2012年）。然而，总的来说，这些方法仍然需要额外的训练数据和复杂的模型来捕捉头部姿势相关的外观变化。

在另一个方向上，Funes Mora和Odobez（2012）建议使用深度数据将眼睛外观校正为标准的头部视点，爱格等人（2014）后来使用了这种方法，该方法依赖于与2D图像相匹配的3D人脸模型，而不是深度数据。

良好的眼部图像定位（或对齐）是实现高性能的重要步骤，因为它直接影响到在回归方法中进一步使用的眼部特征向量的提取。然而，这个问题并没有受到太多关注。主要原因是，在使用用户和单会话相关模型（或姿态变化较小）时，假设使用单裁剪，这通常对所有数据点保持一致。在许多情况下，这一步骤假定是手动完成的（Martinez等人，2012年；Lu等人，2011年；Sugano等人，2014年）。或者，可以使用欧姆龙软件Omron software实现自动眼角检测方法（Schneider等人，2014），但通常需要高分辨率图像。

Contributions.

我们的目标是解决3D空间中的remote凝视估计问题，在不需要进一步训练的情况下，在处理大范围注视方向的同时，适应用户比较大3D运动和头部姿势。除了传统的屏幕注视案例外，这种公式允许将凝视技术自然地应用于更多样化的HHI（人类-人类交互）或HRI场景。据我们所知，上述基于表象范式的作品，无论是在方法上还是在经验上，都没有获得这些特征。实际上，很少有方法能同时处理头部姿势和用户不变性。请注意，虽然以前一些专门用于2D屏幕观察的方法可以修改以处理3D情况，但它们通常会修改为至少需要头部姿势估计和一个框架来处理头部姿势的变化。这就是我们在本文中提供的内容。

为此，我们进一步开发了头部姿势不变性框架，该框架是为使用RGB-D相机（Funes Mora和Odobez，2012）的基于外观的方法设计的，该框架依赖于将眼睛区域的外观三维校正为标准视点，以解决姿势不变性问题。我们研究了两种校正方法，进一步提出了一种对眼睛图像进行更精细裁剪的对齐方法，并表明该方法适用于几种最新的基于用户独立外观的方法。尽管输入眼睛图像的分辨率较低，注视方向范围较大，姿势变化较大，但仍获得了令人满意的结果。

3 . Head pose invariant gaze estimation

在本节中，我们将介绍基于头部姿势不变外观的凝视估计的3D校正方法。我们首先介绍整体方法，然后详细介绍整改过程中涉及的不同步骤。

3.1 Approach overview

我们方法的主要原理是利用校准的RGB-D输入数据，将眼睛图像校正为标准（正面）头部视点和比例，而不考虑实际头部姿势，然后在该标准视图中估计凝视。

该过程中涉及的不同步骤如图3所示。首先，为了获得准确的头部姿势，

我们假设用户特定的3D模型可用。目前，该模型是在离线步骤中学习的。然后，在在线阶段，建议的方法包括以下步骤：

在每个时间步长t，估计3D头部位置$P_t $。
根据输入的RGB-D数据和估计的头部姿势，将面部区域校正为正面视图，从而生成每只眼睛的渲染图像$I^R$。然后应用眼睛对齐步骤以裁剪眼睛区域$I^C$。
头部坐标系中的凝视方向$v^h$由$I^C$估计。它使用姿势$p_t$映射回世界坐标系（WCS），并与眼球中心一起使用，以定义视线（LoS） gaze line of sight (LoS)。

看一下怎么对齐

3.2 3D面部模板创建

我们建议通过将3D变形模型（3DMM）与输入数据相匹配来创建用户特定的3D人脸模板。这种3DMM的优点是能够使用相对较小的系数集生成多种可能的面部形状（即特定于人的面部形状）。这些系数可以从几个面部实例中找到给定对象的系数。

3.3 Head pose and eyes tracking

在在线阶段，我们现在可以通过将特定于人的模板网格注册到深度数据来跟踪头部姿势。为此，我们使用带有点到平面约束的ICP算法，并找到Frame的姿势参数。

用最近邻算法找到当前头部姿态和正面人头template之间的旋转矩阵和平移矩阵。

在该步骤结束时，对于每个时间t，3D眼球位置在世界坐标系中的可以用旋转和平移参数计算。眼球中心位置可以自动根据3DMM语义生成。

3.4 Eye appearance pose-rectification and alignment眼睛外观姿势矫正和对齐

Rectification

头部姿势不变性的关键步骤是将面部纹理矫正为标准头部姿势，具体操作如下。给定时间t人脸图像的纹理3D网格（即，每个3D点都与RGB颜色关联的网格），我们在应用刚性变换后对其进行渲染。与估计的头部姿势相反，生成正面人脸图像。作为纹理网格，我们考虑了两种可能性。

data-driven mesh：数据驱动网格（DDM），通过将RGB纹理映射到从传感器的D通道构建的原始深度网格来获得。
以及模板驱动网格template-driven mesh（TDM），由纹理映射产生适合的人是特定的3DMM,

请注意，校正不需要事先了解用户的外观，仅假设校准足够精确，可以将RGB数据绑定到网格曲面。

两种方法各有优缺点（校正样本见图6）。我们可以期望从TDM获得更好的精度，但这会受到来自深度通道的所有类型的传感器噪声的影响，如测量噪声或由于传感问题而缺少数据（例如，当距离传感器太近时，请参见实验部分）。模板方法（取决于3DMM拟合质量）为实际用户眼睛3D曲面提供了更宽松的拟合，但为矫正和正面渲染提供了更平滑的曲面。

Eye Alignment

该步骤如图3e-f）所示。由于校正，我们可以提取眼睛区域周围的图像，从中可以在预定义窗口内提取更精确的眼睛图像，位置由眼球中心定义。

原则上，由于3DMM拟合，如果不考虑头部姿势跟踪误差，该窗口应捕捉不同用户的同一部分眼睛。然而，由于影响3DMM拟合精度的不确定性，或眼球定位中的自然人类变化，其与面部特征（例如，眼角）的位置不完全相关，这可能不是这种情况，如图14所示。

人脸正面化后，剪裁出同一个区域，应该是获得统一区域的眼睛。

为了解决这个问题，使用一组小样本为每个用户学习对齐变换的参数θ，如第5.2节中更精确地解释的。

它们用于将Window $W$转换为对齐的Window$W^A$，从而定义图像$I^R$,实际裁剪的图像$I^C$会进一步被处理。

3.5 Gaze estimation

姿势矫正和对齐的裁剪眼睛成像用于使用回归估计器估计注视方向。由于这些图像是标准化的，所以可以使用任何标准方法，我们将重点介绍最新的基于外观的方法（ABM），这些方法将在第4节中详细介绍。

凝视估计器的输入是图像，输出是凝视方向，由凝视偏航角和俯仰角参数化，或等效地由3D矢量$V^h∈R^3$在头部坐标系中定义。该矢量可以转换为WCS系统，并与眼睛中心$O^{WCS}$一起使用，以将视线line of sight（WCS中的3D光线）定义为：

4 Appearance based gaze estimation methods

5 Person invariant gaze estimation

在本节中，我们将讨论人物不变性问题，我们将其表示为测试对象没有可用的训练数据，以便学习从外表到凝视的回归模型。在第5节。1我们描述了如何学习第4节中不同凝视模型的人物不变分类器。然后，在第5节。2.我们解决了跨用户眼睛图像对齐问题。

5.1 Person invariant classifier

5.2 Alignment

当组合来自不同用户的数据时，一个问题是，图像裁剪是从提议的3D图像中定义的矫正可能无法提取完全相同的眼部区域。例如，为两个用户收集的数据可能表现出系统性的平移偏差：粗略地说，对于相同的凝视，在裁剪的图像中，第一个用户的虹膜位置被系统性地替换为第二个用户的虹膜位置的几个像素。在实践中，当使用来自第二用户的训练数据推断第一用户的注视时，该空间对准误差可能导致系统注视角度误差偏差。

选取框选出来的是一个固定位置。

在接下来的小节中，我们首先介绍解决对齐问题的标准方法，然后介绍我们提出的对齐方法。请注意，当测试数据对应于训练集中的同一主题时，不需要对齐，因为我们可能希望测试数据和训练数据之间的裁剪保持一致。

5.2.1 Eye corner alignment

为了对齐眼睛图像，常用的策略包括在几帧中定位眼角，并使用这些信息来估计变换参数，从而使它们回到标准位置。眼角定位通常是手动完成的（例如Martinez等人（2012）），然后对所有帧使用相同的参数。自动方法已经被使用，但到目前为止，在高分辨率图像上（如图2d中的眼睛）。

对于分辨率低得多的情况，例如我们的数据（图2e中的眼睛），尽管最近取得了重要进展（例如，见Kazemi和Sullivan（2014）），但这在定位精度方面可能存在问题。除了定位问题，我们认为这种对齐策略对于凝视估计任务不是最优的，如下所述。因此，我们将在下一节中介绍另一种选择