2018 ECCV A Deeply-initialized Coarse-to-fine Ensemble of Regression Trees for Face Alignment

https://paperswithcode.com/paper/a-deeply-initialized-coarse-to-fine-ensemble

DCFErank20210903

https://paperswithcode.com/sota/face-alignment-on-300w

DCFE在300W私有和公共数据集排第4,3.24。

https://github.com/bobetocalo/bobetocalo_eccv18

评价:

提出了DCFE Deeply-initialized Coarse-to-fine Ensemble of Regression Trees,一种基于粗到细的 回归树集合(ERT)Ensemble of Regression Trees 实时面部地标回归方法

针对的问题:

  1. 解决零件变形的组合爆炸问题 the combinatorial explosion of parts deformation。
  2. 解决鲁棒性地回归器初始化、自遮挡问题以及同时进行正面和侧面人脸分析。

本文的目的:

实现的方法:

基于cnn的刚性脸位姿计算基于ert的非刚性脸变形估计

image-20210903121741171

  • $P(I)$ a set of probability maps经过CNN得到,之后经过高斯平滑滤波器GS,再经过Max函数,得到粗糙的标定,由于对于遮挡的敏感性不一定是一个有效的脸型。
  • $x^0=g_0(P(I))$是过POSIT得到的,$x^0$是一个$L\times2$的向量,$x^0$是一个有效的脸型,它作为ERT的初始化。
  • $S=\{s_i\}^N_{i-1}$ the set of train face shapes,$s_i=\{I_i,x^g_i,v^g_i,w^g_i,x^g_i\}$,对于每一个训练形状$s_i$有$I_i$训练图片,真值形状$x^g_i$,真值可见标定$v^g_i$,带标注的地表标签$w^g_i$(1代表标注了的,0代表丢失的)。
  • 初始化形状为$x_i^0$,gt即目标形状为$x_i^g$,是一个$L\times2$向量。$L\times1$向量$v_i^g$是每个标定点可见性的二进制标签,如果对于第$k$个组件,$v_g(k)=1$,表示对于第$k$个地标是可见的。
  • shape-indexed features $\phi(P(I_i),x^t_i,w_i^g)$依赖于在图片$I_i$关键点的当前的形状和它们是否被标注了,即$x_i^t$和$w_i^t$。
  • 把回归过程分为$T$个阶段,对于第$t$阶段学习$K$个回归树集合,$C_t(f_i)=x^{t-1}+\sum^K_{k=1}g_k(f_i)$,$f_i=\phi(P(I),x^{t-1}_i,w_i^g)$,$x^j$是第$j$个阶段估计出的标定点的坐标,在第一个阶段中为$x^0$,为了训练整个ERT,使用$S$中的N个训练样本生成一个增广训练集,$S_A$的基数是$N_A$=$|S_A|$。
  • 对于每个训练形状$s_i$,通过改变初始形状生成了附加的训练样本,从平滑的概率图中随机抽取新的候选地标位置,以生成新的初始形状。
  • 每个初始化形状可以逐步被估计的形状和可见性增量$C^v_t(\phi(P(I_i),x^{t-1}_i,w^g_i)$,$x_i^{t-1}$代表了第$i$个样本的当前形状,$C^v_t$训练为了最小化关键的错误,但在每个叶节点上,要输出平均形状和训练形状的可见性,定义$U_{t-1}=\{(x_i^{t-1},v_i^{t-1})\}^{N_A}_{i=1}$是所有训练数据的所有当前形状和相应可见性向量的集合。
  1. 使用简单的卷积神经网络(CNN)来生成地标位置的概率图,深度神经网络的大感受野对人脸旋转、缩放和变形具有高度的鲁棒性。

  2. 拟合一个三维人脸模型,通过拟合一个刚性3D头部模型到估计的2D地标位置来计算初始形状,增强全局人脸形状先验,并估计全局人脸方向以解决自遮挡。

  3. 通过ERT回归器进一步细化特征,从粗到细的方法可以处理局部形变,让ERT很容易地解决非刚性零件所有可能变形的组合爆炸。

ERT方法的优点

容易并行化,它们的估计中隐含地强加了形状一致性。在粗到细的框架内使用ERT来实现精度和效率。

实验结果

领域内目前存在的问题

1.级联形状回归器(CSR)框架对回归过程的起点非常敏感。

2.深度模型的级联,逐步细化估计,从而增加计算需求。

发现

1.ECCV论文不是双列排版

2.第4页结尾v和w说反了?

问题

1.Deeply-initialized的含义是什么?

2.Coarse-to-fine Ensemble是什么?

3.怎么用回归树?

4.实现方法中CNN提取特征生成标定位置概率图之后是ERT细化,ERT回归器的初始化方法具体怎么实现?

5.零件变形的组合爆炸问题 the combinatorial explosion of parts deformation是什么问题?

6.ERT回归树怎么做到加强形状一致性呢?人脸配准中的难点形状的一致性指的是什么?

7.RCN?怎么修改RCN?如何引入loss处理丢失的点?

8.softPOSIT算法?

9.初始化在什么时候初始化呢?在输入回归树之前吗?

10.$x^0$形式$L\times2$ with $L$ 2D landmarks coordinates是什么样子的?

11.$x_i^g$,是一个$L\times2$向量with the $L$ landmarks coordinates,语法上的with,这样用是表示含义吗?

12.如果对于第$k$个组件,$v_g(k)=1$,表示对于第$k$个地标是可见的。地标和部件代表的是一样的吗?

13.$\{C^v_t\}^T_{t=1}$算法中update的部分让人困惑,它到底是残差还是最最终值呀?