单人人体姿态估计 - IEF_2016_CVPR - 《深度学习笔记》

本文大致方法
网络学习
- Learning Human Pose Estimation
实验结果

论文原文：Human Pose Estimation with Iterative Error Feedback 代码链接：https://github.com/pulkitag/ief 博客参考：Human Pose Estimation with Iterative Error Feedback 论文解读博客参考：https://blog.csdn.net/github_36923418/article/details/102861651

本文与其它网络不同之处，具有反馈，方法每次估计偏差然后迭代优化结果。

Our main contribution is in providing a generic framework for modeling rich structure in both input and output spaces by learning hierarchical feature extractors over their joint space.

本文大致方法

方法大致流程（回归坐标的方式，并不是预测heatmaps）：

利用统计的平均值初始化
前向模型输入：RGB图像和visual representation 连接构成的增强输入空间（其中以作为输入）
前向模型输出：预测的一个修正值，目的是让与真值更加接近（修正值每轮次都是有界的：输入空间往往是非线性的，所以local corrections应该容易学习）
估计结果更新：

上图表示的内容公式描述：
IEF_2016_CVPR - 图12
其中：

表示输入图像
表示预测的偏差
表示第次迭代之后的预测输出（事实上这里可以用任意的非线性函数来操作）
为卷积网络的输入，表示concat
表示前馈网络
表示从预测输出到视觉表示的一个映射

值得注意的是， IEF_2016_CVPR - 图22 产生的是heatmaps，利用高斯分布（K个关节点有K个heatmaps）； IEF_2016_CVPR - 图23 利用ConvNet来表示，其输入size为 IEF_2016_CVPR - 图24

我们要估计什么内容，通常就是设计一个网络，对其训练之后来完成这个估计的任务

网络学习

参数学习时，是一个优化过程：

其中 IEF_2016_CVPR - 图26 可以是一个二次损失函数（凸函数），目的是使得网络输出的 IEF_2016_CVPR - 图27 与真值和当前估计值直接无限接近。 IEF_2016_CVPR - 图28 是迭代轮次，可以是尝试，也可以是一个域 IEF_2016_CVPR - 图29 相关的函数等。

还有一个内容值得注意：在训练网络时，我们只有最终的真值 IEF_2016_CVPR - 图30 对于中间态的 IEF_2016_CVPR - 图31 如何对其监督呢？作者采用的方式是事先计算好作为label的中间态 IEF_2016_CVPR - 图32 ，作者称其为Fixed Path Consolidation (FPC)，实现时很简单，可以直接选用直线路径（参考后面的图）将 IEF_2016_CVPR - 图33 之间的直线等分。