多人人体姿态估计 - 2018_Simple Baselines for Human Pose Estimation and Tracking - 《深度学习笔记》

论文原文：https://arxiv.org/pdf/1804.06208.pdf 参考项目：https://gitee.com/mooyeh/human-pose-estimation.pytorch

目前在各个领域，网络结构越来越复杂，对网络的分析也越来越困难。本文从简单网络出发，希望探究简单网络在人体姿态估计以及跟踪方面能够做到什么程度。

最终的实验结果表明：即使简单的网络，也能够达到 SOTA。

人体姿态估计：以 ResNet 为基础，在最后卷积层 C5 后面添加 deconvolutional layers（其它很多方法采用：上采样 + 卷积操作的形式来提高分辨率）。

Pose Tracking: Multi-person pose tracking in videos first estimates human poses in frames, and then tracks these human pose by assigning a unique identification number (id) to them across frames. 本文借助了光流来辅助跟踪，此处先略过.

实验结果（关节点估计）

数据集用了 coco 2017。
训练过程中，ground truth 人体检测框通过延申的方式固定长宽比例；数据增强包括 ±30% 的缩放、±40° 的旋转以及翻转。训练学习率初始设置为 1e-3，在第 90 epochs 变为 1e-4，120 epochs 时变为 1e-5；Mini-batch size = 128；Adam optimizer.
测试时，采用 faster-RCNN 进行人体目标检测；翻转图像和原图估计的关节点平均值作为最终的 heatmaps；从最高响应位置开始，沿着最高位置响应到第二高响应方向偏移 1/4 距离作为最终的关节点坐标。