论文原文:https://arxiv.org/pdf/1804.06208.pdf 参考项目:https://gitee.com/mooyeh/human-pose-estimation.pytorch

    目前在各个领域,网络结构越来越复杂,对网络的分析也越来越困难。本文从简单网络出发,希望探究简单网络在人体姿态估计以及跟踪方面能够做到什么程度。

    最终的实验结果表明:即使简单的网络,也能够达到 SOTA。

    人体姿态估计:以 ResNet 为基础,在最后卷积层 C5 后面添加 deconvolutional layers(其它很多方法采用:上采样 + 卷积操作的形式来提高分辨率)。
    image.png
    Pose Tracking: Multi-person pose tracking in videos first estimates human poses in frames, and then tracks these human pose by assigning a unique identification number (id) to them across frames. 本文借助了光流来辅助跟踪,此处先略过.

    实验结果(关节点估计)

    • 数据集用了 coco 2017。
    • 训练过程中,ground truth 人体检测框通过延申的方式固定长宽比例;数据增强包括 ±30% 的缩放、±40° 的旋转以及翻转。训练学习率初始设置为 1e-3,在第 90 epochs 变为 1e-4,120 epochs 时变为 1e-5;Mini-batch size = 128;Adam optimizer.
    • 测试时,采用 faster-RCNN 进行人体目标检测;翻转图像和原图估计的关节点平均值作为最终的 heatmaps;从最高响应位置开始,沿着最高位置响应到第二高响应方向偏移 1/4 距离作为最终的关节点坐标。

    image.png
    image.png
    image.png