3D human pose estimation in video with temporal convolutions and semi-supervised training paper code project

原文链接:https://www.yuque.com/jinluzhang/researchblog/videopose3d

Summary

提出了一种针对视频的3D Pose估计方法,对时序信息进行处理的半监督方法,其中对时序信息的处理值得借鉴

Problem Statement

3D poses in video,即从2D video中估计3D skeleton pose

Research Objective

  1. First, we present a simple and efficient approach for 3D human pose estimation in video based on dilated temporal convolutions on 2D keypoint trajectories

  2. Second, we introduce a semi-supervised approach which exploits unlabeled video, and is effective when labeled data is scarce.

提出一种基于时序扩张卷积的3D pose模型,在video的2D keypoint检测基础上得到3D pose,在保证准确率的同时比RNN-based方法更有效率(可以同步处理多个frame);

并提出一种半监督方法,只要求相机参数

不利用extra labeled data,达到SOTA

Method

网络结构

算法: VideoPose3D

VideoPose3D - 图1

输入为J个joints的二维坐标,在第一层进行3*3卷积(注意这里是dilation=1的扩张卷积),BN,ReLU和dropout,参数为kernel=3,output=1024,dropout=0.25。之后用4个 Res Block进行跳跃连接,slice中进行的是1D卷积。

半监督方法

VideoPose3D - 图2

Keypoint

1. Dilated Convolution

VideoPose3D - 图3

2. Causal Convolutions

VideoPose3D - 图4

3. Semi-supervised approach

Evaluation

实验结果,作者如何评估自己的方法,实验的setup是什么样的,有没有问题或者可以借鉴的地方。

实验结果

Conclusion

image.png
**

需改进的点

  1. 直接卷积 2DPose 估计3D Pose 太粗暴
  2. dilated conv尺度单一,不具有尺度不变性,对于too slow/too fast action不能很好的适应
  3. 遮挡问题没有解决
  4. 半监督方法中,没有很好的利用global position这个监督信息,只是回归了bone length loss
  5. 不如multi-view方法精准

**