非CNN方法

开篇之作:
Real-time human pose recognition in parts from single depth images_shotton_CVPR_2011
Presentation Powerpoint(高被引)
采用的随机森林算法,其后有一些列衍生算法(Random Tree Walk CVPR_2015) —>准确率非常高(Kinetic SDK的关节点提取算法就是采用的随机森林)(非常快!)

知网参考:
基于特征回归的单目深度图无标记人体姿态估计_2020
里面的参考资料可以作为后续参考,里面提到了Kinetic的SDK,及其后续的优化参考论文

知网参考:
基于深度图像的人体关节点定位方法
里面提到了,进行人体关节点提取之前需要首先进行分割,将属于背景的信息去除。(同样是采用的随机森林方法)

当然,由于深度摄像头本身的噪声,数据在处理之时,可能需要进行去噪,例如中值滤波。

一篇硕士论文:
基于深度学习的人体点云骨架提取方法研究

CNN方法

Towards Viewpoint Invariant 3D Human Pose Estimation_Albert_2016_eccv(48次引用)
作者是李飞飞的学生。论文采用CNN方法,目的是解决多视角问题。参考博客项目地址

V2V-PoseNet_G.Moon_CVPR_2018(31次被引)
此方法再2017基于帧的3D手姿势估计挑战中获得第一,代码有pytorch版本。是一种从体素到体素的方法。

2D深度图像:其实就是普通深度图像,其值表示成像平面于目标的位置 体素:其概念类似于二维图像中的像素

Real-Time Human Motion Capture with Multiple Depth Cameras_A.Shafaei_2016_CRV
多个深度摄像头,代码是matlab版本以及caffe版本。

3D human pose estimation from depth maps using a deep combination of posesmatlab代码

Ordinal Depth Supervision for 3D Human Pose Estimation_pavlakos_CVPR_2018
一个基于RGB的,但是好像有些借鉴意义

Hand PointNet: 3D Hand Pose Estimation using Point Sets_Ge_CVPR_2018
对手关节点进行估计的算法

问题

最主要的问题是:对遮挡关节点提取 => 采用估计的方式 => 估计引入估计误差 => 导致错误的结果。
无论是基于RGB还是RGB+D的方法都难以解决遮挡关节点的问题 => 基于视频,或者多视角进行一定程度的解决。(基于视频的方法貌似很多,但是视频中人体姿态本身就在变化,这样如何提供被遮挡关节点的辅助信息???)

数据集

NTU-RGB+D(56,880个动作,RGB+D+S+…)
ITOP Human Pose Dataset(40K训练,10K测试深度图)
UBC3V Dataset