CVPR 2019 论文标题:An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition 论文地址:https://arxiv.org/abs/1902.09130v2

image.png


简介

如何更好地提取graph序列的spatial-temporal特征是有关Skeleton-Based Action Recognition任务的关键问题。前有AAAI2018的ST-GCN将空间域操作的GCN拓展到了时间域,而本文AGC-LSTM是将时间域操作的LSTM与GCN结合拓展到了空间域,同时利用attention机制对spatial-temporal特征进行增强。在时间域上,作者还采用了池化策略扩大感受野并减小计算量。最后,作者在NTU RGB+D和Northwestern-UCLA数据集上做了实验,AGC-LSTM表现SOTA。


Attention Enhanced Graph Convolutional LSTM

本文使用的GCN是标准形式的GCN,邻接矩阵的定义就是人体关节点的物理邻接结构,这里不做介绍,直接来看核心内容Attention Enhanced Graph Convolutional LSTM。图3展示了LSTM与GCN的结合模型:
image.png
与LSTM一样,GC-LSTM也有三种gate:input gate image.png,forget gate image.png和output gate image.png。以image.png为t时刻的输入,image.png为t时刻的隐藏状态,则GC-LSTM的整个过程表示如下:
image.png
其中image.png表示GCN操作,替换经典LSTM中的全连接操作。image.png即表示以image.png为参数对t时刻的graph结点特征image.png进行GCN操作。结合图3不难理解GC-LSTM的整个流程,和经典LSTM几乎一样,只是将全连接换成GCN,操作对象也由特征向量序列变成了graph序列。但还需要说明一下最后一步,image.png表示空间域的attention操作,目的是赋予关键结点更高的权重。image.png的具体形式如下:
image.png
image.png
其中image.png即为N个结点的attention map。image.png都是可训练的权重参数,image.png是可训练的偏置参数。作者在最外层使用了sigmoid激活而不是softmax,理由是某时刻的graph中可能存在很多的关键结点都需要赋予高权重。这个attention模型的计算过程略微复杂,可结合图4理解:
image.png
经过AGC-LSTM的处理,graph结点的特征已经融合了时空语义,最后作者用全局特征image.png和局部特征image.png作为graph的特征表示,进行分类,给出action的score。image.pngimage.png的计算方式如下:
image.png

AGC-LSTM Network

以AGC-LSTM为单元构成深度网络,结构如图2:
image.png

前期的FC-FA-LSTM是一个预处理的特征增强步骤,先将结点的3D坐标经过FC得到256维的特征向image.png,再引入结点变化特征image.png是连续时刻image.png之差。最后concat起来进行LSTM,目的是消除结点特征的scale变化。得到的增强特征用image.png表示:
image.png
TAP表示的是时间域的池化操作,作者使用average pooling。
整个网络中AGC-LSTM单元被迭代三层,每层之间都有个TAP池化来减小下一层AGC-LSTM的输入序列长度,扩大了时域感受野同时不断减小计算量。
最后需要注意的是网络的loss除了常规的分类Cross-entropy Loss之外,还有两项对attention进行标准化的loss,应该能起到防止过拟合的作用:
image.png
其中image.png表示第j个AGC-LSTM层的时间序列长度。
在网络的最后一层AGC-LSTM上,每个时间点的image.pngimage.png都会输出action score,然后用softmax得到各个动作类别的predicted probability:
image.png
为了刷分,作者最后也是采用了双流结构,每个分支都是一个AGC-LSTM Network:
image.png

Experiments

实验和实现细节见原文。
image.pngimage.png
image.png

总结

近两年关于Skeleton-Based Action Recognition任务的顶会论文都在讨论如何更好地提取graph序列的spatial-temporal特征,本文的GCN-LSTM与AAAI2018的ST-GCN算是两种比较能泛化的模型,可以考虑用于其他graph序列相关的任务。