[论文精读] Relational Action Forecasting - 《Deep Learning 论文精读》

简介
Discriminative Relational Recurrent Network
Experiments
总结

CVPR 2019 论文标题：Relational Action Forecasting 论文地址：https://arxiv.org/abs/1904.04231

简介

本文针对视频中多个体的动作预测任务，提出了Discriminative Relational Recurrent Network (DRN)模型。DRN利用Faster R-CNN的RPN网络检测目标 (person)，利用3D-CNN在视频中提取目标特征。然后以目标为node构建graph，通过node上特征的聚合和更新来分析目标间的关系，最终预测下一时刻目标的动作。另外，DRN中graph node上特征的聚合与更新是recurrent的，用到了GRU单元，可以很好地提取node间的relation。最后，实验表明在AVA和J-HMDB数据集上DRN都取得了SOTA的效果。本文最重要的contribution就是引入了graph解析目标间的关系，这对于动作预测很有帮助。

Discriminative Relational Recurrent Network

DRN的整体结构如图1，并没有特别新颖的地方。就是典型的CNN+GCN结构。CNN用于检测目标和提取目标特征，GCN用于分析目标间的关系。本文的重点在于对GCN的设计，下面详细介绍。

Creating the nodes in the graph

构建graph的第一步就是要明确graph的node是什么，从哪来，初始特征怎么提取。DRN中graph的node就是视频中出现的person，本文称为actor。DRN使用RPN网络在已知视频的最后一帧V（本文的任务是已知视频的-H:0帧，预测0:T帧actor的动作，因此V代表已知视频的最后一帧）提取actor proposal，也就是确定视频中出现的actor的bounding box。之后，DRN利用3D CNN在视频的V帧提取feature map。最后结合bounding box，利用ROI Pooling提取node的初始feature。

Modeling the edges

个人感觉原文对DRN的叙述有点啰嗦，适合对GCN了解较少的人看。因此，我就不按照原文的顺序介绍DRN了，而是直接介绍其核心内容，跳过循序渐进的推导过程。
在明确了node之后，构建graph的第二步是要知道edge怎么求。在CV领域众多的CNN+GCN模型中，对node的建模几乎都是一样的套路，但对edge的建模五花八门。本文的思路非常简单：

式中和就是node i和node j的特征，就是一个简单的MLP。这个公式将node i和node j的特征作为输入，输出node i和node j之间的，这个目前还不是一个scalar，至于为什么，之后会说到。需要注意的是，这种求edge的方式所得到的graph都是完全图，也就是每个node之间都有edge。这可以很好地适应node数量不确定的情况，比如视频中可能有2个人或3个人。

Aggregate&Update

有了node和edge之后，我们来看这个graph如何进行aggregate&update。
对于aggregate，作者引入了attention：

其中是attention function（也是个MLP），输出node j对于node i的重要性，也就是一个权重。这里输出的才是一个scalar，是graph真正的邻接权重，之前的只能看作edge的feature。然后对与node i相邻接的所有node j加权求和，得到aggregate之后的结果，相当于GCN中的message。
对于update，作者使用了GRU单元：

其中是GRU单元。是个MLP，作用是将message与node i自身的特征再聚合一次。是一个分类器，相当于对每一次迭代生成的node特征都检测出一个action，并且作为下一次迭代的输入。和对于graph中所有的node都是共享的。

Loss function

DRN是一个end-to-end的模型，其loss function如下：

其中是bounding box的定位loss，与RPN网络中的定位loss计算方式相同。是对t时刻动作类别的预测误差。在J-HMDB实验中，作者用的是softmax cross entropy。在AVA实验中，作者用的是sigmoid cross entropy。二者的区别参照这个博客。和是权重参数，作者在实验中分别设置为1和0.5。

以上就是DRN的整体结构。最后需要注意的是，在GCN的每一次迭代中，都会输出一个预测的action，如果迭代t步，就输出t个action。每次输出的action就代表DRN对下一时刻动作的预测。如此循环下去，DRN会不断根据上一个时刻的动作预测下一个时刻的动作。显然，随着循环次数增多，预测精度会逐步下降。

Experiments

作者在AVA数据集和J-HMDB数据集上做了实验。这里注意一下图5，展示的是top3 relation，也就是对orange box里的actor算出的权重最高的3个attention。可以看到，RPN网络生成的actor proposal是有大量重复的actor，这是RPN网络本身的特性决定的。也就是在graph中，有很多node指代的都是同一个actor，他们的初始feature也是相似的。合理不合理，无法评论，但可以视为DRN的一个特点吧。在网络inference时，如何对一个actor确定一个bounding box？用NMS吗？作者好像没有说明。

总结

本文提出的DRN应该算是非常典型的CNN+GCN模型，CNN用于提取目标特征，GCN用于解析目标关系，整体结构也很简洁优美。但总感觉动作预测这个任务有那么点玄学。就直观感受来讲，人对动作的预测应该也是主观性的。就像图6中第一列最后一个error predict的例子，如果看到一个人蹲下，那么下一刻他是继续蹲着还是要站起来，可能需要对视频内容有很深的理解才能预测准确吧，DRN真的能做到吗？所以个人感觉，这个动作预测本质上是个动作识别，然后网络会做一个简单的推理，如蹲下->起立，并不会深刻理解剧情。另外，动作或许不仅和人之间的交互有关，人与物的交互，甚至是人与场景的交互，可能也能提供有用的信息。这些在本文中都是没有考虑的。