1 主要研究任务

1.1 研究问题

根据先前进行的调研,发现视频行为识别模型有以下几类:2D CNN、双流网络、3D CNN(C3D、I3D、X3D等)。目前基于3D CNN的模型占据着视频行为识别领域的主导地位。

现有3D CNN模型的一个问题是,只能专注于使用RGB信息直接从视频中识别人类行为,但是很难理解人类行为的组成结构,如果没有特别深层的网络结构将很难学习到有用的数据,而更为深层的网络结构又给模型训练带来了极大的难度。

随着Action Genome数据集的提出,令模型专注于视频场景中人类行为的结构特征成为可能。神经科学与认知科学研究结果表明,人类理解行为时大脑倾向于将行为编码为具有层次性、局部性的结构,因此Action Genome的目标是分解行为,只注释参与行为的物体和人与物的关系,最终形成图结构的注释。

诚然,行为识别的最终目标仍然是从原始视频中识别行为,但是时空场景图是一种很好的中间表示。因此,我的研究基于Action Genome数据集,关注于学习时空场景图这种行为识别的中间表示。时空场景图具有时间和空间两类特征,使用RNN / Transformer和GNN分别编码时间特征和空间特征。

1.2 目标

  • 提出全新的基于图的视频行为识别模型。
  • 根据研究结果,完成一篇小论文
  • 根据小论文完成大论文的60%。

1.3 研究方法

实验法
拟提出的模型结构为 【GNN - 图池化结构 - RNN / Transformer - 全连接层】,其中GNN、图池化结构、RNN都有成熟的模型,但是需要结合行为识别任务的特殊性以及大量实验来选择最优的实践。

例如场景图中的边表示物体之间的关系,因此需要选择能很好编码关系的GNN;图池化结构则可以借鉴图分类网络中使用的图池化结构,效果可能比简单的Max Pool或Mean Pool好;时间特征的学习也有很多选择,传统RNN结构、将Transformer应用到视频上等。

文献阅读法
多读视频理解相关文章以及图网络相关文章。

2 次要研究任务

2.1 整理数据集

AG数据集目前还是存在一些小问题,重新整理数据集,为模型提供更好的输入数据。

  • 这一研究可以参考使用AG数据集模型的开源代码
  • 除了整理出更可靠的数据集外,还需要看看别人是怎么对AG数据集做batch的,不做batch严重影响实验的速度
  • 整理出输入数据后,可以为【场景图生成模型】 提供需要的输出格式。

2.2 多标签分类

深入了解 多标签分类 任务相关,如评价指标、损失函数等

  • 特别需要自己实现 多标签分类 预测结果的计算,当前使用的MATLAB脚本可能有点问题。

3 DDL

  1. 3.10 - 整理数据集,实现batch

无法实现batch严重妨碍实验进度,因此该任务的优先级较高,同时整理出时空场景图格式后,也方便【时空场景图预测模型】输出格式的确定。

  1. 4.10 - 进行大量实验,完成模型的具体实现

  2. 6.15 - 完成小论文的初稿

  3. 7.1 - 完成一部分大论文