资料链接:cvpr2021人群计数相关论文 论文链接:https://arxiv.org/abs/2103.13516 git链接:https://github.com/Sentient07/HeadHunter

一、简介

领域:密集人群中追踪行人

二、创新点

  1. 提出一个新的数据集:CroHD,其中有标注的行人头部,用于在密集的人群中进行追踪(行人密度最大达到每帧346人,平均密度178人,数据集根据MOTChallenge CVPR19基准的五个序列构建,以便同场景都有头部跟踪和行人跟踪);
  2. 为 CroHD 提出一个基线头部检测器:HeadHunter;
  3. 通过扩展 HeadHunter 作为 CroHD 的基线头部追踪器来开发 HeadHunter-T,提出一个新的指标,IDEucl,用于评估追踪器在代表ground truth 轨迹方面的效率;
  4. 通过与 CroHD 上现有的三个最先进的追踪器进行比较,证明 HeadHunter-T 是一个强大的基线。

    三、改进

四、与自己工作结合

五、过程中遇到的新知识

1.图像金字塔

资料参考: 百度百科-图像金字塔 【OpenCV学习笔记】之图像金字塔(Image Pyramid)

图像金字塔是图像多尺度表达的一种,最主要用于图像的分割,是一种以多分辨率来解释图像的有效但概念简单的结构。
图像金字塔最初用于机器视觉和图像压缩,一幅图像的图像金字塔是一系列以金字塔形状的分辨率(自下而上)逐步降低,且来源于同一张原始图的图像分辨率集合。其通过梯次向下采样获得,直到达到某个终止条件才停止采样。金字塔的底部是待处理图像的高分辨率表示,而顶部是低分辨率的近似。我们将一层一层的图像比喻成金字塔,层级越高,则图像越小,分辨率越低。
《Tracking Pedestrian Heads in Dense Crowd》 - 图1

2.特征金字塔(回头细看)

资料参考 特征金字塔-知乎 特征金字塔-Feature Pyramid Networks for Object Detection

特征金字塔(Feature Pyramid Network)是用于检测不同尺度的对象的识别系统中的基本组件。多尺度上识别目标是计算机视觉的一个挑战,通过提取多尺度的特征信息进行融合,进而提高模型精度。
多尺度上识别目标是计算机视觉的一个基本挑战。在图像金字塔上构建特征金字塔(简称特征化图像金字塔)形成了一个基本解决方案【1】(图1(a))。因为一个目标的尺度改变通过在金字塔中移动层级来抵消,所以从某种意义上说这些金字塔是尺度不变的。直观上讲,这些性质通过在位置和金字塔层级上扫描模型使得模型检测跨尺度的目标。

《Tracking Pedestrian Heads in Dense Crowd》 - 图2 图1:(a)用一个图像金字塔来构建一个特征金字塔。在每个图像尺度上独立地计算特征,很慢。(b)最近的检测系统选择使用于更快速的检测的单尺度特征。(c)通过卷积层重复利用金字塔式的特征层次结构。(d)这里提出的特征金字塔网络(RPN),和(b)(c)一样快,但是更准确。这张图中,特征图通过蓝框表示,越粗的轮廓表示语义越强。

然而,特征化一个图像金字塔的每一个层级都有明显的限制。大大增加的推理时间,使得这个方法对于真实的应用是不实际的。在默认设置下选择不使用特征化图像金字塔。

3.上下文对象检测(回头细看)

参考资料 目标检测中的上下文信息

上下文对象检测在人脸检测的文献中得到了广泛的应用,例如[14,46,63],它通过使用更大的接受大小的卷积滤波器来建立模型上下文,显示出了更高的检测精度。Sun等人的[61]将这种上下文和尺度不变量应用于头部检测。

4.跟踪指标

为了评估MOTThassty数据集上的算法,经典的MOT指标[66]和明确的MOT指标[4]事实上已经被建立为量化性能的标准化方法。
清晰度量提出了两个重要的分数MOTA和MOTP,它们分别简要地总结了基于每帧累积精度和边界框精度的经典度量。
最近,Ristani等人[52]提出了ID度量,该度量基于跟踪器在地面真相轨迹的最长持续时间内保持身份的效率来奖励跟踪器。