目标追踪 - [译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 《Computer Vision》

3.1 孪生网络跟踪分析
3.2 基于 ResNet 的孪生网络跟踪算法
3.3 分层聚合
3.4 深度交叉相关
4.1 训练集及评估
- 训练
- 评估
4.2 实施细节
- 网络结构
- 优化
4.3 对比实验
- 主干架构
- 逐层特征聚合
4.4 与最先进的算法进行比较

来自商汤科技的一篇论文——翻译稿

code——GitHub

基于孪生网络的跟踪器将跟踪表述为目标模板和搜索区域之间的卷积特征互相关。然而，与最先进的算法相比，
孪生网络的算法仍然有一个精度差距，他们不能利用来自深层网络的特征，如 resnet-50 或更深层。在这篇文章中，
我们证明了核心原因是缺乏严格的平移不变性。通过全面的理论分析和实验验证，我们突破了这一限制，通过一
个简单而有效的空间感知采样策略，成功地训练了一个具有显著性能提升的基于 Resnet 网络的孪生跟踪器。此外，
我们还提出了一种新的模型体系结构来执行分层和深度聚合，这不仅进一步提高了计算的准确性，而且还减小
了模型的尺寸。我们进行了广泛的实验，以证明所提出的跟踪器的有效性，目前在五个大型跟踪基准上获得了
最佳结果，包括 OTB2015、VOT2018、UAV123、LASOT 和 TrackingNet。我们的模型将发布以便于进一步
研究。

视觉目标跟踪在过去几十年中受到越来越多的关注，一直是一个非常活跃的研究方向。它在视觉监视[47]、人
机交互[26]和增强现实[48]等领域有着广泛的应用。尽管最近取得了很大的进展，但由于光照变化、遮挡和杂乱背景等众多因素，它仍然被公认为一项非常具有挑战性的任务，仅举几个例子[46]。

最近，基于孪生网络的追踪器[40、1、15、42、41、24、43、52、44]引起了很大的关注。这些孪生跟踪器
通过对目标模板和搜索区域学习的特征表示之间的互相关，将视觉目标跟踪问题描述为学习一个通用的相似性
映射。为了保证跟踪效率，离线学习的孪生相似度函数在运行时经常是固定的[40，1，15]。CFNet 跟踪器[41]和
DSiam 跟踪器[11]分别通过运行平均模板和快速转换模块更新跟踪模型。SiamRnn 跟踪器[24]在 Siamme 网络之后
引入区域推荐网络[24]，将分类和回归合并用来跟踪。DaSiamRPN 跟踪器[52]进一步引入了一个干扰感知模块，
并提高了模型的识别能力。

尽管上述孪生跟踪器已经取得了突出的跟踪性能，特别是在平衡精度和速度方面，即使是性能最好的孪生跟踪器，
如 SiamPRN，其精度在 OTB2015[46]等跟踪基准上仍与现有技术有显著差距[5]。我们观察到，所有这些跟踪
都在类似于 Alexnet[23]的架构上构建了自己的网络，并多次尝试训练具有更复杂架构（如 Resnet[14]）的孪生
网络，但没有性能提升。在这种观察的启发下，我们对现有的孪生追踪器进行了分析，发现其核心原因是绝对
平移不变性 (strict translation invariance) 的破坏。由于目标可能出现在搜索区域的任何位置，因此目标模板的学习特征表示应该保持空间不变性，并且我们进一步从理论上发现，在新的深层体系结构中，只有 Alexnet 的 zero-padding 才能满足这种空间
不变性要求。

用更深的网络结构去克服孪生网络跟踪算法平移不变性的限制，通过实验验证，我们引入了一种简单而有效的采
样策略来打破孪生跟踪器的空间不变性限制。我们成功地训练了一个基于 SiamRPN[24]的跟踪器，使用 ResNet 作为
主干网络，并获得了显著的性能改进。利用 Resnet 结构，提出了一种基于层的互相关运算特征聚合结构 (a layer-wise feature aggravation structure)，该结构有助于跟踪器从多个层次的特征中预判出相似度图。通过对孪生网络结构的交叉相关分析，发现其两个网络分支在参数个数上存在高度不平衡，因此我们进一步提出了一种深度可分离的相关结构，它不仅大大减少
了目标模板分支中的参数个数，而且使模型的训练过程更加稳定。此外，还观察到一个有趣的现象，即
相同类别的对象在相同通道上具有较高的响应，而其余通道的响应则被抑制。正交特性也可以提高跟踪性能。

综上所述，本文的主要贡献如下：

我们对孪生跟踪器进行了深入的分析，并证明在使用深网络时，精度的降低是由于绝对平移不变性的破坏。
我们提出了一种简单而有效的采样策略，以打破空间不变性限制，成功地训练了基于 Resnet 架构的孪生跟踪器。
提出了一种基于层次的互相关操作特征聚集结构，该结构有助于跟踪器根据多层次学习的特征预测相似度图。

我们提出了一个深度可分离的相关结构来增强互相关，从而产生与不同语义相关的多重相似度图。

在上述理论分析和技术贡献的基础上，我们开发了一种高效的视觉跟踪模型，在跟踪精度方面更为先进
同时以 35 fps 的速度高效运行。我们称它为 SiamRPN++，在五个最大的跟踪基准上持续获得最佳的
跟踪结果，包括 OTB2015[46]、VOT2018[21]、UAV123[31]、LASOT[10]和 TrackingNet[30]。此外，我们还提出
了一种使用 MobileNet[18]主干网的快速跟踪器，该主干网在以 70 fps 的速度运行时良的实时性能。
为了进一步研究视觉跟踪方向，我们将发布 SiamRPN++ 跟踪器的源代码和模型权重。

在本节中，我们简要介绍了最近的追踪器，重点介绍了基于孪生网络的追踪器[40，1]。此外，我们还描述了深层
架构的最新发展。

由于建立了新的基准数据集[45、46、19、21、10、30]和改进了方法[16、51、6、7、17、32、9、5、43、
52、49]，视觉跟踪在过去十年中得到了迅速的发展。标准化基准点[45，46，10]为不同算法的比较提供了公平
的试验台。每年举行的跟踪挑战[22、19、20、21]不断推动跟踪算法的发展。随着这些进步，许多有前途的跟踪算法
被提出。Bolme 等人的开创性著作。[3]将信号处理领域的卷积定理引入视觉跟踪，将目标模板匹配问题转化为
频域的相关运算。根据这种转换，基于相关滤波器的跟踪器不仅可以获得高效的运行速度，而且如果使用适当的
调整，还可以提高精度[16、50、51、8、6]。随着深度学习模型在视觉跟踪中的广泛应用，基于深度特征表示
相关滤波器的跟踪算法[9，5]在流行的跟踪基准[45，46]和比赛[22，19，20]中获得了较高的精度。

近年来，基于孪生网络的跟踪器因其均衡了跟踪精度和速度而备受关注[40、1、15、42、41、12、24、43、
52、44]。这些追踪器将视觉跟踪描述为一个互相关问题，并期望更好地利用端到端学习的深层网络的优点。为
了从两个分支的互相关中生成一个相似图，他们训练了一个连接两个网络分支的 Y 形神经网络，一个用于对象模
板，另一个用于搜索区域。此外，这两个分支可以在跟踪阶段保持不变[40、1、15、43、24、52]或在线更新
以适应目标的外观变化[42、41、12]。目前最先进的孪生追踪器[24，52]通过孪生网络之后的区域推荐网络提
高了跟踪性能，并产生了良好的结果。然而，在 OTB 基准[46]上，它们的跟踪精度仍然与最先进的深层
跟踪算法（如 ECO[5]和 MdNet[32]）存在较大差距。

Alex 等人提出了新型的深层结构的 AlexNet。[23]2012 年，网络体系结构的研究迅速发展，并提出了许多复杂
深层体系结构，如 vgnet[37]、googenet[38]、resnet[14]和 mobilenet[18]。这些深层次的结构不仅提供了
对神经网络设计的更深入的理解，而且推动了许多计算机视觉任务的发展，如目标检测[33]、图像分割[4]和人
体姿势估计[39]。在深度视觉跟踪器中，网络架构通常包含不超过 5 个由 Alexnet 或 vgnet 定制的构成层。这一
现象可以解释为，浅特征主要有助于物体的准确率定位[34]。在这项工作中，我们认为，如果模型在整个孪生
网络中得到适当的训练，那么使用更深层次的模型，孪生追踪器的性能可以显著提高。

这项工作最重要的发现是，如果使用更深层次的网络，基于孪生网络的跟踪算法的性能可以显著提高。然而，
仅仅通过直接使用更深层的网络（如 resnet）来训练孪生跟踪器并不能获得预期的性能改进。我们发现其根本
原因主要是由于孪生追踪器的内在限制，因此，在引入所提出的 SiamRPN++ 模型之前，我们首先对孪生追
踪网络进行了深入的分析。

3.1 孪生网络跟踪分析

基于孪生网络的跟踪算法[40，1]将视觉跟踪作为一个互相关问题，并从具有孪生网络结构的深层模型中学习跟
踪相似性图，一个分支用于学习目标的特征表示，另一个分支用于搜索区域。目标区域通常在序列的第一帧中
给出，可以看作是一个模版 z。目标是在语义嵌入空间Φ(·) 中从后续帧 x 中找到最相似的区域（实例）：（公式 1）

$[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图1$

其中 b 是偏移量。

这个简单的匹配函数自然意味着孪生网络跟踪器有两个内在的限制。

孪生跟踪器中使用的收缩部分和特征抽取器对绝对平移不变性有内在的限制， $[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图2$
其中 $[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图3$

是平移移位子窗口操作器，确保了有效的训练和推理。

收缩部分对结构对称性有着内在的限制，即 $[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图4$
适用于相似性学习。

通过详细的分析，我们发现防止使用深网络的孪生跟踪器的核心原因与这两个方面有关。具体来说，一个原因是
深层网络中的填充会破坏绝对平移不变性。另一个是 RPN 需要不对称的特征来进行分类和回归。我们将引入空
间感知抽样策略来克服第一个问题，并在 3.4 中讨论第二个问题。

[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图5

F.1

图 1. 使用不同随机平移时正样本的先验概率的可视化。在 ±32 像素内随机平移后，分布变得更加均匀。

[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图6

F.2

图 2. 随机平移对 VOT 数据集的影响。

绝对平移不变性只存在于 no padding 的网络中，如修改后的 Alexnet[1]。以前基于孪生的网络[1，42，41，24，
52]设计为浅层网络，以满足这一限制。然而，如果使用的网络被新型网络如 ResNet 或 MobileNet 所取代，填充 (padding) 将
不可避免地使网络更深入，从而破坏了绝对平移不变性限制。我们的假设是，违反这一限制将导致空间偏移。

我们通过在带有填充 (padding) 的网络上进行模拟实验来验证我们的假设。移位定义为数据扩充中均匀分布产生的最大平移
范围。我们的模拟实验如下。首先，在三个单独的训练实验中，目标被放置在具有不同移位范围（0、16 和 32）
的中心。在收敛后，我们将测试数据集上生成的热图集合起来，然后将结果显示在图 1 中。在第一次零偏移模拟
中，边界区域的概率降为零。结果表明，尽管有测试目标的出现，但仍然存在很强的中心偏差。另外两个模拟表
明，增加位移范围将逐渐防止模型崩溃到这个微不足道的解决方案中。定量分析结果表明，32-shift 的总热量更接近
于测试对象的位置分布。结果表明，空间感知抽样策略有效地缓解了填充网络对严格平移不变性的破坏。

为了避免对物体产生强烈的中心偏差，我们采用空间感知采样策略，用 Resnet-50 主干训练 SiamRPN。如图 2 所
示，在 VOT2018 上，零移位 (zero shift) 的性能降低到 0.14，适当的移位（±64 像素）对于训练深孪生跟踪器至关重要。

[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图7

F.3

图 3. 我们提出的框架的插图。给定目标模板和搜索区域，网络通过融合多个 Siamese Region Proposal（SiamRPN）块的输出来输出密集预测。每个 SiamRPN 块都显示在右侧。

3.2 基于 ResNet 的孪生网络跟踪算法

基于以上分析，可以消除中心偏差的影响。一旦我们消除了对中心位置的学习偏差，任何现成的网络（例如，
MobileNet，ResNet）都可以用于在域适应后执行视觉跟踪。此外，还可以自适应地构造网络拓扑结构，揭示
深度网络的视觉跟踪性能。

在本小节中，我们将讨论如何将深度网络传输到我们的跟踪算法中。特别是，我们的实验主要集中在 ResNet-50
[14]。原来的 ResNet 有 32 pix 的大 stride，不适合于密集的孪生网络预测。如图 3 所示，我们通过修改 conv4 和
conv5 块以获得单位空间步幅，将最后两个块的有效步幅从 16 像素和 32 像素减少到 8 像素，并通过扩大卷积增加
其感受野[27]。在每个块输出端附加一个额外的 1×1 卷积层，将通道减少到 256。

由于所有层的填充都保持不变，模板特征的空间大小增加到 15，这给相关模块带来了沉重的计算负担。因此，
我们裁剪中心 7×7 区域[41]作为模板特征，其中每个特征单元仍然可以捕获整个目标区域。

在 SiamRPN 的基础上，我们将互相关层和全卷积层组合成头模块 (head module) 用于计算分类分数（用 S 表示）和边界框回归器
（用 B 表示）的头模块。SiameseRPN 块用 P 表示。

此外，我们发现经过的微调 ResNet 将提高性能。通过将 ResNet 提取器的学习速率设置为比 RPN 小 10 倍，该
特征表示更适合于跟踪任务。与传统的孪生方法不同，深层网络的参数以端到端的方式进行联合训练。据我们
所知，我们是第一个在深度孪生网络（>20 层）上实现端到端学习的视觉跟踪算法。

3.3 分层聚合

利用像 Resnet-50 这样的深层网络，可以聚合不同的深度层。直观地说，视觉跟踪需要丰富的表示，从低到高，从
小到大，从细到粗的分辨率。即使在卷积网络中有深度的特征，单独的层是不够的。复合和聚合这些特征可以提高识
别和定位。

在以前的文献中，仅使用像 Alexnet 这样的浅层网络，多层特性不能提供多元的特征表示。然而，考虑到感受野
的变化很大，ResNet 中的不同层更有意义。浅层特征主要集中在颜色、形状等低级信息上，对于定位是
必不可少的，而缺乏语义信息；深层特征具有丰富的语义信息，在运动模糊、大变形等挑战场景中有利于
定位。我们假设使用这种丰富的层次信息对于跟踪任务是由帮助的。

在我们的网络中，多分支特征被提取出来共同推断目标定位。对于 Resnet-50，我们探索从最后三个 residual blocks 中提
取的多级特性，以进行分层聚合。我们将这些输出特征分别称为 F3(z)、F4(z) 和 F5(z)。如图 3 所示，conv3、
conv4、conv5 的输出分别输入三个 SiamRPN 模块。

由于三个 RPN 模块的输出尺寸具有相同的空间分辨率，因此直接在 RPN 输出上采用加权和。加权融合层结合了
所有的输出。(公式 2)

$[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图8$

S——分类，B——回归

[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图9

F.4.

图 4。不同互相关层的图示。

（a）交叉相关（XCorr）层预测目标模板和搜索区域之间的单通道相似度图。
（b）向上通道互相关（UP-XCorr）层通过在 SiamRPN[24]中将一个具有多个独立 XCorr 层的重卷积层级联而输出多通道相关特征。

（c）深度相关（DW-XCorr）层预测模板和搜索块之间的多通道相关特征。

组合权重被分开用于分类和回归，因为它们的域是不同的。权重与网络一起进行端到端优化离线。

与以前的论文相比，我们的方法没有明确地结合卷积特征，而是分别学习分类器和回归。请注意，随着骨干网
络的深度显着增加，我们可以从视觉语义层次结构的充分多样性中获得实质性效果。

3.4 深度交叉相关

互相关模块是嵌入两个分支信息的核心操作。 SiamFC [1]利用交叉相关层获得目标定位的单通道响应图。
在 SiamRPN [24]中，通过添加巨大的卷积层来扩展通道（UP-Xcorr），交叉相关被扩展为嵌入更高级别的
信息，例如 anchors。巨大的 up-channel 模块严重影响参数分布的不平衡（即 RPN 模块包含 20M 参数，而特征提取
器在[24]中仅包含 4M 参数），这使得 SiamRPN 中的训练优化变得困难。

在本小节中，我们提出了一个轻量级互相关层，名为 Depthwise Cross Correlation（DW-XCorr），以实现有
效的信息关联。 DW-XCorr 层包含的参数比 SiamRPN 中使用的 UP-XCorr 少 10 倍，而性能却很高。

[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图10

F.5.

图 5. conv4 中深度相关输出的通道。 conv4 中共有 256 个通道，但是在跟踪过程中只有少数通道具有高响应。因此我们选择第 148,222,226 通道作为演示，图中为第 2，第 3，第 4 行。第一行包含来自 OTB 数据集的六个对应搜索区域[46]。不同的通道代表不同的语义，第 148 通道对汽车有很高的响应，而对人和人脸的反应很低。第 222 和第 226 通道分别对人和面部有很高的反应。

为实现此目的，采用 conv-bn 块来调整每个 residual blocks 的特征以适应跟踪任务。至关重要的是，边界框预测和基于 anchors
的分类都是不对称的，这与 SiamFC 不同（见第 3.1 节）。为了对差异进行编码，模板分支和搜索分支传递两个非
共享卷积层。然后，具有相同数量的通道的两个特征图按通道进行相关操作。附加另一个 conv-bn relu 块以融
合不同的通道输出。最后，附加用于分类或回归输出的最后一个卷积层。

通过将互相关替换为深度相关，我们可以大大降低计算成本和内存使用。通过这种方式，模板和搜索分支上的参
数数量得到平衡，从而使训练过程更加稳定。

此外，有趣的现象如图 5 所示。同一类别中的对象在相同的通道上具有高响应（第 148 通道中的车，第 222 通道中
的人，以及第 226 通道中的人），而其余通道的响应被抑制。由于深度互相关产生的通道方式特征几乎正交并且
每个通道代表一些语义信息，因此可以理解该属性。我们还使用上通道互相关分析热图，并且响应图的解释性
较差。

4.1 训练集及评估

训练

我们的架构[14]的骨干网络在 ImageNet [36]上进行了预训练，用于图像标记，已经证明这是对其他任务的非常好的初始化[13,27]。我们在 COCO [25]，ImageNet DET [36]，ImageNet VID 和 YouTube-BoundingBoxes 数据集[35]的训练集上训练网络，并学习如何测量视觉跟踪的一般对象之间相似性的一般概念。在训练和测试中，我们使用单比例图像，其中 127 个像素用于模板区域，255 个像素用于搜索区域。

评估

我们专注于 OTB2015 [46]，VOT2018 [21]和 UAV123 [31]上的短时单目标跟踪。我们使用 VOT2018-LT [21]来评估长时跟踪任务。在长时跟踪中，物体可能长时间离开视野或完全遮挡，这比短期跟踪更具挑战性。我们还分析了我们的方法在 LaSOT [10]和 TrackingNet [30]上的实验，这两个是最近才出现的单一目标跟踪的 benchmarks。

4.2 实施细节

网络结构

在实验中，我们按照 DaSiamRPN 进行训练和设置。我们将两个同级卷积层连接到减少步幅 (stride-reduced) 的 ResNet-50（第 3.2 节），用 5 个 anchors 执行分类和边界框回归。将三个随机初始化的 1×1 卷积层连接到 conv3，conv4，conv5，以将特征尺寸减小到 256。

优化

SiamRPN ++ 采用随机梯度下降（SGD）进行训练。我们使用 8 个 GPU 的同步 SGD，每个小批量共 128 对（每个 GPU 16 对），需要 12 小时才能收敛。我们使用前 5 个时间段的 0.001 的预热学习率来训练 RPN 分支。在过去的 15 个时间段中，整个网络都是端到端的训练，学习率从 0.005 到 0.0005 呈指数衰减。使用 0.0005 的重量衰减和 0.9 的动量。训练损失是分类损失和回归的标准平滑 L1 损失的总和。

4.3 对比实验

主干架构

特征提取器的选择至关重要，因为参数的数量和层的类型直接影响跟踪器的内存消耗，速度和性能。我们比较了视觉跟踪的不同网络架构。图 6 显示了使用 AlexNet，ResNet-18，ResNet-34，ResNet-50 和 MobileNet-v2 作为主干的性能。我们画出了在 OTB2015 上成功曲线的曲线下面积（AUC）相对于 ImageNet 的 top1 精度的性能。我们观察到我们的 SiamRPN ++ 可以从更深入的 ConvNets 中受益。

一些实验结果：

[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图11

F.6

图 6. 在 ImageB 上的 Top-1 准确度与 OTB2015 上的预期平均重叠（EAO）分数。

[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图12

T.1

表 1. 在 VOT2018 和 OTB2015 上提出的跟踪器的对比实验。 L3，L4，L5 分别代表 conv3，conv4，conv5。 Finetune 表示骨干是否离线训练。 Up/ DW 表示向上通道相关和深度相关。

表 1 还说明，通过将 AlexNet 替换为 ResNet-50，VOT2018 数据集的性能得到了很大改善。此外，我们的实验表明，对骨干部分进行微调是至关重要的，这会对跟踪性能产生很大的改善。

逐层特征聚合

为了研究分层特征聚合的影响，首先我们在 ResNet-50 上训练三个具有单个 RPN 的变体。我们凭经验发现，单独使用 conv4 可以在 EAO 中获得 0.374 的良好性能，而更深的层和更浅的层执行 4％的下降。通过组合两个分支，conv4 和 conv5 获得了改进，但是在其他两个组合上没有观察到改善。尽管如此，稳健性增加了 10％，这是我们跟踪器的主要漏洞。这意味着我们的追踪器仍有改进的余地。在汇总所有三个层之后，准确性和稳健性都稳步提高，VOT 和 OTB 的增益在 3.1％和 1.3％之间。总体而言，逐层特征聚合在 VOT2018 上产生 0.414 EAO 分数，比单层基线高 4.0％

深度相关

我们将原始的 Up-Channel XCorr 与 DW-XCorr 进行比较。如表 1 所示，所提出的深度相关性在 VOT2018 上获得 2.3％的改善，在 OTB2015 上获得 0.8％的改善，这证明了深度相关的重要性。这部分是因为两个分支的平衡参数分布使得学习过程更稳定，并且收敛更好。

[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图13

T.2

表 2. 在 VOT2018 基准测试中，在预期平均重叠（EAO），鲁棒性（故障率）和准确性方面与最新算法的比较。我们在比赛中与前 10 名跟踪器和我们的基线 DaSiamRPN 进行了比较。与排名靠前的方法（LADCF）相比，我们的跟踪器在 EAO 中获得了 6.4％的显着相对增益。

[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图14

F.7

图 7. 成功率图和精确度图显示了我们的跟踪器与 OTB2015 数据集上最先进的跟踪器的比较。

4.4 与最先进的算法进行比较

OTB-2015 Dataset

标准化的 OTB 基准[46]提供了一个公平的鲁棒性测试平台。基于 Siamese 的跟踪器将跟踪制定为一次性检测任务，无需任何在线更新，从而导致该无重置设置基准 (no-reset setting benchmark) 的性能较差。然而，我们将来自浅层网络的有限特征表示识别为阻止基于孪生的跟踪器超越表现最佳的方法的主要障碍，例如 C-COT 变体[9,5]。

我们将 OTB2015 上的 SiamRPN ++ 跟踪器与最先进的跟踪器进行比较。图 7 显示我们的 SiamRPN ++ 跟踪器在重叠成功时产生了领先的结果。与最近的 DaSiamRPN [52]相比，我们的 SiamRPN ++ 在重叠度提高了 3.8％，在精度提高了 3.4％。从深度 ConvNets 中提取的表示对照明和背景杂乱不太敏感。据我们所知，这是 Siamese 跟踪器首次获得与 OTB2015 数据集上最先进的跟踪器相当的性能。

[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图15

F.8

图 8. VOT2018 上的预期平均重叠性能。

VOT2018 Dataset

我们使用最新的 VOT-2018 数据集[21]测试了我们的 SiamRPN ++ 跟踪器，并与 10 种最先进的方法进行了比较。 VOT-2018 公共数据集是用于评估在线 model-free 单个对象跟踪器的最新数据集之一，包括 60 个具有不同挑战因素的公共序列。根据 VOT-2018 的评估标准，我们采用预期平均重叠（EAO），准确度（A）和鲁棒性（R）以及基于非重置的平均重叠（AO）来比较不同的跟踪器。详细比较见表 2。

从表 2 中，我们观察到所提出的 SiamRPN ++ 方法在 EAO，A 和 AO 标准上达到了最高性能。特别是，我们的 SiamRPN ++ 追踪器优于所有现有追踪器，包括 VOT2018 挑战赛冠军。与 VOT2018 挑战中最好的跟踪器（LADCF [21]）相比，该方法实现了 2.5％的性能提升。此外，我们的跟踪器在挑战冠军（MFT [21]）上取得了实质性的进步，准确率提高了 9.5％。

与基线跟踪器 DaSiamRPN 相比，我们的方法在稳健性方面获得了 10.3％的实质性提升，这是基于 Siamese Network 的跟踪器与相关滤波器方法的共同漏洞。尽管由于缺乏对模板的适应性，鲁棒性仍然与最先进的相关滤波器方法[2]存在差距，后者依赖于在线更新。

单通道评估（OPE）也被用于评估跟踪器，并报告 AO 值以证明其性能。从表 2 的最后一行，我们可以观察到，与 DLSTpp [21]相比，我们的方法实现了相当的性能，并且通过 10.0％的绝对提升改进了 DaSiamRPN [52]方法。

Accuracy vs. Speed

在图 9 中，我们相对于每秒帧数（FPS）在 VOT2018 上可视化 EAO。报告的速度在具有 NVIDIA Titan Xp GPU 的计算机上进行评估，其他结果由 VOT2018 官方结果提供。从结果来看，我们的 SiamRPN ++ 实现了最佳性能，同时仍然以实时速度（35 FPS）运行。值得注意的是，我们的两个变体实现了与 SiamRPN ++ 几乎相同的精度，同时运行速度超过 70 FPS，这使得这两个变体具有很强的竞争力。

[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图16

F.9

图 9. VOT2018 上最先进的跟踪方法的质量和速度的比较。我们相对于每秒帧数（FPS）可视化预期平均重叠（EAO）。请注意，FPS 轴是对数刻度。我们的两个变体分别用 ResNet-18（Oursres18）和 MobileNetv2（Ours-mobile）取代了 ResNet-50 骨干网。

[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图17

F.10

图 10. 长时跟踪性能。平均跟踪精度 - 回忆曲线（左），相应的 F - 得分曲线（右）。跟踪器标签根据 F 分数排序。

VOT2018 Long-term Dataset

在最新的 VOT2018 挑战中，新引入了一项长时实验。它由 35 个长序列组成，其中目标可以离开视野或长时间完全遮挡。指标包括精确度，召回率和综合 F 值 (precision, recall and a combined F-score)。我们报告了所有这些指标与 VOT2018-LT 上最先进的跟踪器相比较。

如图 10 所示，在为我们的跟踪器配备长时策略后，SiamRPN ++ 在 DaSiam LT 基础上有了 2.2％的提升，并且在 F-score 中的表现优于最佳跟踪器 1.9％。 ResNet 提取的强大功能绝对可以从我们的基线 DaSiamRPN 中将 TP 和 TR 提高 2％。同时，SiamRPN ++ 的长时版本仍能以 21 FPS 运行，这比 VOT2018-LT 的获胜者 MBMD [21]快近 8 倍。

UAV123 Dataset

UAV123 数据集包括 123 个序列，平均序列长度为 915 个帧。除了[29]中最近的跟踪器，ECO [5]，ECO-HC [5]，DaSiamRPN [52]，SiamRPN [24]被添加进行比较。图 11 示出了比较的跟踪器的精确度和成功率图。具体来说，我们的跟踪器获得了 0.613 的成功率分数，其表现优于 DaSiamRPN（0.586）和 ECO（0.525）。

[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图18

F.11

图 11. UAV123 上跟踪器的评估结果。

[译]SiamRPN : Evolution of Siamese Visual Tracking with Very Deep Networks--翻译_人工智能_凌空的桨-CSDN博客 - 图19

F.12

图 12. LaSOT 上跟踪器的评估结果。

表 3. TrackingNet 测试集在成功，精度和标准化精度方面的最新比较。

LaSOT Dataset

为了在更大，更具挑战性的数据集上进一步验证所提出的框架，我们在 LaSOT 上进行了实验[10]。 LaSOT 数据集提供了大规模，高质量的密集注释，共有 1,400 个视频，测试集中有 280 个视频。图 12 显示了我们的 SiamRPN ++ 跟踪器在 LaSOT 测试集上的整体性能。没有花里胡哨，我们的 SiamRPN ++ 模型足以达到 49.6％的最新 AUC 分数。具体来说，SiamRPN ++ 使标准化距离精度和 AUC 相对于 MDNet [32]相对提高了 23.7％和 24.9％，这是原始论文中报道的最佳跟踪器。

TrackingNet Dataset

最近发布的 TrackingNet [30]提供了大量数据来评估野外追踪器。我们在其测试集上评估了 SiamRPN ++ 的 511 个视频。在[30]之后，我们使用三个度量成功（AUC），精度（P）和归一化精度（Pnorm）进行评估。表 3 显示了具有最高 AUC 分数的跟踪器的比较结果，表明 SiamRPN ++ 在所有三个指标上都获得了最佳结果。具体而言，SiamRPN ++ 获得的 AUC 得分为 73.3％，P 得分为 69.4％，Pnorm 得分为 80.0％，优于第二名追踪者 DaSiamRPN [52]，AUC 得分为 63.8％，P 得分为 59.1％，Pnorm 得分为 73.4。％分别为 9.5％，10.3％和 6.6％。

总之，需要注意的是，所有这些一致的结果都显示了 siamrpn++ 的泛化能力。

在本文中，我们提出了一个统一的框架，称为 SiamRPN ++，用于端到端训练深度连体网络进行视觉跟踪。我们展示了如何在孪生跟踪器上训练深度网络的理论和实证证据。我们的网络由多层聚合模块组成，该模块组合连接层次以聚合不同级别的表示和深度相关层，这允许我们的网络降低计算成本和冗余参数，同时还导致更好的收敛。使用 SiamRPN ++，我们实时获得了 VOT2018 上最先进的结果，显示了 SiamRPN ++ 的有效性。 SiamRPN ++ 还在 La-SOT 和 TrackingNet 等大型数据集上实现了最先进的结果，显示了它的泛化性。

[1] L. Bertinetto, J. Valmadre, J. F. Henriques, A. Vedaldi, and P. H. Torr. Fully-convolutional siamese networks for object tracking. In ECCV Workshops, 2016. 1, 2, 3, 5, 8
[2] G. Bhat, J. Johnander, M. Danelljan, F. Shahbaz Khan, and M. Felsberg. Unveiling the power of deep tracking. In ECCV, September 2018. 7
[3] D. Bolme, J. Beveridge, B. Draper, and Y. Lui. Visual object tracking using adaptive correlation filters. In CVPR, 2010. 2
[4] L.-C. Chen, Y. Zhu, G. Papandreou, F. Schroff, and H. Adam. Encoder-decoder with atrous separable convolution for semantic image segmentation. In ECCV, 2018. 2
[5] M. Danelljan, G. Bhat, F. Shahbaz Khan, and M. Felsberg. Eco: Efficient convolution operators for tracking. In CVPR,

1, 2, 7, 8
[6] M. Danelljan, G. Hager, F. S. Khan, and M. Felsberg. Learning spatially regularized correlation filters for visual tracking.
In ICCV, 2015. 2
[7] M. Danelljan, G. Hager, F. Shahbaz Khan, and M. Felsberg. Convolutional features for correlation filter based visual
tracking. In ICCV Workshops, 2015. 2
[8] M. Danelljan, F. S. Khan, M. Felsberg, and J. V. De Weijer. Adaptive color attributes for real-time visual tracking. In
CVPR, 2014. 2
[9] M. Danelljan, A. Robinson, F. S. Khan, and M. Felsberg. Beyond correlation filters: Learning continuous convolution
operators for visual tracking. In ECCV, 2016. 2, 7
[10] H. Fan, L. Lin, F. Yang, P. Chu, G. Deng, S. Yu, H. Bai, Y. Xu, C. Liao, and H. Ling. Lasot: A high-quality benchmark
for large-scale single object tracking, 2018. 2, 6, 8
[11] Q. Guo, W. Feng, C. Zhou, R. Huang, L. Wan, and S. Wang. Learning dynamic siamese network for visual object tracking.
In ICCV, 2017. 1
[12] Q. Guo, W. Feng, C. Zhou, R. Huang, L. Wan, and S. Wang. Learning dynamic siamese network for visual object tracking.
In ICCV, 2017. 2
[13] K. He, G. Gkioxari, P. Dollar, and R. Girshick. Mask r-cnn. In The IEEE International Conference on Computer Vision
(ICCV), Oct 2017. 6

[14] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016. 1, 2, 4, 6
[15] D. Held, S. Thrun, and S. Savarese. Learning to track at 100 fps with deep regression networks. In ECCV, 2016. 1, 2
[16] J. Henriques, R. Caseiro, P. Martins, and J. Batista. Highspeed tracking with kernelized correlation filters. TPAMI, 2015. 2
[17] Z. Hong, Z. Chen, C. Wang, X. Mei, D. Prokhorov, and D. Tao. Multi-store tracker (muster): A cognitive psychology inspired approach to object tracking. In CVPR, 2015. 2
[18] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko,W.Wang, T. Weyand, M. Andreetto, and H. Adam. Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861, 2017. 2
[19] M. Kristan, A. Leonardis, J. Matas, M. Felsberg, R. Pflugfelder, and L. Cehovin Zajc. The visual object tracking vot2016 challenge results. In ECCV Workshops, 2015. 2
[20] M. Kristan, A. Leonardis, J. Matas, M. Felsberg, R. Pflugfelder, and L. Cehovin Zajc. The visual object tracking vot2017 challenge results. In ICCV, 2017. 2
[21] M. Kristan, A. Leonardis, J. Matas, M. Felsberg, R. Pfugfelder, L. C. Zajc, T. Vojir, G. Bhat, A. Lukezic, A. Eldesokey, G. Fernandez, and et al. The sixth visual object tracking vot2018 challenge results. In ECCVWorkshops, 2018. 2, 6, 7, 8
[22] M. Kristan, J. Matas, A. Leonardis, M. Felsberg, L. ˇ Cehovin, and G. Fern´ . The visual object tracking vot2015 challenge results. In ICCV Workshops, 2015. 2
[23] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012. 1, 2
[24] B. Li, J. Yan, W. Wu, Z. Zhu, and X. Hu. High performance visual tracking with siamese region proposal network. In CVPR, 2018. 1, 2, 3, 4, 5, 8
[25] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll´ar, and C. L. Zitnick. Microsoft coco: Common objects in context. In ECCV, pages 740–755. Springer, 2014. 6
[26] L. Liu, J. Xing, H. Ai, and X. Ruan. Hand posture recognition using finger geometric feature. In ICIP, 2012. 1
[27] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. 4, 6
[28] A. Lukezic, T. Vojir, L. Cehovin Zajc, J. Matas, and M. Kristan. Discriminative correlation filter with channel and spatial reliability. In CVPR, 2017. 8
[29] M. Mueller, N. Smith, and B. Ghanem. A benchmark and simulator for uav tracking. In ECCV, pages 445–461.
Springer, 2016. 8
[30] M. M¨uller, A. Bibi, S. Giancola, S. Al-Subaihi, and B. Ghanem. Trackingnet: A large-scale dataset and benchmark for object tracking in the wild. ECCV, 2018. 2, 6, 8
[31] M. M¨uller, N. Smith, and B. Ghanem. A benchmark and simulator for uav tracking. In ECCV, 2016. 2, 6
[32] H. Nam and B. Han. Learning multi-domain convolutional neural networks for visual tracking. In CVPR, 2016. 2, 8

[33] C. Peng, T. Xiao, Z. Li, Y. Jiang, X. Zhang, K. Jia, G. Yu, and J. Sun. Megdet: A large mini-batch object detector. In
CVPR, 2018. 2
[34] R. Pflugfelder. An in-depth analysis of visual tracking with siamese neural networks. arXiv:1707.00569, 2017. 3
[35] E. Real, J. Shlens, S. Mazzocchi, X. Pan, and V. Vanhoucke. Youtube-boundingboxes: A large high-precision human-annotated data set for object detection in video. In Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on, pages 7464–7473. IEEE, 2017. 6
[36] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015. 6
[37] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015. 2
[38] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In CVPR, 2015. 2
[39] W. Tang, P. Yu, and Y. Wu. Deeply learned compositional models for human pose estimation. In ECCV, 2018. 2
[40] R. Tao, E. Gavves, and A. W. M. Smeulders. Siamese instance search for tracking. In CVPR, 2016. 1, 2, 3
[41] J. Valmadre, L. Bertinetto, J. F. Henriques, A. Vedaldi, and P. H. Torr. End-to-end representation learning for correlation filter based tracking. In CVPR, 2017. 1, 2, 3, 4, 8
[42] Q. Wang, J. Gao, J. Xing, M. Zhang, and W. Hu. Dcfnet: Discriminant correlation filters network for visual tracking. In arXiv:1704.04057, 2017. 1, 2, 3
[43] Q. Wang, Z. Teng, J. Xing, J. Gao, W. Hu, and S. Maybank. Learning attentions: Residual attentional siamese network for high performance online visual tracking. In CVPR, 2018. 1, 2
[44] Q.Wang, M. Zhang, J. Xing, J. Gao,W. Hu, and S. Maybank. Do not lose the details: Reinforced representation learning for high performance visual tracking. In IJCAI, 2018. 1, 2
[45] Y. Wu, J. Lim, and M.-H. Yang. Online object tracking: A benchmark. In CVPR, 2013. 2
[46] Y. Wu, J. Lim, and M.-H. Yang. Object tracking benchmark. TPAMI, 2015. 1, 2, 5, 6, 7
[47] J. Xing, H. Ai, and S. Lao. Multiple human tracking based on multi-view upper-body detection and discriminative learning. In ICPR, 2010. 1
[48] G. Zhang and P. Vela. Good features to track for visual slam. In CVPR, 2015. 1
[49] M. Zhang, Q. Wang, J. Xing, J. Gao, P. Peng, W. Hu, and S. Maybank. Visual tracking via spatially aligned correlation filters network. In ECCV, 2016. 2
[50] M. Zhang, J. Xing, J. Gao, andW. Hu. Robust visual tracking using joint scale-spatial correlation filters. In ICIP, 2015. 2
[51] M. Zhang, J. Xing, J. Gao, X. Shi, Q. Wang, and W. Hu. Joint scale-spatial correlation tracking with adaptive rotation estimation. In ICCV Workshops, 2015. 2
[52] Z. Zhu, Q. Wang, B. Li, W. Wu, J. Yan, and W. Hu. Distractor-aware siamese networks for visual object tracking.
In ECCV, 2018. 1, 2, 3, 6, 7, 8
https://blog.csdn.net/baidu_36669549/article/details/85719585