Learning to Track Any Object - 《视觉跟踪专栏》

这篇文章不同于过去的孪生神经网络追踪算法，采用了单一神经网络进行泛华特征追踪。其特点是不需要进行物体预先分类识别，针对非特定物体进行feature embedding并进行追踪。
Screenshot from 2020-08-28 14-12-37.png

该方法采用了Mask R-CNN 为基准物体检测框架，通过基准网络提取出11×D维度的特征向量，然后将这个特征向量作为相关滤波器的输入特征进行追踪。原文章中采用了FPN结合了P2\P3\P4\P5四个层的特征图得到11*256维的特征向量作为滤波器输入特征。

对于特征向量τ，将其视为唯一正样本，同时在图像中抽取大量负样本，得到相关滤波器的输入与输出：
Screenshot from 2020-08-28 14-22-20.png
求解滤波器的过程可以由下列公式表示：

该问题的解可以参考KCF等文章，使用岭回归方式得出：

在得到相关滤波器之后，我们不将其直接作为滤波结果输出，而是将滤波响应作为目标物体先验信息进行输出。因此我们将滤波响应τd视作图像的attention map，将τd与原来的基准网络输出进行卷积之后再与基准网络输出进行点乘法：
Screenshot from 2020-08-28 14-30-06.png

可以看到如果直接提取相关滤波的响应，输出同左下图一样不够具有分辨能力；而将相关滤波响应作为attention map与原网络输出进行点乘之后，特征图的分辨能力明显强了很多，如右下图。

完成这一过程之后，继续参考Mask R-CNN ，为输出的后续增加一个bounding box回归分支以及一个mask回归分支。这里不需要再增加检测分支因为检测操作已经由相关滤波器来完成了，且算法最终的目的是一个非物体检测的tracker。将mask与bounding box相结合可以提升追踪的效果，论文中使用mask作为跟踪器而bounding box作为检测器，检测器进行独立工作，而mask 针对输出置信度进行矫正，矫正公式如下：
Screenshot from 2020-08-28 14-40-24.png
其中J为mask的IOU损失，c为基准网络输出的置信度。