CVPR2019 的论文在 arXiv 上已经可以找到了,看到了这篇题为《Group-wise Correlation Stereo Network》。题目中的 “组相关” 是创新点,整体感觉没有很出彩,大部分工作是基于 PSM-Net(CVPR18,之前有介绍过),cost volume 的相关计算做了一点改进,效果提升不是很明显。但相信 CVPR 不会骗人…
首先说一下相关 “Correlation”,15 年的论文 Flow-Net 是做光流估计的。但光流实际上和立体匹配都是给两幅图去做对应点的匹配,只不过光流估计没有立体匹配的像素在同一水平线的约束。在 Flow-Net 中,作者尝试了两种网络结构,一种就是很直接的串联两张图像,输出光流;而另一种则是两张图分别经过相同权重的几个卷积层得到对应特征,再计算得到一个相关 volume,最后卷积得到结果。相关的表达式:
最终形成的是一个 4D 的 volume,长宽、偏移(同一点偏移量大则光流大)、通道。也就是说不同的通道(尽管看上去应该是不同的特征)还是计算了相关。这个相关计算的表达式就是用向量内积的方式,作者在文中将这种相关计算称为 “full correlation”。两个归一化的向量做内积,就可以根据结果大小判断相似度。这样的内积是单通道对单通道的,是丢失一些信息的。实际上 Flow-Net 形成的 volume 对于也考虑了不同通道的关联,所以我觉得作者在这里想表达的应该是那种(C×W×H)在对应通道做内积的方法。
这里说明一下,文中作者引的是 DispNet,DispNet 没有具体看过,但是结构上是借鉴的 Flow-Net。
另外一种相关的计算文中称作 “concatenation correlation”,就是 GC-Net 和 PSM-Net 都采用的方式。得到左右特征图之后,直接组合成 4D 的 cost volume(cost volume 形成过程可以参考前面的笔记),这里的组合就是很直接的形成一个参数未知的量,因此在一开始并不包含任何关于特征相似度的信息,相当于是通过从头开始的训练(from scratch)才形成了一个表示相关的量。因此,这样的方法需要很多参数,使网络的规模变得很大。
为了解决这两种相关的不足,作者提出了 “组相关”。所谓“Group-wise” 就是对多通道的特征图沿着通道分组。比如文中实验部分提到的左右特征图是 320 通道的,就分为了 40 组,每组 8 个通道。组相关的计算是按照向量内积的方式,但是因为一组有多个通道,又不会丢失很多信息。所以其实这个组相关就是对上面两种用了个折衷的方式。
现在可以看一下网络的结构示意图了。
前面左右图共享权重特征提取,高层低层特征组合得到特征图。上面一路组合生成串联 volume,下面一路计算相关得到组相关 volume,再串联起来得到结合的 volume,通过 3D 聚合网络最终得到视差图。3D 聚合模块和 PSM-Net 的部分很像,只做了一点点改动… 虽然作者提到了可以在推测阶段更快 blabla,但我还是想说参考的有点严重…
在后面实验部分作者还说:组相关 volume 提供了特征向量匹配的相似度,而串联 volume 提供了语义信息作为补充,这里语义信息有点难理解。包括 GC-Net 的 geometry 和 context,应该是相邻像素的一种关联,或许就是这里谈到的语义信息吧。
实验部分也就是在歌颂一下提出的组相关啦。整体下来感觉就是相关的计算结合了已有的两种方法,网络结构上基本参考 PSM-Net,还把 PSM-Net 的亮点之一——多尺度的金字塔结构给去掉了。
https://zhuanlan.zhihu.com/p/59467690