ICCV2019 的论文,Semantic Stereo Matching with Pyramid Cost Volumes,目前在 KITTI2015 排行榜上第 31 名。
本文主要工作在于:
- 加入语义分割任务
- 构建多个不同尺度的 cost volume
- 针对多个 cost volume,提出一种融合方式
在 PSMNet 中,不同 kernel_size 的 pooling 层得到多尺度的特征,融合后形成了 cost volume。在本文中,直接用不同尺度的特征搭建多个 cost volume;此外,还有一条进行语义分割任务的支路,这一支路的特征也搭建一个 cost volume。
如图,不同尺度的多个 cost volume 在文中称为 “Pyramid Cost Volumes”。语义分割任务是用的 PSPNet,在最终的分类之前,特征搭建一个 cost volume(绿色部分)。
多个 cost volume 聚合的方式如下:
每个 cost volume 都会经过正常的 3D 卷积聚合。融合时,size 较小的 cost volume 首先采样到和另外一个 cost volume 一样大小,然后送入右下角所示的特征融合模块(FFM)中。这部分有点像 SE-block:两个 cost volume 相加经过全局池化得到一个向量,再用全连接层调整大小,最终经过 sigmoid 层得到一个权重向量。这个权重向量与一个 cost volume 相乘再加上另一个 cost volume,就完成了融合。所有的 cost volume 融合完毕后就是通道聚合,然后 softmax 计算概率,再回归得到视差。
损失函数: 由于有一个语义分割的结果,除了视差监督项外,加入语义边缘约束。(另:训练策略是先训语义分割,再联合训立体匹配 + 语义分割。)
式中φ是梯度算子。这个函数在视差变化小、语义变化大的地方值较大,会迫使视差在语义边缘处产生边缘。
https://zhuanlan.zhihu.com/p/90114801