立体匹配 - 立体匹配论文笔记（七）：SSPCV-Net - 知乎 - 《机器学习》

ICCV2019 的论文，Semantic Stereo Matching with Pyramid Cost Volumes，目前在 KITTI2015 排行榜上第 31 名。

本文主要工作在于：

加入语义分割任务
构建多个不同尺度的 cost volume
针对多个 cost volume，提出一种融合方式

在 PSMNet 中，不同 kernel_size 的 pooling 层得到多尺度的特征，融合后形成了 cost volume。在本文中，直接用不同尺度的特征搭建多个 cost volume；此外，还有一条进行语义分割任务的支路，这一支路的特征也搭建一个 cost volume。

立体匹配论文笔记（七）：SSPCV-Net - 知乎 - 图1

如图，不同尺度的多个 cost volume 在文中称为 “Pyramid Cost Volumes”。语义分割任务是用的 PSPNet，在最终的分类之前，特征搭建一个 cost volume（绿色部分）。

多个 cost volume 聚合的方式如下：

立体匹配论文笔记（七）：SSPCV-Net - 知乎 - 图2

每个 cost volume 都会经过正常的 3D 卷积聚合。融合时，size 较小的 cost volume 首先采样到和另外一个 cost volume 一样大小，然后送入右下角所示的特征融合模块（FFM）中。这部分有点像 SE-block：两个 cost volume 相加经过全局池化得到一个向量，再用全连接层调整大小，最终经过 sigmoid 层得到一个权重向量。这个权重向量与一个 cost volume 相乘再加上另一个 cost volume，就完成了融合。所有的 cost volume 融合完毕后就是通道聚合，然后 softmax 计算概率，再回归得到视差。

损失函数： 由于有一个语义分割的结果，除了视差监督项外，加入语义边缘约束。（另：训练策略是先训语义分割，再联合训立体匹配 + 语义分割。）

立体匹配论文笔记（七）：SSPCV-Net - 知乎 - 图3

式中φ是梯度算子。这个函数在视差变化小、语义变化大的地方值较大，会迫使视差在语义边缘处产生边缘。
https://zhuanlan.zhihu.com/p/90114801