ICCV2019 的论文,Semantic Stereo Matching with Pyramid Cost Volumes,目前在 KITTI2015 排行榜上第 31 名。

    本文主要工作在于:

    • 加入语义分割任务
    • 构建多个不同尺度的 cost volume
    • 针对多个 cost volume,提出一种融合方式

    在 PSMNet 中,不同 kernel_size 的 pooling 层得到多尺度的特征,融合后形成了 cost volume。在本文中,直接用不同尺度的特征搭建多个 cost volume;此外,还有一条进行语义分割任务的支路,这一支路的特征也搭建一个 cost volume。

    立体匹配论文笔记(七):SSPCV-Net - 知乎 - 图1

    如图,不同尺度的多个 cost volume 在文中称为 “Pyramid Cost Volumes”。语义分割任务是用的 PSPNet,在最终的分类之前,特征搭建一个 cost volume(绿色部分)。

    多个 cost volume 聚合的方式如下:

    立体匹配论文笔记(七):SSPCV-Net - 知乎 - 图2

    每个 cost volume 都会经过正常的 3D 卷积聚合。融合时,size 较小的 cost volume 首先采样到和另外一个 cost volume 一样大小,然后送入右下角所示的特征融合模块(FFM)中。这部分有点像 SE-block:两个 cost volume 相加经过全局池化得到一个向量,再用全连接层调整大小,最终经过 sigmoid 层得到一个权重向量。这个权重向量与一个 cost volume 相乘再加上另一个 cost volume,就完成了融合。所有的 cost volume 融合完毕后就是通道聚合,然后 softmax 计算概率,再回归得到视差。

    损失函数: 由于有一个语义分割的结果,除了视差监督项外,加入语义边缘约束。(另:训练策略是先训语义分割,再联合训立体匹配 + 语义分割。)

    立体匹配论文笔记(七):SSPCV-Net - 知乎 - 图3

    式中φ是梯度算子。这个函数在视差变化小、语义变化大的地方值较大,会迫使视差在语义边缘处产生边缘。
    https://zhuanlan.zhihu.com/p/90114801