在这篇来自 3DV 的论文中《Do End-to-end Stereo Algorithms Under-utilize Information?》,作者汇总了四种可以用在立体匹配网络中的 content-adaptive 的滤波方式,从而更好地利用 RGB 的指导信息。

    • Segmentation-aware Bilateral Filtering Module (SABF)

    借鉴双边滤波的思想。一次滤波就是对邻域内所有点进行一次聚合,聚合的权重由两个点之间的欧式距离(p)和特征距离(e)决定。下式中 K 为滤波核。具体会约束同一物体的特征应接近、不同物体特征应拉远,从而实现对特征嵌入 e 的学习。

    立体匹配论文笔记(十三):RGB指导的滤波 - 知乎 - 图1
    立体匹配论文笔记(十三):RGB指导的滤波 - 知乎 - 图2

    • Dynamic Filtering Networks (DFN) Module

    动态滤波:卷积核的参数不是自己学到的,是通过网络输出的。假如要为每个点学一个 33 的卷积核(考虑不同点卷积核不共享的情况),那么输出就是 HW9 的张量,9 就代表为对应点准备的 33 卷积核参数。

    • Pixel Adaptive Convolutional (PAC) Module

    CNN 中的卷积核是全图共享的,手动对卷积核进行加权,邻域内相似点的权重较高、不相似点的权重较低。

    立体匹配论文笔记(十三):RGB指导的滤波 - 知乎 - 图3

    K 即加权核,如高斯核

    立体匹配论文笔记(十三):RGB指导的滤波 - 知乎 - 图4

    • Semi-Global Aggregation Module

    立体匹配论文笔记(十三):RGB指导的滤波 - 知乎 - 图5

    对 cost volume 进行滤波,权重核 w 是网络预测的。

    应用:前三种都是对视差切片应用的,最后的 SGA 是要考虑不同 d 的,也就是说会跨视差切片。这里稍微有一点混淆的是:如果 cost volume 的规模是 DHW,那么视差切片就是一张图,做滤波可以理解;如果 cost volume 是 CDH*W 的,那视差切片实际上是 C 通道的特征了,感觉应该是所有通道都做相同的滤波。
    https://zhuanlan.zhihu.com/p/326292647