很高兴以作者的身份写一篇论文笔记,介绍我们实验室被 AAAI-2022 接收的工作:

    目前立体匹配领域领先水平的模型都是基于 CNN 的,如 NeurIPS-2020 的 LEAStereo,通过搜索的方式获取最佳的网络结构。但随着 Transformer 在计算机视觉领域的火热,我们不禁思考,是否 CNN 的结构就是最适合立体匹配任务的呢?之前已有一些工作通过改进朴素的卷积来探索更有效的代价聚合策略(GANet、AANet),本文从特征提取和视差调优两方面入手,来帮助 / 改进 CNN。

    局部相似度模式 LSP

    卷积核作用的方式是通过小范围内的加权平均,这会导致卷积特征倾向于捕捉一些关于表观内容的信息。由于左图到右图视角的变换,表观特性可能会发生改变,如树荫下的物体在另一视角下可能是明亮的。这个时候卷积特征将无法有判别性地(discriminatively)描述物体。本文借鉴传统的 CT/LBP 算子,提出了更能反映物体结构特性的特征算子 LSP。在卷积特征 CF 的基础上,LSP 显式地构建了每个点和邻居点的关系,用这一关系来描述中心点。设想有光照变化时,一块区域的表观发生改变,但点和点的关系可能是鲁棒的。

    我们用一个简单的例子说明 LSP 比 CF 更能利用对光照 / 色彩鲁棒的结构特性:

    立体匹配论文解读:局部相似度模式和代价自重组 - 知乎 - 图1

    在论文中,我们没有给出 “光照不一致的匹配” 这部分的研究结果,只是融合 CF 与 LSP,在常规数据集进行实验,但是这个例子可以说明 “结构特性” 这一问题。

    最后,希望我们在了解 CF 和 LSP 的区别时能联系到 AD-Census 这篇论文,从我个人理解问题的角度讲,CF 和传统的 AD 相似:对图像的一片区域进行(加权)求和;而 LSP 和 Census 相似:构建邻域内点对的关系。

    代价自重组 CSR

    当前大部分调优模块都是一个简单的卷积网络输出视差的残差进行调优,这样的做法缺乏可解释性,且静态的卷积核也无法高效地修补各种误差模式,为了降低平均误差,可能会产生过度平滑的结果。本文设计的视差调优模块是受传统的视差填充方法的启发:为异常点寻找一些 “可靠” 且“关系密切”的邻居点,用邻居点的视差来代替自己的视差。在传统视差填充方法中,这一寻找过程是人工定义的,我们将其“深度学习化”,采用了一个编解码结构来预测这些邻居节点的位置。

    代价自重组的操作对象是聚合后的代价,也即用于输出视差时 softmax 层的输入(图像分类任务中成为 logits),这是为了我们可以对调优后的视差施加单峰分布约束,来进一步缓解过度平滑的问题、提升模型性能。当然,自重组技术也可以应用在视差图上,视差自重组更加节省现存。

    实验结果表明调优方法 CSR 能大幅提升模型性能。本质上来讲,CSR 是利用单目的先验弥补匹配上的不足,因此,CSR 对于遮挡、视差不连续处、弱纹理等等都非常有效。


    更多细节可以从论文和代码中了解,欢迎大家交流,也希望我们的工作能有所启发。
    https://zhuanlan.zhihu.com/p/441372042