论文地址:
《Learning common and specific features for RGB-D semantic segmentation with deconvolutional networks》

一、摘要

  • 解决问题:解决室内图像的RGB-D语义分割问题。(与室外图像相比,室内图像物体更密集,分割难度更大)
  • 提出方法:提出一个新颖的特征变换结构,通过同一张图像的RGB和depth两种模式的特征互补,来改进语义分割结果。(具体的,在特征变换transformation阶段,将每个模式的特征分成共有特征和特有特征。共有特征即两个模式都有的特征,不仅近似关联了两个模式,还允许两个模式之间借助彼此的特征来增强共有特征的表达。特有特征捕捉了只在一个模式中可见的特征;原文中说RGB模式主要捕获外观信息(appearance),depth模式主要捕获形状信息(shape))
  • 成果:在NYU depth dataset V1 和V2 中,取得了有竞争力的分割精度。

二、网络架构

image.png
网络模型是语义分割常用的卷积-反卷积结构,在此基础上,中间加入了transformation阶段来融合RGB图像和depth图像的特征(即卷积-transformation-反卷积)。(1)首先是卷积阶段,RBG图像和深度图像经过卷积提取到特征X(包括Xrgb、Xconvdepth,为简略以下均不标注rgb、depth下标);(2)然后是transformation阶段,特征X经过2个全连接fc1和fc1,分别得到共同特征C和特有特征S。每个模式通过fc2融合3个特征:该模式的共有特征、特有特征,和另一个模式的共有特征。得到融合后的特征X。(3)最后是反卷积阶段,RGB和depth特征反卷积还原到原图尺寸。(注:共有特征和特有特征,是针对RGB图像和depth图像而言。)
网络结构具体参数如下,(a)(b)(c)分别是卷积模块、反卷积模块、变换模块。
image.png

三、评价指标

损失函数:image.png
解释:
损失函数由像素级损失lrgb、ld和MK-MMD损失d(Crgb,Cd)、d(Srgb,Sd)组成.

  1. lrgb、ld

真值标签和预测标签(反卷积后的特征图)之间的像素级损失。

  1. d(Crgb,Cd)、d(Srgb,Sd)

这两项损失的作用是最小化共有特征的特征分布,同时最大化特有特征的特征分布。
采用 多核最大平均距离方法,即MK-MMD(Multiple kernel maximum mean discrepancy ),来衡量RGB和depth图像的特征分布相似性。(用欧式距离衡量每个特征相似性的话,会受异常值影响,而衡量特征分布相似性则不会)
Mk-MMD先将RGB和depth的特征映射到再生核希尔伯特空间,再计算再生核希尔伯特空间中两个特征的最大平均距离。损失函数中d(Crgb,Cd)、d(Srgb,Sd)即MK-MMD计算的共同特征距离和特有特征的距离。
通过最小化d(Crgb,Cd),同时最大化d(Srgb,Sd),即可让共同特征尽量相似,而特有特征尽量不同。

  1. α : 4个α是平衡参数,用来平衡各个损失项。