论文地址：
《Learning common and specific features for RGB-D semantic segmentation with deconvolutional networks》

一、摘要

解决问题：解决室内图像的RGB-D语义分割问题。（与室外图像相比，室内图像物体更密集，分割难度更大）
提出方法：提出一个新颖的特征变换结构，通过同一张图像的RGB和depth两种模式的特征互补，来改进语义分割结果。（具体的，在特征变换transformation阶段，将每个模式的特征分成共有特征和特有特征。共有特征即两个模式都有的特征，不仅近似关联了两个模式，还允许两个模式之间借助彼此的特征来增强共有特征的表达。特有特征捕捉了只在一个模式中可见的特征；原文中说RGB模式主要捕获外观信息（appearance），depth模式主要捕获形状信息（shape））
成果：在NYU depth dataset V1 和V2 中，取得了有竞争力的分割精度。

二、网络架构

网络模型是语义分割常用的卷积-反卷积结构，在此基础上，中间加入了transformation阶段来融合RGB图像和depth图像的特征（即卷积-transformation-反卷积）。（1）首先是卷积阶段，RBG图像和深度图像经过卷积提取到特征X（包括Xrgb、Xconvdepth，为简略以下均不标注rgb、depth下标）；（2）然后是transformation阶段，特征X经过2个全连接fc1和fc1，分别得到共同特征C和特有特征S。每个模式通过fc2融合3个特征：该模式的共有特征、特有特征，和另一个模式的共有特征。得到融合后的特征X。（3）最后是反卷积阶段，RGB和depth特征反卷积还原到原图尺寸。（注：共有特征和特有特征，是针对RGB图像和depth图像而言。）
网络结构具体参数如下，（a）（b）（c）分别是卷积模块、反卷积模块、变换模块。

三、评价指标

损失函数：
解释：
损失函数由像素级损失lrgb、ld和MK-MMD损失d(Crgb,Cd)、d(Srgb,Sd)组成.

lrgb、ld

真值标签和预测标签（反卷积后的特征图）之间的像素级损失。

d(Crgb,Cd)、d(Srgb,Sd)

这两项损失的作用是最小化共有特征的特征分布，同时最大化特有特征的特征分布。
采用多核最大平均距离方法，即MK-MMD（Multiple kernel maximum mean discrepancy ），来衡量RGB和depth图像的特征分布相似性。（用欧式距离衡量每个特征相似性的话，会受异常值影响，而衡量特征分布相似性则不会）
Mk-MMD先将RGB和depth的特征映射到再生核希尔伯特空间，再计算再生核希尔伯特空间中两个特征的最大平均距离。损失函数中d(Crgb,Cd)、d(Srgb,Sd)即MK-MMD计算的共同特征距离和特有特征的距离。
通过最小化d(Crgb,Cd)，同时最大化d(Srgb,Sd)，即可让共同特征尽量相似，而特有特征尽量不同。

α : 4个α是平衡参数，用来平衡各个损失项。

CV论文笔记

RGB-D双模语义分割模型（2016）

一、摘要

二、网络架构

三、评价指标