matting - Semantic Human Matting - 《WorkNote》

Paper
Supplement
####Matting Metric代码、实现原理**

Paper

1、(前景)不透明度值

不透明即opacity，透明transparency。0表示透明，1表示不透明。
matting的任务是计算图像前景像素的不透明度（alpha通道），方便后续的图像合成编辑。

2、为什么不能独立训练、为什么需要联合训练

因为两者目的不同。

比如为什么不使用closed form matting。因为matting modules高度非线性（？？），其目的聚焦于细节结构的提取，无法直接对获取的语义信息进行训练。
因此需要fusion module，将两部分信息融合。

3、什么是端到端联合（两个任务、两个子网络）训练

相对于深度学习，传统机器学习的流程往往由多个独立的模块组成。每个模块是一个独立的任务，其结果的好坏会影响到下一模块，从而影响整个训练的结果，这是属于非端到端训练。
深度学习模型在训练过程中，从输入端（输入原始数据）到输出端（最终结果）会得到一个预测结果，与GT相比存在一个误差，该误差会在模型中的每一层传递（反向传播），每一层的表示都会根据这个误差来做调整，直至模型收敛，这是端到端的。

4、M-Net(类似于DIM)

Encoder(超参数与VGG16一致): 2+2+3+3+3, 4 pooling
Decoder: 6, 4*unpooling
聚焦于unknown regions，仅恢复结构和纹理信息，对于前景和背景的语义信息训练的并不好。

5、Fusion Module 概述

将（前景区域、背景区域）语义信息与（未知区域）细节信息融合。

当pixel位于unknown region 意味着这个像素接近人体轮廓，构成了类似于头发这种复杂细节。可由M-Net得到，即raw alpha matte（M-Net）。

当pixel位于unknown region外则该像素属于前景的条件概率近似于matte的估计：

如果语义分割模型分割的精度较高，那么可以认为 Semantic Human Matting - 图2 对应的区域已经很好的抠出了大部分的前景和背景，唯一需要提升准确率的是待抠对象的边缘区域，所以模型的第二阶段 M-Net 的目的就是细化的预测边缘区域，两部分结合即得到最终的预测。
Semantic Human Matting - 图3