Paper
1、(前景)不透明度值
不透明即opacity,透明transparency。0表示透明,1表示不透明。matting的任务是计算图像前景像素的不透明度(alpha通道),方便后续的图像合成编辑。
2、为什么不能独立训练、为什么需要联合训练
因为两者目的不同。
比如为什么不使用closed form matting。因为matting modules高度非线性(??),其目的聚焦于细节结构的提取,无法直接对获取的语义信息进行训练。
因此需要fusion module,将两部分信息融合。
3、什么是端到端联合(两个任务、两个子网络)训练
相对于深度学习,传统机器学习的流程往往由多个独立的模块组成。每个模块是一个独立的任务,其结果的好坏会影响到下一模块,从而影响整个训练的结果,这是属于非端到端训练。
深度学习模型在训练过程中,从输入端(输入原始数据)到输出端(最终结果)会得到一个预测结果,与GT相比存在一个误差,该误差会在模型中的每一层传递(反向传播),每一层的表示都会根据这个误差来做调整,直至模型收敛,这是端到端的。
4、M-Net(类似于DIM)
Encoder(超参数与VGG16一致): 2+2+3+3+3, 4 pooling
Decoder: 6, 4*unpooling
聚焦于unknown regions,仅恢复结构和纹理信息,对于前景和背景的语义信息训练的并不好。
5、Fusion Module 概述
将(前景区域、背景区域)语义信息与(未知区域)细节信息融合。
当pixel位于
unknown region意味着这个像素接近人体轮廓,构成了类似于头发这种复杂细节。可由M-Net得到,即raw alpha matte(M-Net)。当pixel位于
unknown region外 则该像素属于前景的条件概率近似于matte的估计:
如果语义分割模型分割的精度较高,那么可以认为对应的区域已经很好的抠出了大部分的前景和背景,唯一需要提升准确率的是待抠对象的边缘区域,所以模型的第二阶段 M-Net 的目的就是细化的预测边缘区域,两部分结合即得到最终的预测。
预测的前景 = 确定区域上的前景 + 未知区域上的前景
依据全概率公式:
6、alpha matte metrics:归一化0.0~1.0
SAD、MSEGradient error、Connectivity error用于反应人类观察者的视觉感知质量
Supplement
条件概率
![]()
表示在
的条件下,
发生的概率。 其中
表示
、
同时发生的概率,若两者独立则
。
全概率 如果事件
构成一个完备事件组,即两两互不相容,其和为全集,并且
,则对于任意事件
有:
####Matting Metric代码、实现原理**
原理理解。
[参考]
高斯滤波gaussian_filter
scipy.ndimage.gaussian_filter
skimage.measure.label函数
skimage.measure.label
