matting - MODNet - 《WorkNote》

1、Low-Level特征、High-Level特征
2、High Resolution表示、Low Resolution表示
3、Semantic 估计理解为对前景的定位
4、Attention机制
5、一致性约束（loss）
6、L2 loss和L1 Loss区别
8、评价指标
9、帧延迟策略（One-Frame-Delay， OFD）

1、Low-Level特征、High-Level特征

Low-Level特征（通常是cnn前几层学习到的特征）指图像中小的细节信息，用于描述表面的特征，比如纹理、边缘、角、颜色、像素、梯度等。这些特征可通过滤波器、SIFT、HOG获取。 High-Level特征（通常是cnn后几层学习到的特征）建立在Low-level特征之上的，具有更丰富的语义信息（结合low-level特征综合得出的语义信息），可以用于图像中的目标或物体形状的识别的检测。

2、High Resolution表示、Low Resolution表示

Encoder：LR分支、LR输出、存在细节丢失
Decoder：

3、Semantic 估计理解为对前景的定位

4、Attention机制

通道Attention SE原理+实现
Squeeze Excitation Attention（通道SE Attention） Step1: Global Average Pooling Squeeze操作，每个通道feature map的数值分布情况（全局信息）
```
![](https://cdn.nlark.com/yuque/__latex/5b92581b25bbc4c4b048ed7c0231bff9.svg#card=math&code=%5Cbbox%5Byellow%2C%205px%5D%0A%7Bz_c%3DF_%7Bsq%7D%28X_c%29%3D%5Cfrac%7B1%7D%7BW%C3%97H%7D%5Csum_%7Bi%3D1%7D%5E%7BW%7D%5Csum_%7Bj%3D1%7D%5E%7BH%7DX_c%28i%2Cj%29%7D&height=60&width=266)      
```
Step2：Excitation 目的是得到每个通达feature map的权重（由线性层和非线性层通过end-to-end学习得到），全连接层（FC）目的是融合各个通道的feature map信息。降维：(FC/Linear + ReLu)，减少channel数量从而降低计算量升维：(FC/Linear + Sigmoid) Step3：通道乘法

线性层/非线性层

卷积、全连接是线性层，激活是非线性层。
由于线性层的特征表达能力有限，故引入非线性层以增强模型的表达能力。

激活函数原理、作用、函数
- sigmoid
- relu
- relu6
全连接层原理、作用、函数

全连接层（Fully Connected Layer, FC），在CNN中起到分类器作用。卷积层、池化层和激活层等操作是将原始数据映射到隐层特征空间，全链接层是将学习到的“分布式特征表示”映射到样本标记空间的作用。 全连接层可由1*1卷积操作实现。

5、一致性约束（loss）

解决domain shift问题，减小alpha matte上的artifacts以适应模型在为标注/真实数据上的效果
训练：冻结BN层（如何实现）

SOC: Sub-Objective Consistency 基于半监督/无监督中的平滑假设（smoothness assumption），迫使它们有一致性

6、L2 loss和L1 Loss区别

8、评价指标

9、帧延迟策略（One-Frame-Delay， OFD）

后处理技术，平滑输出结果，仅适用于移动平滑的帧。
独立的使用图像处理算法到每一视频帧，容易导致输出时域不一致。
Matting 在predicted matte sequence出现Flickers现象。当前帧flickering的像素在相邻帧之间可能是正确的，故使用前后帧解决当前帧部分像素存在flickering（边界处像素）问题。
flickering定义， MODNet - 图8
OFD定义

帧率(Frame Rate, fps)，以帧为单位的位图图像连续出现在显示器上的频率。

30fsp——基本流畅
60fps——通用标准

计算公式 MODNet - 图12

可视化gt_matte、gt_detail
SOC策略训练：BN层冻结（如何实现），finetune 卷积层通过Adam
[ ] L1和L2 Loss的区别

L1、L2损失、正则化】平滑
[ ] 预训练模型（mobilenetv2：supervisely huaman segmentation）
SOC策略gpu训练，损失NAN，为什么呢
OFD策略实现，代码未开源
add 数据增强策略，代码以实现需要整理
Gentrimap理解：腐蚀+膨胀，理解原理
学习率+优化器实现
查找原因，为什么训练的效果不对
Metric理解