1、Low-Level特征、High-Level特征

Low-Level特征(通常是cnn前几层学习到的特征) 指图像中小的细节信息,用于描述表面的特征,比如纹理、边缘、角、颜色、像素、梯度等。这些特征可通过滤波器、SIFT、HOG获取。 High-Level特征(通常是cnn后几层学习到的特征) 建立在Low-level特征之上的,具有更丰富的语义信息(结合low-level特征综合得出的语义信息),可以用于图像中的目标或物体形状的识别的检测。

2、High Resolution表示、Low Resolution表示

Encoder:LR分支、LR输出、存在细节丢失
Decoder:

3、Semantic 估计理解为对前景的定位

4、Attention机制

  • 通道Attention SE原理+实现

    Squeeze Excitation Attention(通道SE Attention) Step1: Global Average Pooling Squeeze操作,每个通道feature map的数值分布情况(全局信息)

    1. ![](https://cdn.nlark.com/yuque/__latex/5b92581b25bbc4c4b048ed7c0231bff9.svg#card=math&code=%5Cbbox%5Byellow%2C%205px%5D%0A%7Bz_c%3DF_%7Bsq%7D%28X_c%29%3D%5Cfrac%7B1%7D%7BW%C3%97H%7D%5Csum_%7Bi%3D1%7D%5E%7BW%7D%5Csum_%7Bj%3D1%7D%5E%7BH%7DX_c%28i%2Cj%29%7D&height=60&width=266)

    Step2:Excitation 目的是得到每个通达feature map的权重(由线性层和非线性层通过end-to-end学习得到),全连接层(FC)目的是融合各个通道的feature map信息。 降维:(FC/Linear + ReLu),减少channel数量从而降低计算量 升维:(FC/Linear + Sigmoid) MODNet - 图1 Step3:通道乘法 MODNet - 图2

image.png
image.png

  • 线性层/非线性层

卷积、全连接是线性层,激活是非线性层。
由于线性层的特征表达能力有限,故引入非线性层以增强模型的表达能力。

  • 激活函数原理、作用、函数
    • sigmoid MODNet - 图5
    • relu MODNet - 图6
    • relu6 MODNet - 图7
  • 全连接层原理、作用、函数

    全连接层(Fully Connected Layer, FC),在CNN中起到分类器作用。卷积层、池化层和激活层等操作是将原始数据映射到隐层特征空间,全链接层是将学习到的“分布式特征表示”映射到样本标记空间的作用。 全连接层可由1*1卷积操作实现。

5、一致性约束(loss)

解决domain shift问题,减小alpha matte上的artifacts以适应模型在为标注/真实数据上的效果
训练:冻结BN层(如何实现)

SOC: Sub-Objective Consistency 基于半监督/无监督中的平滑假设(smoothness assumption),迫使它们有一致性

6、L2 loss和L1 Loss区别

8、评价指标

9、帧延迟策略(One-Frame-Delay, OFD)

后处理技术,平滑输出结果,仅适用于移动平滑的帧。
独立的使用图像处理算法到每一视频帧,容易导致输出时域不一致。
Mattingpredicted matte sequence出现Flickers现象。当前帧flickering的像素在相邻帧之间可能是正确的,故使用前后帧解决当前帧部分像素存在flickering(边界处像素)问题。
flickering定义, MODNet - 图8image.png
OFD定义image.png

image.png
帧率(Frame Rate, fps),以帧为单位的位图图像连续出现在显示器上的频率。

  • 30fsp——基本流畅
  • 60fps——通用标准

计算公式MODNet - 图12

  • 可视化gt_matte、gt_detail
  • SOC策略训练:BN层冻结(如何实现),finetune 卷积层通过Adam
  • [ ] L1和L2 Loss的区别

    L1、L2损失、正则化】平滑

  • [ ] 预训练模型(mobilenetv2:supervisely huaman segmentation)

  • SOC策略gpu训练,损失NAN,为什么呢
  • OFD策略实现,代码未开源
  • add 数据增强策略,代码以实现需要整理
  • Gentrimap理解:腐蚀+膨胀, 理解原理
  • 学习率+优化器实现
  • 查找原因,为什么训练的效果不对
  • Metric理解