NormFace - 《深度学习与人脸识别》

Normface进一步把两种 normalization 都做了，并对其中的原理做了更详尽的分析。

具体一点就是，如果不加约束，网络总是希望让简单的样本的 feature 模长和 weight 模长变大，让难的样本的 feature 和 weight 的模长变小。

例如一般图像质量差的图片norm比较小，做了Normalization之后再进行反向传播的时候，求出的梯度就更大。这样网络就会更关注低质量的人脸图片。

不过如果两种 normalization 都做了，而不加别的处理，网络会非常难 train。

这时就可以采取L2-softmax当中的尺度因子策略，因为归一化之后要更新的参数变得更为“光滑”，统一放大后其置信度会变得差异更加明显，利于loss收敛。

实验证明只需要在做归一化后，再乘上一个大于 1 的伸缩系数，绝大多数情况下都能获得不错的收敛性。

Weight normalization 本质上就做了一件事，在网络中引入一个先验，即告诉网络，无论类别本身的 sample 数量是多还是少，所有类别的地位都应该是平等的，因此它们的 weight 的 norm 也是相似的。

NormFace采用的归一化策略与loss如下图所示，其中归一化特征时加入了正则项防止其归零。

Screenshot from 2020-07-22 10-13-18.png