Normface进一步把两种 normalization 都做了,并对其中的原理做了更详尽的分析。

    具体一点就是,如果不加约束,网络总是希望让简单的样本的 feature 模长和 weight 模长变大,让难的样本的 feature 和 weight 的模长变小。

    例如一般图像质量差的图片norm比较小,做了Normalization之后再进行反向传播的时候,求出的梯度就更大。这样网络就会更关注低质量的人脸图片。

    不过如果两种 normalization 都做了,而不加别的处理,网络会非常难 train。

    这时就可以采取L2-softmax当中的尺度因子策略,因为归一化之后要更新的参数变得更为“光滑”,统一放大后其置信度会变得差异更加明显,利于loss收敛。

    实验证明只需要在做归一化后,再乘上一个大于 1 的伸缩系数,绝大多数情况下都能获得不错的收敛性。

    Weight normalization 本质上就做了一件事,在网络中引入一个先验,即告诉网络,无论类别本身的 sample 数量是多还是少,所有类别的地位都应该是平等的,因此它们的 weight 的 norm 也是相似的。

    NormFace采用的归一化策略与loss如下图所示,其中归一化特征时加入了正则项防止其归零。

    Screenshot from 2020-07-22 10-13-18.png