L2-Softmax - 《深度学习与人脸识别》

L2-Softmax与A-softmax不同，它并没有选择权重W归一化，而选择了对特征x 进行归一化，同时并乘尺度因子进行放大。

L2-softmax通过实验证明，进行特征归一化之后，每个类会变得更“窄”，例如在人脸数据上每个类的 feature 变得更加集中。

Screenshot from 2020-07-21 19-16-20.png
因此使用 feature normalization 之后，能让不同的类学出的 embedding在角度方向上更具有可区分性。

特征归一化后，特征向量都固定映射到半径为1的球面上，便于理解和优化，但这样也会压缩特征表达的空间；乘尺度因子s，相当于将特征放大到半径为S的超球面上。

Screenshot from 2020-07-21 19-18-33.png

归一化特征之后，使用L2距离和cos距离计算人脸特征相似度时，两者意义等价，计算量也相同。

Screenshot from 2020-07-21 19-17-18.png