训练技巧，理论 - Weight Decay (Regularization) - 《Deep Learning》

只对w做约束，而对其biases参数和BN层的gamma和beta参数不进行衰减，往往效果会更好。

正则化主要是为了防止过拟合，而过拟合一般表现为模型对于输入的微小改变产生了输出的较大差异，这主要是由于有些参数w过大的关系，通过对||w||进行惩罚，可以缓解这种问题。而如果对||b||进行惩罚，其实是没有作用的，因为在对输出结果的贡献中，参数b对于输入的改变是不敏感的，不管输入改变是大还是小，参数b的贡献就只是加个偏置而已