潘达张的炼丹术


优化器篇:

现在SOTA的优化器是SGD with Momentum 也就是带动量的sgd,使用带学习率规划的sgd往往能够达到比较好的性能,sgd早期收敛比较慢,Adam在小批量数据上学习到的数据方差比较大。也就是样本比较少的情况下泛化比较差,