一些炼丹技巧

浏览 113 扫码分享 2023-11-22 00:53:01

优化器篇：

现在SOTA的优化器是SGD with Momentum 也就是带动量的sgd，使用带学习率规划的sgd往往能够达到比较好的性能，sgd早期收敛比较慢，Adam在小批量数据上学习到的数据方差比较大。也就是样本比较少的情况下泛化比较差，

若有收获，就点个赞吧

让时间为你证明