参考:https://www.zhihu.com/question/61607442/answer/440401209
batch size不是越大越好
batch size最好为32的倍数(和wrap 一致,cuda gpu的文档 搜wrap)
从128开始试,x2或者x0.5
batch size小,训练收敛时间就长
batch size大,泛化性能差,显存占用高
learning rate/batch size法则:增大batch size后,learning rate也要相应增大
参考:https://www.zhihu.com/question/61607442/answer/440401209
batch size不是越大越好
batch size最好为32的倍数(和wrap 一致,cuda gpu的文档 搜wrap)
从128开始试,x2或者x0.5
batch size小,训练收敛时间就长
batch size大,泛化性能差,显存占用高
learning rate/batch size法则:增大batch size后,learning rate也要相应增大
让时间为你证明