batch_size

深度模型是对样本进行拟合,理论上来说求解模型最优解需要将所有样本一起进行处理得到最终的 loss,并据此进行梯度的求解,但是当样本太多时,这种方式是不可行的,所以采用每次随机取一定量的样本计算损失的方式:随机梯度下降。取的样本越多,即 batch_size 越大,那么其噪声越小,所得的 loss 和梯度与真实的 loss 和梯度月接近。但是噪声越小,对模型训练来说并不一定是好事,低噪声训练的模型往往泛化能力较差。取的 batch_size 越小,那么样本噪声越大,往往训练得到的模型泛化能力更强。

  • 由此推知:小样本问题最好采用相对较小的batch_size !