批量梯度下降BGD 一次迭代训练所有样本内存(资源)耗用较大 随机梯度下降SGD 每次只训练一个样本去更新参数训练的不稳性大 ,可能要震荡很多次 ,才能 找到全局最优代码中的随机把数据打乱很重要,因为这个随机性相当于引入了“噪音”,正是因为这个噪音,使得SGD可能会避免陷入局部最优解中。 Mini-batch 梯度下降 每次用一部分样本来更新参数,即 batch_size