• 批量梯度下降BGD
      • 一次迭代训练所有样本
      • 内存(资源)耗用较大
    • 随机梯度下降SGD
      • 每次只训练一个样本去更新参数
      • 训练的不稳性大 ,可能要震荡很多次 ,才能 找到全局最优
      • 代码中的随机把数据打乱很重要,因为这个随机性相当于引入了“噪音”,正是因为这个噪音,使得SGD可能会避免陷入局部最优解中。
    • Mini-batch 梯度下降
      • 每次用一部分样本来更新参数,即 batch_size