三、多变量线性回归(Linear Regression with Multiple Variables) - 梯度下降法-学习率 - 《机器学习》

梯度下降算法收敛所需要的迭代次数根据模型的不同而不同，我们不能提前预知，我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。
如下图所示：
u=2991561657,474245474&fm=26&gp=0.jpg
横轴为迭代次数、纵轴为损失函数值—loss，可以看见，通常在训练刚开始，单位迭代次数下，loss下降的最快，随着迭代次数增加、loss下降的越来越慢，直至近乎停止，趋于收敛。

有一些自动测试是否收敛的方法，例如将代价函数的变化值与某个阀值(例如 0.001) 进行比较，但通常看上面这样的图表更好。梯度下降算法的每次迭代受到学习率的影响，如果学习率𝑎过小，则达到收敛所需的迭代次数会非常高;如果学习率𝑎过大，每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛。

通常可以考虑尝试这些学习率: 𝛼 = 0.01，0.03，0.1，0.3，1，3，10