image.png

    • 在批量梯度下降算法中,验证算法收敛的方法是绘制代价函数的大小随迭代过程的变化
    • 这个过程,每次都要遍历整个样本集计算代价函数,带来过大运算量
    • 随机梯度下降,在使用单个样本点更新模型参数之前,计算这一个样本下的代价函数
    • 每计算了1000个样本点。将这些点的代价函数求平均

    image.png
    image.png

    • 红线减小了学习率,下降速度更慢,但会比原来收敛到一个更好的数值

    image.png

    • 红线加大了检查收敛每次使用的样本点数,曲线更平滑,但接收检查反馈回存在更大延迟

    image.png

    • 如果波动大,没有下降趋势,可能是噪声过大,但是加大了检查收敛每次使用的样本点数后(红线),会观察到下降趋势
    • 如果即使加大了检查收敛每次使用的样本点数也没有下降趋势(粉线),就说明需要调整学习率,特征等参数

    image.png

    • 算法发散,需要使用更小的学习率

    image.png

    • 如果想要求得最终更为精确的局部最小值,而不是一个徘徊区域
    • 可以选用动态学习率,随着时间,学习率逐渐减小