B站秋招笔记集合->损失函数

    1. 为什么分类用交叉熵损失函数,不用均方误差?

    均方差对参数的偏导的结果都乘了sigmoid的导数 损失函数 - 图1 ,而之前看图发现sigmoid导数在其变量值很大或很小时趋近于0,所以偏导数很有可能接近于0。由参数更新公式:参数=参数-学习率×损失函数对参数的偏导
    可知,偏导很小时,参数更新速度会变得很慢,而当偏导接近于0时,参数几乎就不更新了。反观交叉熵对参数的偏导就没有sigmoid导数,所以不存在这个问题。