B站秋招笔记集合->损失函数 为什么分类用交叉熵损失函数,不用均方误差? 均方差对参数的偏导的结果都乘了sigmoid的导数 ,而之前看图发现sigmoid导数在其变量值很大或很小时趋近于0,所以偏导数很有可能接近于0。由参数更新公式:参数=参数-学习率×损失函数对参数的偏导可知,偏导很小时,参数更新速度会变得很慢,而当偏导接近于0时,参数几乎就不更新了。反观交叉熵对参数的偏导就没有sigmoid导数,所以不存在这个问题。