回归问题的损失函数有哪些?特点是?

平方损失函数

损失函数 - 图1

  • 特点

    • 光滑函数,能够用梯度下降法进行优化
    • 预测值距离真实值越远,平方损失的惩罚力度越大,因此,它对异常点比较敏感。为了解决该问题,可以采用绝对损失函数。

      绝对值损失函数

      损失函数 - 图2
  • 优点

    • 对异常点的鲁棒性更好
  • 缺点

    • 损失函数 - 图3处无法求导数。(Solution: 平衡MSE的可导性和MAE的鲁棒性,可以采用Huber损失函数
    • 更新的梯度始终相同,那么在接近最优值处可能仍维持着较大的梯度而错过最优值。(Solution: 使用变化的学习率,在接近最优值时降低学习率。

      Huber损失函数

      损失函数 - 图4
  • 特点

    • 在|y - f(x)|较小时为平方损失,在 |y - f(x)| 较大时为线性损失,并且处处可导。
    • 超参数δ的选择非常重要,因为这决定了你对与异常点的定义。当残差大于δ,应当采用L1(对较大的异常值不那么敏感)来最小化,而残差小于超参数,则用L2来最小化。由图可知,δ 越大,对异常点越敏感。

image.png

什么时候用MSE?MAE?

MSE:如果异常点代表在商业中很重要的异常情况,并且需要被检测出来,则应选用MSE损失函数。
MAE:相反,如果只把异常值当作受损数据,则应选用MAE损失函数。
总而言之,处理异常点时,MAE更稳定,但它的导数不连续,因此求解效率较低。
MSE对异常点更敏感,但通过令其导数为0,可以得到更稳定的封闭解。

MSE与MAE都不能很好解决的问题: 二者兼有的问题是:在某些情况下,上述两种损失函数都不能满足需求。例如,若数据中90%的样本对应的目标值为150,剩下10%在0到30之间。那么使用MAE作为损失函数的模型可能会忽视10%的异常点,而对所有样本的预测值都为150。 这是因为模型会按中位数来预测。而使用MSE的模型则会给出很多介于0到30的预测值,因为模型会向异常点偏移。上述两种结果在许多商业场景中都是不可取的。 这些情况下应该怎么办呢?最简单的办法是对目标变量进行变换。而另一种办法则是换一个损失函数,这就引出了下面要讲的第三种损失函数,即Huber损失函数。

为什么使用Huber?

  • 在离最优值较远时,Huber损失相当于MAE,对异常点有更好的鲁棒性;
  • 当离最优值较近时,Huber损失相当于MSE,随着损失的减小梯度也在逐渐减小,可以更好的逼近最优值,可以避免MAE中始终维持大梯度而错过最优值的问题。

    使用MAE训练神经网络最大的一个问题就是不变的大梯度,这可能导致在使用梯度下降快要结束时,错过了最小点。而对于MSE,梯度会随着损失的减小而减小,使结果更加精确。 在这种情况下,Huber损失就非常有用。它会由于梯度的减小而落在最小值附近。比起MSE,它对异常点更加鲁棒。因此,Huber损失结合了MSE和MAE的优点。但是,Huber损失的问题是我们可能需要不断调整超参数delta。

回归问题的损失函数

为什么分类问题用交叉熵不用MSE?

李宏毅老师的课程讲得非常好,从24分开始
为什么使用交叉熵作为损失函数
知乎:为什么分类问题使用交叉熵作为损失函数
image.png

在用交叉熵损失函数时,只希望惩罚 0.4~0.6 这样模糊的值,应该怎么改?

知乎霍华德的回答