image.png

偏差

导致偏差的主要原因

  • 对问题本身的假设不正确,如非线性数据使用线性回归
  • [x] 算法层面的原因:欠拟合

    方差

    导致方差的主要原因

  • [x] 数据的一点点扰动就会较大地影响模型,通常原因是使用的模型太复杂,如高阶多项式回归

  • 算法层面的原因:过拟合

偏差和方差

有一些算法天生是高方差的算法。如kNN。
非参数学习通常都是高方差算法。因为不对数据进行任何假设
有一些算法天生是高偏差算法。如线性回归。
参数学习通常都是高偏差算法。因为堆数据具有极强的假设

大多数算法具有相应的参数,可以调整偏差和方差。

  • 如kNN中的k。
  • 如线性回归中使用多项式回归。

偏差和方差通常是矛盾的。

  • 降低偏差,会提高方差。
  • 降低方差,会提高偏差。

机器学习的主要挑战是方差(过拟合)。

解决高方差

  • 降低模型复杂度
  • 减少数据维度;降噪
  • 增加样本数
  • 使用验证集
  • 模型正则化