问题

线性回归或是逻辑回归,都有可能会遇到过度拟合的问题,导致他们表现欠佳
采用正则化技术
可以改善或者减少过度拟合的问题

举例

image.png

欠拟合

image.pngimage.png
欠拟合,也称为高偏差,数据集没有很好的训练模型
(罔顾数据的偏差,执意拟合成一条直线)

过拟合

image.pngimage.png
过拟合,也称为高方差,虽然模型符合所有的数据点,但不能满足预测需求

定义

image.png
千方百计地训练模型使它适应当前数据集,导致它无法泛化到新的样本中,从而无法预测新样本的价格
“泛化”:一个假设的模型应用到新样本的能力

解决

可通过调试(debugging)和诊断(diagnosing)
使用专门工具识别和解决欠拟合和过拟合的现象

一维二维可通过可视化辨别
但是当特征值较多时,通过数据可视化将不现实

当特征值较多而数据集较少的时候就容易发生过拟合现象

image.png
有这样两种方法可以避免欠拟合和过拟合

  1. 减少特征值
    1. 人工选择重要的
    2. 通过算法自动选择特征值
  2. 正则化
    1. 后续详解