参考资料: 《统计学习方法》
1.1 统计学习方法的定义与分类
统计学习方法的六大步骤?
什么是模型,策略,算法?
统计学习方法的分类?
1.2 统计学习方法的基本分类
1.2.1 监督学习
1.2.2 无监督学习
1.2.3 强化学习
1.3 统计学习方法的三要素
后续未指明,统一当成监督学习
1.3.1 模型(监督)
*1.3.2 策略(监督)
样本容量N在现实中是有限的,所有无法完全用经验风险来估计风险函数,需要对其进行一定调整。以下既是2种策略。仅仅是经验风险最小化容易造成过拟合的现象,所以有了结构风险(基于模型的复杂度加了一个惩罚项,复杂度越高J越大)。
1.3.3 算法(监督)
1.3.4 无监督学习三要素
1.4 模型的评估与选择
训练误差:已知数据
测试误差:未知数据
什么是最小二乘法?
什么是过拟合?
训练误差小,测试误差大
如何来选择模型?
可以看趋势图。
应该选择测试误差和训练误差都最小的时候。
1.5 正则化与交叉验证
1.5.1 正则化
正则化:实现结构风险最小化策略
我们的目的是选择使经验风险和模型复杂度同时都很小的模型。(模型复杂度小指参数少)
L1范数:特征筛选
L2范数:防止过拟合
L1可以特征选择的原因是在梯度下降求解相交的时候可以使某w为0,而L2则是类似一个圆,在相交时w为0的可能小很多