第1章统计学习及监督学习概论 - 1.3 统计学习方法三要素 - 《统计学习方法》

一、模型

在监督学习中，模型就是所要学习的条件概率分布或决策函数。
假设空间用 1.3 统计学习方法三要素 - 图1 表示 决策函数

X和Y是定义在输入空间和输出空间上变量
1.3 统计学习方法三要素 - 图3 称为参数空间（parameter space）

条件概率集合
1.3 统计学习方法三要素 - 图4

损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。

损失函数定义为给定输入 1.3 统计学习方法三要素 - 图5 的预测值 1.3 统计学习方法三要素 - 图6 和真实值之间的非负实值函数，记作 1.3 统计学习方法三要素 - 图8

1.3 统计学习方法三要素 - 图9

这是理论上 1.3 统计学习方法三要素 - 图10 关于联合分布 1.3 统计学习方法三要素 - 图11 的平均意义下的损失，反映了预测效果的好坏。由于联合分布未知，不能直接计算

1.3 统计学习方法三要素 - 图12
模型关于训练数据集的平均损失，根据大数定律，当样本容量趋于无穷时，经验风险趋于期望风险。

1.3 统计学习方法三要素 - 图13
1.3 统计学习方法三要素 - 图14 为模型复杂

1.3 统计学习方法三要素 - 图15

1.3 统计学习方法三要素 - 图16

1.3 统计学习方法三要素 - 图17

1.3 统计学习方法三要素 - 图18

在假设空间、损失函数、训练数据集确定的情况下，经验风险函数式就可以确定，ERM认为经验风险最小的模型就是最优模型。即求解最优化问题：
1.3 统计学习方法三要素 - 图19
当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。

结构风险最小化是为了防止过拟合而提出的，等价于正则化。
贝叶斯估计中的最大后验概率估计是结构风险最小化的一个例子。
当模型是条件概率分布，损失函数是对数损失函数，模型复杂度由模型的先验概率表示时，结构风险最小化等价于最大后验概率估计

求解最优模型的方法