一、模型

在监督学习中,模型就是所要学习的条件概率分布或决策函数。
假设空间用1.3 统计学习方法三要素 - 图1表示 决策函数
1.3 统计学习方法三要素 - 图2
X和Y是定义在输入空间和输出空间上变量
1.3 统计学习方法三要素 - 图3称为参数空间(parameter space)

条件概率集合
1.3 统计学习方法三要素 - 图4

二、策略

损失函数和风险函数

损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

损失函数(loss function)或代价函数(cost function)

损失函数定义为给定输入1.3 统计学习方法三要素 - 图5预测值1.3 统计学习方法三要素 - 图6和真实值1.3 统计学习方法三要素 - 图7之间的非负实值函数,记作1.3 统计学习方法三要素 - 图8

风险函数(risk function)或期望损失(expected loss)

1.3 统计学习方法三要素 - 图9

这是理论上1.3 统计学习方法三要素 - 图10关于联合分布1.3 统计学习方法三要素 - 图11的平均意义下的损失,反映了预测效果的好坏。由于联合分布未知,不能直接计算

经验风险(empirical risk)或经验损失(empirical loss)

1.3 统计学习方法三要素 - 图12
模型关于训练数据集的平均损失,根据大数定律,当样本容量趋于无穷时,经验风险趋于期望风险。

结构风险(structural risk)

1.3 统计学习方法三要素 - 图13
1.3 统计学习方法三要素 - 图14为模型复杂

常用损失函数

0-1损失

1.3 统计学习方法三要素 - 图15

平方损失

1.3 统计学习方法三要素 - 图16

绝对损失

1.3 统计学习方法三要素 - 图17

对数损失

1.3 统计学习方法三要素 - 图18

经验风险最小化和结构风险最小化

经验风险最小化(ERM)

在假设空间、损失函数、训练数据集确定的情况下,经验风险函数式就可以确定,ERM认为经验风险最小的模型就是最优模型。即求解最优化问题:
1.3 统计学习方法三要素 - 图19
当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。

结构风险最小化(SRM)

结构风险最小化是为了防止过拟合而提出的,等价于正则化。
贝叶斯估计中的最大后验概率估计是结构风险最小化的一个例子。
当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计

三、算法

求解最优模型的方法