一、模型
在监督学习中,模型就是所要学习的条件概率分布或决策函数。
假设空间用表示 决策函数
X和Y是定义在输入空间和输出空间上变量
称为参数空间(parameter space)
条件概率集合
二、策略
损失函数和风险函数
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
损失函数(loss function)或代价函数(cost function)
损失函数定义为给定输入的预测值和真实值之间的非负实值函数,记作
风险函数(risk function)或期望损失(expected loss)
这是理论上关于联合分布的平均意义下的损失,反映了预测效果的好坏。由于联合分布未知,不能直接计算
经验风险(empirical risk)或经验损失(empirical loss)
模型关于训练数据集的平均损失,根据大数定律,当样本容量趋于无穷时,经验风险趋于期望风险。
结构风险(structural risk)
为模型复杂
常用损失函数
0-1损失
平方损失
绝对损失
对数损失
经验风险最小化和结构风险最小化
经验风险最小化(ERM)
在假设空间、损失函数、训练数据集确定的情况下,经验风险函数式就可以确定,ERM认为经验风险最小的模型就是最优模型。即求解最优化问题:
当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。
结构风险最小化(SRM)
结构风险最小化是为了防止过拟合而提出的,等价于正则化。
贝叶斯估计中的最大后验概率估计是结构风险最小化的一个例子。
当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计
三、算法
求解最优模型的方法