ML = 模型 + 策略 + 算法
模型
选择什么样的模型?背景适合什么样的基本假设?这确定了模型的函数假设空间。
按建模方式分类
- 概率模型:,运用概率的加和、乘法规则;
- 非概率模型:;
按统计方式分类
- 参数化模型:模型由有限参数刻画。用样本估计模型参数,之后直接由模型进行预测;
- 非参数化模型:模型参数不固定或无穷大。比如直接用样本的统计函数来预测,此时参数数量取决于样本数量;
按参数估计方式分类
- 贝叶斯估计
- 点估计:最大似然、最大后验
- 核方法
策略
按什么样的准则、标准来学习或选择出假设空间(模型可行函数空间)内“最优”的那个模型。
- 误差函数
- 模型预测值和真实值不一致时,所产生误差的计算函数。如平方和误差、交叉熵等等。
- 风险函数
- 期望风险:理想的风险函数,模型在总体上所产生的误差均值,如下式(1)所示。由于总体不可知,我们能获取到的只是样本,那么期望风险实际上是不可知的。
- 经验风险:不是指人为经验,而是指样本中包含的经验信息。可通过计算训练样本的平均损失得到,对于容量为N的样本集其表示如(2)所示
根据大数定律,现实情况中由于样本数量总是受限的,一旦样本的分布与总体分布之间的偏离过大,经验风险也随之偏离期望风险。在样本量不足的情况下,根据经验风险选择的模型是在样本集上表现最好的(使得最小的),而不是在总体上最好的(使得最小),我们将这种情况称为过拟合——表现为模型泛化能力不足,在测试集等未见过的样本上表现很差。
以最小化经验风险作为策略的一个例子是最大似然估计(MLE)。
- 结构风险:为了缓解过拟合问题,在经验风险的基础上加入了正则项/惩罚项,生成了结构风险。通过约束/限制模型表达能力(即模型假设空间)的方式降低过拟合的可能性。其定义如下
其中为模型假设空间的某种计算函数,其函数值正比于模型复杂度。用于权衡经验风险和模型复杂度。
以结构风险最小化为策略的一个例子是最大后验估计(MAP),在高斯先验分布的假设下,最大后验估计相当于加入了正则项的最大似然估计(不同先验分布对应不同的正则项)。可以理解为零均值的高斯先验使得参数以更大的概率在0值附近分布,约束了模型的假设空间,表现为模型参数的“衰减”,也就是说我们给予了简单(通常表现为参数稀疏)模型更大的先验概率。
- 泛化误差 = 所得模型的期望风险
- 样本容量增加,模型泛化误差的上界会减小;
- 模型假设空间变大,泛化误差上界也随之增加;
算法
- 解析求解
- 最大似然估计
- 最大后验估计
- 最优化求解
- 梯度下降类方法