ML = 模型 + 策略 + 算法


模型

选择什么样的模型?背景适合什么样的基本假设?这确定了模型的函数假设空间。

  • 按建模方式分类

    • 概率模型:Introduction - 图1,运用概率的加和、乘法规则;
    • 非概率模型:Introduction - 图2
  • 按统计方式分类

    • 参数化模型:模型由有限参数刻画。用样本估计模型参数,之后直接由模型进行预测;
    • 非参数化模型:模型参数不固定或无穷大。比如直接用样本的统计函数来预测,此时参数数量取决于样本数量;
  • 按参数估计方式分类

    • 贝叶斯估计
    • 点估计:最大似然、最大后验
    • 核方法

策略

按什么样的准则、标准来学习或选择出假设空间(模型可行函数空间)内“最优”的那个模型。

  • 误差函数
    • 模型预测值和真实值不一致时,所产生误差的计算函数Introduction - 图3。如平方和误差、交叉熵等等。
  • 风险函数
    • 期望风险:理想的风险函数,模型在总体上所产生的误差均值,如下式(1)所示。由于总体不可知,我们能获取到的只是样本,那么期望风险实际上是不可知的。

Introduction - 图4

  • 经验风险:不是指人为经验,而是指样本中包含的经验信息。可通过计算训练样本的平均损失得到,对于容量为N的样本集其表示如(2)所示

Introduction - 图5
根据大数定律Introduction - 图6,现实情况中由于样本数量总是受限的,一旦样本的分布与总体分布Introduction - 图7之间的偏离过大,经验风险也随之偏离期望风险。在样本量不足的情况下,根据经验风险选择的模型是在样本集上表现最好的(使得Introduction - 图8最小的),而不是在总体上最好的(使得Introduction - 图9最小),我们将这种情况称为过拟合——表现为模型泛化能力不足,在测试集等未见过的样本上表现很差。
以最小化经验风险作为策略的一个例子是最大似然估计(MLE)

  • 结构风险:为了缓解过拟合问题,在经验风险的基础上加入了正则项/惩罚项,生成了结构风险。通过约束/限制模型表达能力(即模型假设空间)的方式降低过拟合的可能性。其定义如下

Introduction - 图10
其中Introduction - 图11为模型假设空间的某种计算函数,其函数值正比于模型复杂度。Introduction - 图12用于权衡经验风险和模型复杂度。
以结构风险最小化为策略的一个例子是最大后验估计(MAP),在高斯先验分布Introduction - 图13的假设下,最大后验估计相当于加入了正则项Introduction - 图14的最大似然估计(不同先验分布对应不同的正则项)。可以理解为零均值的高斯先验使得参数以更大的概率在0值附近分布,约束了模型的假设空间,表现为模型参数的“衰减”,也就是说我们给予了简单(通常表现为参数稀疏)模型更大的先验概率。

  • 泛化误差 = 所得模型的期望风险
    • 样本容量增加,模型泛化误差的上界会减小;
    • 模型假设空间变大,泛化误差上界也随之增加;

算法

  • 解析求解
    • 最大似然估计
    • 最大后验估计
  • 最优化求解
    • 梯度下降类方法