听课总结的PPT,非常重要第一章.pptx

§ 第一章 统计学习及监督学习概论 - 图1

一、统计学习的分类

1.1基本分类

统计学习或机器学习一般包括监督学习、无监督学习、强化学习。有时还包括半监督学习、主动学习。

1.1.1监督学习

§ 第一章 统计学习及监督学习概论 - 图2

一、输入控件、输出空间、特征空间

  • 输入空间:输入值所有可能取值的集合称为输入空间
  • 输出空间:输出值所有可能取值的集合称为输出空间
  • 特征空间:每个具体的输入是一个实例,通常用特征向量表示,所有特征向量存在的空间称为特征空间。例:输入实例§ 第一章 统计学习及监督学习概论 - 图3特征向量记作

§ 第一章 统计学习及监督学习概论 - 图4
§ 第一章 统计学习及监督学习概论 - 图5表示§ 第一章 统计学习及监督学习概论 - 图6的第§ 第一章 统计学习及监督学习概论 - 图7个特征,注意§ 第一章 统计学习及监督学习概论 - 图8§ 第一章 统计学习及监督学习概论 - 图9表示多个输入变量的第§ 第一章 统计学习及监督学习概论 - 图10个变量,即
§ 第一章 统计学习及监督学习概论 - 图11

二、联合概率分布

联合概率分布:监督学习假设输入与输出的随机变量§ 第一章 统计学习及监督学习概论 - 图12§ 第一章 统计学习及监督学习概论 - 图13遵循联合概率分布§ 第一章 统计学习及监督学习概论 - 图14§ 第一章 统计学习及监督学习概论 - 图15表示分布函数或者分布密度函数

三、假设空间

§ 第一章 统计学习及监督学习概论 - 图16假设空间就是学习范围的确定。

四、问题的形式化

监督学习有学习和预测两个过程,使用训练集学习得到模型,然后使用测试集进行预测。输入是带有标注的数据集
image.png

1.1.2无监督学习

使用无标注数据进行训练
image.png

1.1.3强化学习

强化学习:指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
image.png
智能系统根据环境给的§ 第一章 统计学习及监督学习概论 - 图20(状态)和§ 第一章 统计学习及监督学习概论 - 图21(奖励)采取动作§ 第一章 统计学习及监督学习概论 - 图22;
环境根据智能系统给的动作§ 第一章 统计学习及监督学习概论 - 图23决定下一个状态§ 第一章 统计学习及监督学习概论 - 图24和奖励§ 第一章 统计学习及监督学习概论 - 图25

1.2按模型分类

1.2.1概率(条件概率)与非概率(函数形式)模型

监督学习的概率模型的条件概率分布形式为§ 第一章 统计学习及监督学习概论 - 图26,非概率模型模型取函数形式§ 第一章 统计学习及监督学习概论 - 图27监督学习中的概率模型是生成式模型,非概率模型是判别模型。
非监督学习的概率模型的条件概率分布形式为§ 第一章 统计学习及监督学习概论 - 图28,非概率模型取函数形式为§ 第一章 统计学习及监督学习概论 - 图29
§ 第一章 统计学习及监督学习概论 - 图30
联合概率分布的基本概率公式规则:
§ 第一章 统计学习及监督学习概论 - 图31 § 第一章 统计学习及监督学习概论 - 图32

1.2.2线性模型和非线性模型

线性模型:§ 第一章 统计学习及监督学习概论 - 图33或者§ 第一章 统计学习及监督学习概论 - 图34这样的形式为线性模型,否则为非线性模型。 § 第一章 统计学习及监督学习概论 - 图35

1.2.3参数化模型和非参数化模型

1.3按算法分类

§ 第一章 统计学习及监督学习概论 - 图36

1.4按技巧分类

1.4.1贝叶斯学习

§ 第一章 统计学习及监督学习概论 - 图37
其中§ 第一章 统计学习及监督学习概论 - 图38为后验概率,§ 第一章 统计学习及监督学习概论 - 图39为先验概率,§ 第一章 统计学习及监督学习概论 - 图40是似然函数。
模型估计时,估计整个后验概率§ 第一章 统计学习及监督学习概论 - 图41,通常取后验概率最大的模型。
预测时,计算数据对后验概率分布的期望值:
§ 第一章 统计学习及监督学习概论 - 图42
这里§ 第一章 统计学习及监督学习概论 - 图43是新样本。
贝叶斯学习链接

1.4.2核方法

核方法:使用核函数表示和学习非线性模型的一种机器学习方法。 § 第一章 统计学习及监督学习概论 - 图44

二、统计学习三要素

§ 第一章 统计学习及监督学习概论 - 图45

2.1策略

2.1.2损失函数和风险函数

§ 第一章 统计学习及监督学习概论 - 图46
监督学习中在假设空间§ 第一章 统计学习及监督学习概论 - 图47中选取模型§ 第一章 统计学习及监督学习概论 - 图48作为决策函数,输出的预测值§ 第一章 统计学习及监督学习概论 - 图49与真实值§ 第一章 统计学习及监督学习概论 - 图50可能一致也可能不一致,使用损失函数或代价函数来度量预测错误的程度。损失函数值越小,模型就越好。 § 第一章 统计学习及监督学习概论 - 图51由于模型的输入、输出§ 第一章 统计学习及监督学习概论 - 图52是随机变量,遵循联合分布§ 第一章 统计学习及监督学习概论 - 图53,所以损失函数的期望是
§ 第一章 统计学习及监督学习概论 - 图54
这是理论上模型§ 第一章 统计学习及监督学习概论 - 图55关于联合分布§ 第一章 统计学习及监督学习概论 - 图56的平均意义下的损失,称为风险函数或期望损失。
例如:
给定一个训练数据集§ 第一章 统计学习及监督学习概论 - 图57,模型§ 第一章 统计学习及监督学习概论 - 图58关于训练数据集的平均损失称为经验风险或经验损失,记作§ 第一章 统计学习及监督学习概论 - 图59:
§ 第一章 统计学习及监督学习概论 - 图60
期望风险§ 第一章 统计学习及监督学习概论 - 图61是模型关于联合分布的期望损失,经验风险§ 第一章 统计学习及监督学习概论 - 图62是模型关于训练样本集的平均损失。根据大数定律,当样本容量§ 第一章 统计学习及监督学习概论 - 图63时,经验风险§ 第一章 统计学习及监督学习概论 - 图64趋近于期望风险§ 第一章 统计学习及监督学习概论 - 图65

2.1.2经验风险最小化和结构风险最小化

经验风险最小化策略认为:经验风险最小的模型是最优的模型
§ 第一章 统计学习及监督学习概论 - 图66
这个策略在数据量很大的时候比较准确(因为经验风险趋近于期望风险),但在数据量较少的时候,容易产生过拟合现象。
结构风险最小化:为了防止过拟合提出来的策略,结构风险最小化等价于正则化,结构风险 = 经验风险 + 表示模型复杂度的正则化项或惩罚项。
§ 第一章 统计学习及监督学习概论 - 图67
贝叶斯估计中的最大后验概率估计就是结构风险最小化的一个例子。

三、模型评估与模型选择

3.1训练误差与测试误差

监督学习中,训练数据集与真实数据集不同的训练误差:
§ 第一章 统计学习及监督学习概论 - 图68
测试数据集(预测§ 第一章 统计学习及监督学习概论 - 图69)与真实数据集不同的测试误差:
§ 第一章 统计学习及监督学习概论 - 图70

3.2过拟合与模型选择

过拟合:如果一味地追求提高对训练数据的预测能力,所选模型的复杂度往往会比真模型更高,这种现象称为过拟合。对已知的数据预测的很好,对未知数据预测的很差。
例子:多项式函数的拟合问题为例,说明过拟合与模型选择,这是一个回归问题。
假设给定一个训练数据集:§ 第一章 统计学习及监督学习概论 - 图71,根据给定的数据拟合M次多项式函数。假定图中所示的10个数据点,用0~9次多项式函数对数据进行拟合。
image.png
M次多项式的形式为:
§ 第一章 统计学习及监督学习概论 - 图73
解决步骤:

  1. 确定模型的复杂度
  2. 在给定的模型复杂度下,按照经验风险最小化的策略,求解参数,即多项式的系数。经验风险最小化求解:§ 第一章 统计学习及监督学习概论 - 图74
  3. 将训练数据带入其中§ 第一章 统计学习及监督学习概论 - 图75,这个问题可使用最小二乘法得到系数的唯一解。

    四、正则化与交叉验证

    正则化

    结构风险最小化策略是在结构风险上加一个正则化项,正则化项一般是模型复杂度的单调递增函数,模型越复杂,正杂化越大(比如,正则化项可以是模型参数向量的范数)。
    正则化的一般形式:
    § 第一章 统计学习及监督学习概论 - 图76
    例如:回归问题中,损失函数是平方损失,正则化项可以是参数向量的L范数。
    § 第一章 统计学习及监督学习概论 - 图77
    或者L范数
    § 第一章 统计学习及监督学习概论 - 图78
    由奥卡姆剃刀原理:简单并且数据利用最好的模型,适用范围越广。贝叶斯估计角度看,正则化项对应模型的先验概率。简单的模型具有较大的先验概率。

    交叉验证

    § 第一章 统计学习及监督学习概论 - 图79