基础知识

计算学习理论(computational learning theory)是机器学习的理论基础
给定样例集第十二章  基础知识,PAC学习,有限假设空间 - 图1,本章的二分类第十二章  基础知识,PAC学习,有限假设空间 - 图2。假设第十二章  基础知识,PAC学习,有限假设空间 - 图3中所有的样本服从一个隐含未知的分布第十二章  基础知识,PAC学习,有限假设空间 - 图4中所有样本都是独立地从这个分布上采样而得,即独立同分布(independent and identically distributed)样本。
第十二章  基础知识,PAC学习,有限假设空间 - 图5为从第十二章  基础知识,PAC学习,有限假设空间 - 图6第十二章  基础知识,PAC学习,有限假设空间 - 图7的一个映射,其泛化误差定义
第十二章  基础知识,PAC学习,有限假设空间 - 图8

解析:该式为泛化误差的定义式,所谓泛化误差,是指当样本第十二章  基础知识,PAC学习,有限假设空间 - 图9从真实的样本分布第十二章  基础知识,PAC学习,有限假设空间 - 图10中采样后其预测值第十二章  基础知识,PAC学习,有限假设空间 - 图11不等于真实值第十二章  基础知识,PAC学习,有限假设空间 - 图12的概率。在现实世界中,我们很难获得样本分布第十二章  基础知识,PAC学习,有限假设空间 - 图13,我们拿到的数据集可以看作是从样本分布第十二章  基础知识,PAC学习,有限假设空间 - 图14中独立同分布采样得到的。在西瓜书中,我们拿到的数据集,称为样例集第十二章  基础知识,PAC学习,有限假设空间 - 图15[也叫观测集、样本集],注意第十二章  基础知识,PAC学习,有限假设空间 - 图16第十二章  基础知识,PAC学习,有限假设空间 - 图17的区别。

第十二章  基础知识,PAC学习,有限假设空间 - 图18第十二章  基础知识,PAC学习,有限假设空间 - 图19上的经验误差定义
第十二章  基础知识,PAC学习,有限假设空间 - 图20

解析:该式为经验误差的定义式,所谓经验误差,是指观测集第十二章  基础知识,PAC学习,有限假设空间 - 图21中的样本第十二章  基础知识,PAC学习,有限假设空间 - 图22的预测值第十二章  基础知识,PAC学习,有限假设空间 - 图23和真实值第十二章  基础知识,PAC学习,有限假设空间 - 图24的期望误差。

由于第十二章  基础知识,PAC学习,有限假设空间 - 图25第十二章  基础知识,PAC学习,有限假设空间 - 图26的独立同分布采样,因此第十二章  基础知识,PAC学习,有限假设空间 - 图27的经验误差的期望等于其泛化误差。在上下文明确时,我们将第十二章  基础知识,PAC学习,有限假设空间 - 图28第十二章  基础知识,PAC学习,有限假设空间 - 图29分别简记为第十二章  基础知识,PAC学习,有限假设空间 - 图30第十二章  基础知识,PAC学习,有限假设空间 - 图31。令第十二章  基础知识,PAC学习,有限假设空间 - 图32第十二章  基础知识,PAC学习,有限假设空间 - 图33的上限,即第十二章  基础知识,PAC学习,有限假设空间 - 图34;我们通常用第十二章  基础知识,PAC学习,有限假设空间 - 图35表示预先设定的学得模型满足的误差要求,亦称”误差参数”。
本章后面部分将研究经验误差与泛化误差之间的逼近程度。若第十二章  基础知识,PAC学习,有限假设空间 - 图36在数据集第十二章  基础知识,PAC学习,有限假设空间 - 图37上的经验误差为0,则称第十二章  基础知识,PAC学习,有限假设空间 - 图38第十二章  基础知识,PAC学习,有限假设空间 - 图39一致,否则称其与第十二章  基础知识,PAC学习,有限假设空间 - 图40不一致。对任意两个映射第十二章  基础知识,PAC学习,有限假设空间 - 图41,可通过其”不合”(disagreement)来度量它们之间的差别:
第十二章  基础知识,PAC学习,有限假设空间 - 图42

解析:假设我们有两个模型第十二章  基础知识,PAC学习,有限假设空间 - 图43第十二章  基础知识,PAC学习,有限假设空间 - 图44,将它们同时作用于样本第十二章  基础知识,PAC学习,有限假设空间 - 图45上,那么它们的”不合”度定义为这两个模型预测值不相同的概率。

我们常用的几个不等式:

  • Jensen不等式:对任意凸函数第十二章  基础知识,PAC学习,有限假设空间 - 图46,有

第十二章  基础知识,PAC学习,有限假设空间 - 图47

解析:Jensen不等式:这个式子可以做很直观的理解,比如说在二维空间上,凸函数可以想象成开口向上的抛物线,加入我们有两个第十二章  基础知识,PAC学习,有限假设空间 - 图48,那么第十二章  基础知识,PAC学习,有限假设空间 - 图49表示的是两个点的均值的纵坐标,而第十二章  基础知识,PAC学习,有限假设空间 - 图50表示的是两个纵坐标的均值,因为两个点的均值落在抛物线的凹处,所以均值的纵坐标会小一些。(这里的凸函数是下凸函数,也就是凹函数) image.png

  • Hoeffding不等式:若第十二章  基础知识,PAC学习,有限假设空间 - 图52第十二章  基础知识,PAC学习,有限假设空间 - 图53个独立随机变量,且满足第十二章  基础知识,PAC学习,有限假设空间 - 图54,则对任意第十二章  基础知识,PAC学习,有限假设空间 - 图55,有

第十二章  基础知识,PAC学习,有限假设空间 - 图56

解析:Hoeffding不等式:对于独立随机变量第十二章  基础知识,PAC学习,有限假设空间 - 图57来说,他们观测值第十二章  基础知识,PAC学习,有限假设空间 - 图58的均值第十二章  基础知识,PAC学习,有限假设空间 - 图59总是和他们期望第十二章  基础知识,PAC学习,有限假设空间 - 图60的均值第十二章  基础知识,PAC学习,有限假设空间 - 图61相近,上式从概率的角度来说对这样一个结论进行了描述:即他们之间误差值不小于第十二章  基础知识,PAC学习,有限假设空间 - 图62这样的事件出现的概率不大于第十二章  基础知识,PAC学习,有限假设空间 - 图63,可以看出当观测到的变量越多,观测值的均值越逼近期望的均值。

  • McDiarmid不等式:若第十二章  基础知识,PAC学习,有限假设空间 - 图64第十二章  基础知识,PAC学习,有限假设空间 - 图65个独立随机变量,且对任意第十二章  基础知识,PAC学习,有限假设空间 - 图66,函数第十二章  基础知识,PAC学习,有限假设空间 - 图67满足

第十二章  基础知识,PAC学习,有限假设空间 - 图68
则对任意第十二章  基础知识,PAC学习,有限假设空间 - 图69,有
第十二章  基础知识,PAC学习,有限假设空间 - 图70

解析:McDiarmid不等式:首先解释下前提条件: 第十二章  基础知识,PAC学习,有限假设空间 - 图71 表示当函数第十二章  基础知识,PAC学习,有限假设空间 - 图72某个输入第十二章  基础知识,PAC学习,有限假设空间 - 图73变到第十二章  基础知识,PAC学习,有限假设空间 - 图74的时候,其变化的上确界第十二章  基础知识,PAC学习,有限假设空间 - 图75仍满足不大于第十二章  基础知识,PAC学习,有限假设空间 - 图76。所谓上确界第十二章  基础知识,PAC学习,有限假设空间 - 图77可以理解成变化的极限最大值,可能取到值,也可能无穷逼近。当满足这个条件是,McDiarmid不等式指出:函数值第十二章  基础知识,PAC学习,有限假设空间 - 图78和其期望值第十二章  基础知识,PAC学习,有限假设空间 - 图79也相近,从概率的角度描述是:他们之间差值不小于第十二章  基础知识,PAC学习,有限假设空间 - 图80这样的事件出现的概率不大于第十二章  基础知识,PAC学习,有限假设空间 - 图81,可以看出当每次变量改动带来函数值改动的上限很小,函数值和其期望越相近。

PAC学习

计算学习理论中最基本的是概率近似正确(Probably Approximately Correct,简称PAC)学习理论。
image.png
对同样大小的不同训练集,学得结果也可能有所不同。因此,我们希望以比较大的把握学得比较好的模型,也就是说,也较大的概率学得误差满足预设上限的模型,这就是”概率””近似正确”的含义。令第十二章  基础知识,PAC学习,有限假设空间 - 图83表示置信度,可定义

定义12.1 PAC辨识(PAC Identify)

第十二章  基础知识,PAC学习,有限假设空间 - 图84,所有第十二章  基础知识,PAC学习,有限假设空间 - 图85和分布第十二章  基础知识,PAC学习,有限假设空间 - 图86,若存在学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图87,其输出假设第十二章  基础知识,PAC学习,有限假设空间 - 图88满足:
第十二章  基础知识,PAC学习,有限假设空间 - 图89

解析:PAC的辨识:第十二章  基础知识,PAC学习,有限假设空间 - 图90表示算法第十二章  基础知识,PAC学习,有限假设空间 - 图91在用观测集第十二章  基础知识,PAC学习,有限假设空间 - 图92训练后输出的假设函数第十二章  基础知识,PAC学习,有限假设空间 - 图93,它的泛化误差为第十二章  基础知识,PAC学习,有限假设空间 - 图94。这个概率定义指出,如果第十二章  基础知识,PAC学习,有限假设空间 - 图95的泛化误差不大于第十二章  基础知识,PAC学习,有限假设空间 - 图96的概率不小于第十二章  基础知识,PAC学习,有限假设空间 - 图97,那么我们称学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图98能从假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图99中PAC辨识概念类第十二章  基础知识,PAC学习,有限假设空间 - 图100。 下面的式子(2-6)的公式是为了回答一个问题:到底需要多少样例才能学得目标改变c的有效近似。只要训练集第十二章  基础知识,PAC学习,有限假设空间 - 图101的规模能使学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图102以概率第十二章  基础知识,PAC学习,有限假设空间 - 图103找到目标假设的第十二章  基础知识,PAC学习,有限假设空间 - 图104假设即可。下面就是用数学公式进行抽象

则称算法第十二章  基础知识,PAC学习,有限假设空间 - 图105能从假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图106中PAC辨识概念类第十二章  基础知识,PAC学习,有限假设空间 - 图107
这样的学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图108能以较大的概率(至少第十二章  基础知识,PAC学习,有限假设空间 - 图109)学得目标概念第十二章  基础知识,PAC学习,有限假设空间 - 图110的近似(误差最多为第十二章  基础知识,PAC学习,有限假设空间 - 图111),在此基础上定义:

定义12.2 PAC可学习(PAC Learnable)

第十二章  基础知识,PAC学习,有限假设空间 - 图112表示从分布第十二章  基础知识,PAC学习,有限假设空间 - 图113中独立同分布采样得到的样例数目,第十二章  基础知识,PAC学习,有限假设空间 - 图114,对所有分布第十二章  基础知识,PAC学习,有限假设空间 - 图115,若存在学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图116和多项式函数第十二章  基础知识,PAC学习,有限假设空间 - 图117,使得对于任何第十二章  基础知识,PAC学习,有限假设空间 - 图118能从假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图119中PAC辨识概念类第十二章  基础知识,PAC学习,有限假设空间 - 图120,则称概念类第十二章  基础知识,PAC学习,有限假设空间 - 图121对假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图122而言是PAC可学习的,有时也简称概念类第十二章  基础知识,PAC学习,有限假设空间 - 图123是PAC可学习的。
对计算机算法来说,必然要考虑时间复杂度,于是:

定义12.3 PAC学习算法(PAC Learning Algorithm)

若学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图124使概念类第十二章  基础知识,PAC学习,有限假设空间 - 图125为PAC可学习的,且第十二章  基础知识,PAC学习,有限假设空间 - 图126的运行时间也是多项式函数第十二章  基础知识,PAC学习,有限假设空间 - 图127,则称概念类第十二章  基础知识,PAC学习,有限假设空间 - 图128是高效PAC可学习(efficiently PAC learnable)的,则称第十二章  基础知识,PAC学习,有限假设空间 - 图129为概念类第十二章  基础知识,PAC学习,有限假设空间 - 图130的PAC学习算法。
假定学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图131处理每个样本的时间为常数,则第十二章  基础知识,PAC学习,有限假设空间 - 图132的时间复杂度等价于样本复杂度。于是,我们对算法时间复杂度的关心就转化为样本复杂度的关心。

定义12.4 样本复杂度(Sample Complexity)

满足PAC学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图133所需的第十二章  基础知识,PAC学习,有限假设空间 - 图134中最小的第十二章  基础知识,PAC学习,有限假设空间 - 图135,称为学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图136的样本复杂度
显然,PAC学习给出了一个抽象地刻画机器学习能力的框架,基于这个框架对很多重要问题进行理性探讨,例如研究某任务在什么样的条件下可学得较好的模型?某算法在什么样的条件下可进行有效的学习?需多少训练样例才能获得较好的模型?
PAC学习中一个关键因素是假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图137的复杂度。第十二章  基础知识,PAC学习,有限假设空间 - 图138包含了学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图139所有可能输出的假设,若在PAC学习中假设空间与概念类完全相同,即第十二章  基础知识,PAC学习,有限假设空间 - 图140,这称为”恰PAC可学习”(properly );直观地看,这意味着学习算法的能力与学习任务”恰好匹配”。
然而,这种让所有候选假设都来自概念类的要求看似合理,但却不实际,因为在现实应用中我们对概念类第十二章  基础知识,PAC学习,有限假设空间 - 图141通常一无所知,更别说获得一个假设空间与概念类恰好相同的算法。显然,更重要的是研究假设空间与概念类不同的清醒,即第十二章  基础知识,PAC学习,有限假设空间 - 图142。一般而言,第十二章  基础知识,PAC学习,有限假设空间 - 图143越大,其包含任意目标概念的可能性越大,但从中找到某个具体目标概念的难度也越大,第十二章  基础知识,PAC学习,有限假设空间 - 图144有限时,我们称第十二章  基础知识,PAC学习,有限假设空间 - 图145为”有限假设空间”,否则称为”无限假设空间”.

有限假设空间

可分情形

可分情形意味着目标概念第十二章  基础知识,PAC学习,有限假设空间 - 图146属于假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图147,即第十二章  基础知识,PAC学习,有限假设空间 - 图148。给定包含第十二章  基础知识,PAC学习,有限假设空间 - 图149个样例的训练集第十二章  基础知识,PAC学习,有限假设空间 - 图150,如何找出满足误差参数的假设呢?
容易想到一种简单的学习策略:既然第十二章  基础知识,PAC学习,有限假设空间 - 图151中样例标记都是由目标概念第十二章  基础知识,PAC学习,有限假设空间 - 图152所赋予的,并且第十二章  基础知识,PAC学习,有限假设空间 - 图153存在于假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图154中,那么,任何在训练集第十二章  基础知识,PAC学习,有限假设空间 - 图155上出现标记错误的假设肯定不是目标概念第十二章  基础知识,PAC学习,有限假设空间 - 图156。于是,我们只需保留与第十二章  基础知识,PAC学习,有限假设空间 - 图157一致的假设,剔除与第十二章  基础知识,PAC学习,有限假设空间 - 图158不一致的假设。若训练集第十二章  基础知识,PAC学习,有限假设空间 - 图159足够大,则可不断借助第十二章  基础知识,PAC学习,有限假设空间 - 图160中的样例剔除不一致的假设,直到第十二章  基础知识,PAC学习,有限假设空间 - 图161中仅剩下一个假设为止,这个假设就是目标概念第十二章  基础知识,PAC学习,有限假设空间 - 图162。通常情况下,由于训练集规模有限,假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图163可能存在不止一个与第十二章  基础知识,PAC学习,有限假设空间 - 图164一致的”等效”假设,对这些等效假设,无法根据第十二章  基础知识,PAC学习,有限假设空间 - 图165来对它们的优劣做进一步区分。
到底需多少样例才能学得目标概念第十二章  基础知识,PAC学习,有限假设空间 - 图166的有效近似呢?对PAC学习来说,只要训练集第十二章  基础知识,PAC学习,有限假设空间 - 图167的规模能使学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图168以概率第十二章  基础知识,PAC学习,有限假设空间 - 图169找到目标假设的第十二章  基础知识,PAC学习,有限假设空间 - 图170近似即可
我们先估计泛化误差大于第十二章  基础知识,PAC学习,有限假设空间 - 图171但在训练集上仍表现完美的假设出现的概率,假定第十二章  基础知识,PAC学习,有限假设空间 - 图172的泛化误差大于第十二章  基础知识,PAC学习,有限假设空间 - 图173,对分布第十二章  基础知识,PAC学习,有限假设空间 - 图174上随机采样而得的任何样例第十二章  基础知识,PAC学习,有限假设空间 - 图175,有
第十二章  基础知识,PAC学习,有限假设空间 - 图176

解析:第十二章  基础知识,PAC学习,有限假设空间 - 图177因为它们是对立事件,第十二章  基础知识,PAC学习,有限假设空间 - 图178是泛化误差的定义,由于我们定义了泛化误差第十二章  基础知识,PAC学习,有限假设空间 - 图179,因此有第十二章  基础知识,PAC学习,有限假设空间 - 图180

由于第十二章  基础知识,PAC学习,有限假设空间 - 图181包含第十二章  基础知识,PAC学习,有限假设空间 - 图182个从第十二章  基础知识,PAC学习,有限假设空间 - 图183独立同分布采样而得的样例,因此,第十二章  基础知识,PAC学习,有限假设空间 - 图184第十二章  基础知识,PAC学习,有限假设空间 - 图185表现一致的概率为:
第十二章  基础知识,PAC学习,有限假设空间 - 图186

解析:先解释什么是第十二章  基础知识,PAC学习,有限假设空间 - 图187第十二章  基础知识,PAC学习,有限假设空间 - 图188“表现一致”,(PAC学习)开头阐述了这样的概念,如果第十二章  基础知识,PAC学习,有限假设空间 - 图189能将第十二章  基础知识,PAC学习,有限假设空间 - 图190中所有样本按真实标记一致的方式完全分开,我们称第十二章  基础知识,PAC学习,有限假设空间 - 图191第十二章  基础知识,PAC学习,有限假设空间 - 图192是一致的(可分的)。即第十二章  基础知识,PAC学习,有限假设空间 - 图193为True。因为每个事件是独立的,所以上式可以写成 第十二章  基础知识,PAC学习,有限假设空间 - 图194 根据对立事件的定义有: 第十二章  基础知识,PAC学习,有限假设空间 - 图195 又根据式子(2)有 第十二章  基础知识,PAC学习,有限假设空间 - 图196

我们事先并不知道学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图197会输出第十二章  基础知识,PAC学习,有限假设空间 - 图198中的哪个假设,但仅需保证泛化误差大于第十二章  基础知识,PAC学习,有限假设空间 - 图199,且在训练集上表现完美的所有假设出现概率之和不大于第十二章  基础知识,PAC学习,有限假设空间 - 图200即可:
第十二章  基础知识,PAC学习,有限假设空间 - 图201

解析:首先解释为什么”我们事先不知道学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图202会输出第十二章  基础知识,PAC学习,有限假设空间 - 图203中的哪个假设”,因为一些学习算法对用一个观察集第十二章  基础知识,PAC学习,有限假设空间 - 图204的输出结果是非常确定的,比如感知机就是个典型的例子,训练样本的顺序也会影响感知机学习到的假设第十二章  基础知识,PAC学习,有限假设空间 - 图205参数的值。泛化误差大于第十二章  基础知识,PAC学习,有限假设空间 - 图206且经验误差为0的假设(即在训练集上表现完美的假设)出现的概率可以表示为第十二章  基础知识,PAC学习,有限假设空间 - 图207,根据式子(3),每一个这样的假设第十二章  基础知识,PAC学习,有限假设空间 - 图208都满足 第十二章  基础知识,PAC学习,有限假设空间 - 图209 假设一共有第十二章  基础知识,PAC学习,有限假设空间 - 图210这么多个这样的假设第十二章  基础知识,PAC学习,有限假设空间 - 图211,因为每个假设第十二章  基础知识,PAC学习,有限假设空间 - 图212满足第十二章  基础知识,PAC学习,有限假设空间 - 图213第十二章  基础知识,PAC学习,有限假设空间 - 图214成立的事件是互斥的,因此总的概率第十二章  基础知识,PAC学习,有限假设空间 - 图215就是这些互斥事件之和即 第十二章  基础知识,PAC学习,有限假设空间 - 图216 小于号依据公式(3).第二个小于号时间上是要证明第十二章  基础知识,PAC学习,有限假设空间 - 图217,即证明第十二章  基础知识,PAC学习,有限假设空间 - 图218,其中第十二章  基础知识,PAC学习,有限假设空间 - 图219是正整数。 推导如下: 当第十二章  基础知识,PAC学习,有限假设空间 - 图220时,显然成立,当第十二章  基础知识,PAC学习,有限假设空间 - 图221时,因为左式和右式的值域均大于0,所以可以左右两边同时取对数,又因为对数函数是单调递增函数,所以即证明第十二章  基础知识,PAC学习,有限假设空间 - 图222,所以即证明第十二章  基础知识,PAC学习,有限假设空间 - 图223,这个式子很容易证明:令第十二章  基础知识,PAC学习,有限假设空间 - 图224,其中第十二章  基础知识,PAC学习,有限假设空间 - 图225取极大值,因此第十二章  基础知识,PAC学习,有限假设空间 - 图226,也即第十二章  基础知识,PAC学习,有限假设空间 - 图227成立。

令式子(4)不大于第十二章  基础知识,PAC学习,有限假设空间 - 图228,即
第十二章  基础知识,PAC学习,有限假设空间 - 图229

解析:回到我们要回答的问题:到底需要多少样例才能学得目标概念第十二章  基础知识,PAC学习,有限假设空间 - 图230的有效近似。只要训练集第十二章  基础知识,PAC学习,有限假设空间 - 图231的规模能使学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图232以概率第十二章  基础知识,PAC学习,有限假设空间 - 图233找到目标假设的第十二章  基础知识,PAC学习,有限假设空间 - 图234近似即可。 根据式子(4),学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图235生成的假设大于目标假设的第十二章  基础知识,PAC学习,有限假设空间 - 图236近似的概率为 第十二章  基础知识,PAC学习,有限假设空间 - 图237 因此学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图238生成的假设落在目标假设的第十二章  基础知识,PAC学习,有限假设空间 - 图239近似的概率为 第十二章  基础知识,PAC学习,有限假设空间 - 图240 这个概率我们甚至希望至少是第十二章  基础知识,PAC学习,有限假设空间 - 图241,因此第十二章  基础知识,PAC学习,有限假设空间 - 图242

可得
第十二章  基础知识,PAC学习,有限假设空间 - 图243

推导: 第十二章  基础知识,PAC学习,有限假设空间 - 图244 解析:这个式子告诉我们,在假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图245是PAC可学习的情况下,输出假设第十二章  基础知识,PAC学习,有限假设空间 - 图246的泛化误差第十二章  基础知识,PAC学习,有限假设空间 - 图247随样本数目第十二章  基础知识,PAC学习,有限假设空间 - 图248增大而收敛到0,收敛速度为第十二章  基础知识,PAC学习,有限假设空间 - 图249。这也是我们在机器学习中的一个共识,即可供模型训练的观测集样本数量越多,机器学习模型的泛化性能越好。

由此可知,有限假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图250都是PAC可学习的,所需的样例数目如式子(6)所示,输出假设第十二章  基础知识,PAC学习,有限假设空间 - 图251的泛化误差岁样例数目的增多而收敛到0,收敛速度为第十二章  基础知识,PAC学习,有限假设空间 - 图252

不可分情形

对较为困难的学习问题,目标概念第十二章  基础知识,PAC学习,有限假设空间 - 图253往往不存在于假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图254中,假定对任何第十二章  基础知识,PAC学习,有限假设空间 - 图255,也就是说,第十二章  基础知识,PAC学习,有限假设空间 - 图256中的任意一个假设都会在训练集上出现或多或少的错误。由Hoeffding不等式易知:

引理12.1

若训练集第十二章  基础知识,PAC学习,有限假设空间 - 图257包含第十二章  基础知识,PAC学习,有限假设空间 - 图258个从分布第十二章  基础知识,PAC学习,有限假设空间 - 图259上独立同分布采样而得的样例,第十二章  基础知识,PAC学习,有限假设空间 - 图260,若对任意第十二章  基础知识,PAC学习,有限假设空间 - 图261,有
第十二章  基础知识,PAC学习,有限假设空间 - 图262

推论12.1

若训练集第十二章  基础知识,PAC学习,有限假设空间 - 图263包含第十二章  基础知识,PAC学习,有限假设空间 - 图264个从分布第十二章  基础知识,PAC学习,有限假设空间 - 图265上独立同分布采样而得的样例,第十二章  基础知识,PAC学习,有限假设空间 - 图266,则对任意第十二章  基础知识,PAC学习,有限假设空间 - 图267,式子(10)以至少第十二章  基础知识,PAC学习,有限假设空间 - 图268的概率成立
第十二章  基础知识,PAC学习,有限假设空间 - 图269

推导:令第十二章  基础知识,PAC学习,有限假设空间 - 图270,则第十二章  基础知识,PAC学习,有限假设空间 - 图271,由式子(9) 第十二章  基础知识,PAC学习,有限假设空间 - 图272 带入第十二章  基础知识,PAC学习,有限假设空间 - 图273得证。这个式子进一步阐明了当观测集样本数量足够大的时候,第十二章  基础知识,PAC学习,有限假设空间 - 图274的经验误差是其泛化误差很好的近似。

推论12.1表明,样例数目较大时,第十二章  基础知识,PAC学习,有限假设空间 - 图275的经验误差是其泛化误差很近的近似,对于有限假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图276,我们有:

定理12.1

第十二章  基础知识,PAC学习,有限假设空间 - 图277为有限假设空间,第十二章  基础知识,PAC学习,有限假设空间 - 图278,则对任意第十二章  基础知识,PAC学习,有限假设空间 - 图279,有
第十二章  基础知识,PAC学习,有限假设空间 - 图280

推导:令第十二章  基础知识,PAC学习,有限假设空间 - 图281表示假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图282中的假设,有 第十二章  基础知识,PAC学习,有限假设空间 - 图283 这一步是很好理解的,存在一个假设第十二章  基础知识,PAC学习,有限假设空间 - 图284使得第十二章  基础知识,PAC学习,有限假设空间 - 图285概率可以表示为对假设空间内所有的假设第十二章  基础知识,PAC学习,有限假设空间 - 图286,使得第十二章  基础知识,PAC学习,有限假设空间 - 图287这个事件的”或”事件,因为第十二章  基础知识,PAC学习,有限假设空间 - 图288,而第十二章  基础知识,PAC学习,有限假设空间 - 图289,所以最后一行的不等式成立.由式子(9)可知 第十二章  基础知识,PAC学习,有限假设空间 - 图290 因此: 第十二章  基础知识,PAC学习,有限假设空间 - 图291 其对立事件: 第十二章  基础知识,PAC学习,有限假设空间 - 图292第十二章  基础知识,PAC学习,有限假设空间 - 图293,则第十二章  基础知识,PAC学习,有限假设空间 - 图294,代入上式中可得到: 第十二章  基础知识,PAC学习,有限假设空间 - 图295 其中第十二章  基础知识,PAC学习,有限假设空间 - 图296这个前置条件可以省略.

证明: 令第十二章  基础知识,PAC学习,有限假设空间 - 图297表示假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图298中的假设,有
第十二章  基础知识,PAC学习,有限假设空间 - 图299
由式子(9)可得
第十二章  基础知识,PAC学习,有限假设空间 - 图300
于是,令第十二章  基础知识,PAC学习,有限假设空间 - 图301即可得式子(11)
显然,当第十二章  基础知识,PAC学习,有限假设空间 - 图302时,学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图303无法学得目标概念第十二章  基础知识,PAC学习,有限假设空间 - 图304第十二章  基础知识,PAC学习,有限假设空间 - 图305近似,但是,当假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图306给定时,其中必存在一个泛化误差最小的假设,找出此假设得第十二章  基础知识,PAC学习,有限假设空间 - 图307近似也不失为一个较好得目标。第十二章  基础知识,PAC学习,有限假设空间 - 图308中泛化误差最小得假设是第十二章  基础知识,PAC学习,有限假设空间 - 图309,于是,以此为目标可将PAC学习推广到第十二章  基础知识,PAC学习,有限假设空间 - 图310得情况,这称为”不可知学习”(agnostic learning)。相应地我们有

定义12.5 不可知PAC学习

第十二章  基础知识,PAC学习,有限假设空间 - 图311表示从分布第十二章  基础知识,PAC学习,有限假设空间 - 图312中独立同分布采样得到得样例数目,第十二章  基础知识,PAC学习,有限假设空间 - 图313,对所有分布第十二章  基础知识,PAC学习,有限假设空间 - 图314,若存在学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图315和多项式函数第十二章  基础知识,PAC学习,有限假设空间 - 图316,使得对于任何第十二章  基础知识,PAC学习,有限假设空间 - 图317能从假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图318中输出满足式(12)得假设第十二章  基础知识,PAC学习,有限假设空间 - 图319
第十二章  基础知识,PAC学习,有限假设空间 - 图320

解析:这个式子是”不可知PAC可学习”的定义式,不可知是指当前目标概念第十二章  基础知识,PAC学习,有限假设空间 - 图321不在算法第十二章  基础知识,PAC学习,有限假设空间 - 图322所能生成的假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图323里。可学习是指如果第十二章  基础知识,PAC学习,有限假设空间 - 图324中泛化误差最小的假设为第十二章  基础知识,PAC学习,有限假设空间 - 图325,且这个假设的泛化误差满足其与目标概念的泛化误差的差值不大于第十二章  基础知识,PAC学习,有限假设空间 - 图326的概率不小于第十二章  基础知识,PAC学习,有限假设空间 - 图327。我们称这样的假设空间是不可知PAC可学习的。

则称假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图328是不可知PAC可学习的。
与PAC可学习类似,若学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图329的运行时间也是多项式函数第十二章  基础知识,PAC学习,有限假设空间 - 图330,则称假设空间第十二章  基础知识,PAC学习,有限假设空间 - 图331是高效不可知PAC可学习的,学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图332则称为空间第十二章  基础知识,PAC学习,有限假设空间 - 图333的不可知PAC学习算法,满足上述要求的最小第十二章  基础知识,PAC学习,有限假设空间 - 图334称为学习算法第十二章  基础知识,PAC学习,有限假设空间 - 图335的样本复杂度。