VC维

第十二章(VC维) - 图2
先来看几个概念:增长函数(growth function)、对分(dichotomy)和打散(shattering)。给定假设空间第十二章(VC维) - 图3和示例集第十二章(VC维) - 图4第十二章(VC维) - 图5中每个假设第十二章(VC维) - 图6都能对第十二章(VC维) - 图7中示例赋予标记,标记结果可表示为:
第十二章(VC维) - 图8
随着第十二章(VC维) - 图9的增大,第十二章(VC维) - 图10中所有假设对第十二章(VC维) - 图11中的示例所能赋予标记的可能结果也会增大。

例如:对二分类,若第十二章(VC维) - 图12中只有2个示例,则分类结果第十二章(VC维) - 图13种,若有3个示例,则可能结果第十二章(VC维) - 图14种。

定义12.6

对所有第十二章(VC维) - 图15,假设空间第十二章(VC维) - 图16增长函数第十二章(VC维) - 图17
第十二章(VC维) - 图18
增长函数第十二章(VC维) - 图19表示假设空间第十二章(VC维) - 图20第十二章(VC维) - 图21个示例所能赋予标记的最大可能结果数。显然,第十二章(VC维) - 图22对示例所能标记的可能结果数越大,第十二章(VC维) - 图23的表示能力越强,对学习任务的适应能力越强。因此,增长函数描述了假设空间第十二章(VC维) - 图24的表示能力,由此反映出假设空间的复杂度,我们可利用增长函数来估计经验误差与泛化误差之间的关系:

解析:这个是增长函数的定义式。增长函数第十二章(VC维) - 图25表示假设空间第十二章(VC维) - 图26第十二章(VC维) - 图27个样本所能赋予标签的最大可能的结果数。比如两个样本的二分类问题,一共有4种可能的标签组合 第十二章(VC维) - 图28 如果假设空间第十二章(VC维) - 图29能赋予这两个样本标签组合 第十二章(VC维) - 图30第十二章(VC维) - 图31显然,第十二章(VC维) - 图32对样本所能赋予标签的可能结果越多,第十二章(VC维) - 图33的表达能力就越强。增长函数可以用来反应假设空间第十二章(VC维) - 图34的复杂度。 **

定理12.2

对假设空间第十二章(VC维) - 图35第十二章(VC维) - 图36
第十二章(VC维) - 图37

解析:详细证明参见原论文 On the uniform convergence of relative frequencies of events to their probabilities.[3]

假设空间第十二章(VC维) - 图38种不同的假设对于第十二章(VC维) - 图39种示例赋予标记的结果可能相同,也可能不同;尽管第十二章(VC维) - 图40可能包含无穷多个假设,但其对第十二章(VC维) - 图41中示例赋予标记的可能结果数是有限的:对第十二章(VC维) - 图42个示例,最多有第十二章(VC维) - 图43个可能结果。
对二分类问题来说,第十二章(VC维) - 图44中的假设对第十二章(VC维) - 图45中示例赋予标记的每种可能结果称为对第十二章(VC维) - 图46的一种”对分”(每个假设会把第十二章(VC维) - 图47中示例分为两类,因此称为对分)。若假设空间第十二章(VC维) - 图48能实现示例集第十二章(VC维) - 图49上的所有对分,即第十二章(VC维) - 图50,则称示例集第十二章(VC维) - 图51能被假设空间第十二章(VC维) - 图52“打散”。

定义12.7

假设空间第十二章(VC维) - 图53的VC维是能被第十二章(VC维) - 图54打散的最大示例集的大小,即
第十二章(VC维) - 图55

解析:这是第十二章(VC维) - 图56维的定义式:第十二章(VC维) - 图57维的定义是能被第十二章(VC维) - 图58打散的最大示例集的大小。西瓜书中例12.1和例12.2给出了形象的例子。注意:第十二章(VC维) - 图59维的定义式上的底数2表示这个问题是2分类的问题。如果是第十二章(VC维) - 图60分类的问题,那么定义式中底数需要变为第十二章(VC维) - 图61

第十二章(VC维) - 图62表明存在大小为第十二章(VC维) - 图63的示例集能被假设空间第十二章(VC维) - 图64打散,注意:这并不意味着所有大小为第十二章(VC维) - 图65的示例集都能被假设空间第十二章(VC维) - 图66打散。第十二章(VC维) - 图67的定义与数据分布第十二章(VC维) - 图68无关。因此,在数据分布未知时仍能计算发出假设空间第十二章(VC维) - 图69第十二章(VC维) - 图70
通常这样来计算第十二章(VC维) - 图71第十二章(VC维) - 图72若存在大小为第十二章(VC维) - 图73的示例集能被第十二章(VC维) - 图74打散,但不存在任何大小为第十二章(VC维) - 图75的示例集能被第十二章(VC维) - 图76打散,则第十二章(VC维) - 图77第十二章(VC维) - 图78维是第十二章(VC维) - 图79下面给出两个计算第十二章(VC维) - 图80维的例子:

例12.1 实数区域中的区间第十二章(VC维) - 图81

第十二章(VC维) - 图82表示实数域中所有闭区间构成的集合第十二章(VC维) - 图83。对第十二章(VC维) - 图84,若第十二章(VC维) - 图85,则第十二章(VC维) - 图86,否则第十二章(VC维) - 图87.
第十二章(VC维) - 图88,则假设空间第十二章(VC维) - 图89中存在假设第十二章(VC维) - 图90第十二章(VC维) - 图91打散,所以假设空间第十二章(VC维) - 图92第十二章(VC维) - 图93维至少为2;则对任意大小为3的示例集第十二章(VC维) - 图94,不妨设第十二章(VC维) - 图95,则第十二章(VC维) - 图96中不存在任何假设第十二章(VC维) - 图97能实现对分结果第十二章(VC维) - 图98。于是第十二章(VC维) - 图99第十二章(VC维) - 图100维为2.
image.png

例12.2 二维实平面上的线性划分:

第十二章(VC维) - 图102表示二维平面上所有线性划分构成的集合,第十二章(VC维) - 图103。由图12.1可知,存在大小为3的示例集可以被打散,但不存在大小为4的示例集可被第十二章(VC维) - 图104打散,于是,二维实平面上所有线性划分构成的假设空间第十二章(VC维) - 图105第十二章(VC维) - 图106维为3.
image.png
image.png
一维分两个数,二维分三个数,….(这个和支持向量机中的核函数类似)

引理12.2

若假设空间第十二章(VC维) - 图109第十二章(VC维) - 图110维为第十二章(VC维) - 图111,则对任意第十二章(VC维) - 图112,有
第十二章(VC维) - 图113

解析:首先解释下数学归纳法的起始条件”当第十二章(VC维) - 图114第十二章(VC维) - 图115时,定理成立”,当第十二章(VC维) - 图116时,由第十二章(VC维) - 图117维的定义(12.23)第十二章(VC维) - 图118可知第十二章(VC维) - 图119,否则第十二章(VC维) - 图120可以取到1,又因为第十二章(VC维) - 图121为整数,所以第十二章(VC维) - 图122,式12.24右边为第十二章(VC维) - 图123,因此不等式成立。当第十二章(VC维) - 图124时,因为一个样本最多只能有两个类别,所以第十二章(VC维) - 图125,不等式右边为第十二章(VC维) - 图126,因此不等式成立。 在介绍归纳过程,这里采用的归纳方法是假设12.24对第十二章(VC维) - 图127第十二章(VC维) - 图128成立,推导出其对第十二章(VC维) - 图129也成立。证明过程中引入观测集第十二章(VC维) - 图130和观测集第十二章(VC维) - 图131,其中第十二章(VC维) - 图132第十二章(VC维) - 图133多一个样本第十二章(VC维) - 图134,它们对应的假设空间可以表示为: 第十二章(VC维) - 图135 如果假设第十二章(VC维) - 图136第十二章(VC维) - 图137的分类结果为第十二章(VC维) - 图138第十二章(VC维) - 图139,那么任何出现在第十二章(VC维) - 图140中的串都会在第十二章(VC维) - 图141出现一次或者两次.这里举个例子就容易理解了,假设第十二章(VC维) - 图142: 第十二章(VC维) - 图143 其中串第十二章(VC维) - 图144第十二章(VC维) - 图145出现了两次第十二章(VC维) - 图146,第十二章(VC维) - 图147中的其他串第十二章(VC维) - 图148均只在第十二章(VC维) - 图149中出现了一次.这里的原因是每个样本是二分类的,所以多出的样本第十二章(VC维) - 图150要么取第十二章(VC维) - 图151,要么取第十二章(VC维) - 图152,要么都取到(至少两个假设第十二章(VC维) - 图153第十二章(VC维) - 图154做出了不一致的判断).记号第十二章(VC维) - 图155表示在第十二章(VC维) - 图156出现了两次的第十二章(VC维) - 图157组成的集合,比如在上例中第十二章(VC维) - 图158,有 第十二章(VC维) - 图159 由于第十二章(VC维) - 图160表示限制在样本集第十二章(VC维) - 图161上的假设空间第十二章(VC维) - 图162的表达能力(即所有假设对样本集第十二章(VC维) - 图163所能赋予的标记种类数),样本集第十二章(VC维) - 图164的数目为第十二章(VC维) - 图165,根据增长函数的定义,假设空间第十二章(VC维) - 图166对包含第十二章(VC维) - 图167个样本的集合所能赋予的最大标记种类数为第十二章(VC维) - 图168.因此第十二章(VC维) - 图169.又根据数学归纳法的前提假设,有 第十二章(VC维) - 图170 由记号第十二章(VC维) - 图171的定义可知,第十二章(VC维) - 图172,因此第十二章(VC维) - 图173,由于样本集第十二章(VC维) - 图174的数量为第十二章(VC维) - 图175,根据增长函数的概念,有第十二章(VC维) - 图176.假设第十二章(VC维) - 图177表示能被第十二章(VC维) - 图178打散的集合,因为根据第十二章(VC维) - 图179的定义,第十二章(VC维) - 图180必对元素第十二章(VC维) - 图181给出了不一致的判定,因此第十二章(VC维) - 图182必能被第十二章(VC维) - 图183打散,由前提假设第十二章(VC维) - 图184第十二章(VC维) - 图185的维为第十二章(VC维) - 图186,因此第十二章(VC维) - 图187第十二章(VC维) - 图188维最大为第十二章(VC维) - 图189,综上有 第十二章(VC维) - 图190 因此: 第十二章(VC维) - 图191 注:最后一步依据组合公式,推导如下: 第十二章(VC维) - 图192

证明:由数学归纳法证明,当第十二章(VC维) - 图193第十二章(VC维) - 图194时,定理成立。假设定理对第十二章(VC维) - 图195第十二章(VC维) - 图196成立。令第十二章(VC维) - 图197
第十二章(VC维) - 图198
任何假设第十二章(VC维) - 图199第十二章(VC维) - 图200的分类结果为第十二章(VC维) - 图201或者第十二章(VC维) - 图202,因此任何出现在第十二章(VC维) - 图203的串都会在第十二章(VC维) - 图204中出现一次或两次。令第十二章(VC维) - 图205表示在第十二章(VC维) - 图206出现两次的第十二章(VC维) - 图207中串组成的集合,即
第十二章(VC维) - 图208
考虑到第十二章(VC维) - 图209中的串在第十二章(VC维) - 图210出现了两次,但在第十二章(VC维) - 图211仅出现了一次,有
第十二章(VC维) - 图212
第十二章(VC维) - 图213的大小为第十二章(VC维) - 图214,由假设可得
第十二章(VC维) - 图215

第十二章(VC维) - 图216表示能被第十二章(VC维) - 图217打散的集合,由第十二章(VC维) - 图218定义可知第十二章(VC维) - 图219必能被第十二章(VC维) - 图220打散,由于第十二章(VC维) - 图221第十二章(VC维) - 图222维为第十二章(VC维) - 图223,因此第十二章(VC维) - 图224第十二章(VC维) - 图225维最大为第十二章(VC维) - 图226,于是有:
第十二章(VC维) - 图227
由式子(12.25-12.27)可得:
第十二章(VC维) - 图228
由集合第十二章(VC维) - 图229的任意性,引理12.2得证。
从引理12.2可计算出增长函数的上界:

推论12.2

若假设空间第十二章(VC维) - 图230第十二章(VC维) - 图231维为第十二章(VC维) - 图232,则对任意整数第十二章(VC维) - 图233
第十二章(VC维) - 图234
证明:
第十二章(VC维) - 图235

第一步到第二部和第三步到第四步均因为第十二章(VC维) - 图236,第四步到第五步是由于二项式定理: 第十二章(VC维) - 图237 其中,令第十二章(VC维) - 图238第十二章(VC维) - 图239,最后一步得不等式即需证明第十二章(VC维) - 图240,因为第十二章(VC维) - 图241,根据自然对数第十二章(VC维) - 图242得定义,第十二章(VC维) - 图243,注意原文中用的是第十二章(VC维) - 图244,但是由于第十二章(VC维) - 图245的定义是一个极限,所以应该是用第十二章(VC维) - 图246.

根据推论12.2和定理12.2可得基于第十二章(VC维) - 图247维的泛化误差界:

定理12.3

若假设空间第十二章(VC维) - 图248第十二章(VC维) - 图249维为第十二章(VC维) - 图250,则对任意第十二章(VC维) - 图251第十二章(VC维) - 图252
第十二章(VC维) - 图253

推导:这里应该是作者的笔误,根据式子12.22,第十二章(VC维) - 图254应当被绝对值符号包裹.将式子12.28代入式子12.22得 第十二章(VC维) - 图255第十二章(VC维) - 图256可解得 第十二章(VC维) - 图257 代入式子12.22,则定理得证这个式子使用第十二章(VC维) - 图258维表示泛化界,可以看出,泛化误差界只与样本数量第十二章(VC维) - 图259有关,收敛速率为第十二章(VC维) - 图260(书上简化为第十二章(VC维) - 图261).

证明:令第十二章(VC维) - 图262,解得
第十二章(VC维) - 图263
代入定理12.2,于是定理12.3得证。
由定理12.3可知,式子(12.29)的泛化误差只与样例数目第十二章(VC维) - 图264有关,收敛速度为第十二章(VC维) - 图265,与数据分布第十二章(VC维) - 图266和样例集第十二章(VC维) - 图267无关。因此,基于第十二章(VC维) - 图268维的泛化误差是分布无关(distribution-free)、数据独立(data-independence)的。
第十二章(VC维) - 图269表示学习算法第十二章(VC维) - 图270输出的假设,若第十二章(VC维) - 图271满足
第十二章(VC维) - 图272

解析:这个是经验风险最小化得定义式,即从假设空间中找出能使经验风险最小得假设.

则称第十二章(VC维) - 图273为满足经验风险最小化(Empirical Risk Minimization,简称ERM)原则的算法,我们有以下的定理:

定理12.4

任何第十二章(VC维) - 图274维有限的假设空间第十二章(VC维) - 图275都是(不可知)PAC可学习的。
证明:假设第十二章(VC维) - 图276为满足经验风险最小化原则的算法,第十二章(VC维) - 图277为学习算法第十二章(VC维) - 图278输出的假设。令第十二章(VC维) - 图279表示第十二章(VC维) - 图280中具有最小泛化误差的假设,即
第十二章(VC维) - 图281

解析:首先回忆PAC可学习概念,见定义12.2,而可知/不可知PAC可学习之间的区别仅在于概念类第十二章(VC维) - 图282是否包含于假设空间第十二章(VC维) - 图283中.令 第十二章(VC维) - 图284 结合这两个标记的转换,由推论12.1可知: 第十二章(VC维) - 图285 至少以第十二章(VC维) - 图286的概率成立.写成概率的形式即: 第十二章(VC维) - 图287第十二章(VC维) - 图288,因此第十二章(VC维) - 图289第十二章(VC维) - 图290.再令 第十二章(VC维) - 图291 由式子12.29可知 第十二章(VC维) - 图292 同理,第十二章(VC维) - 图293第十二章(VC维) - 图294成立.由第十二章(VC维) - 图295第十二章(VC维) - 图296均成立可知事件第十二章(VC维) - 图297和事件第十二章(VC维) - 图298同时成立的概率为: 第十二章(VC维) - 图299第十二章(VC维) - 图300 因此 第十二章(VC维) - 图301 再由第十二章(VC维) - 图302第十二章(VC维) - 图303的定义,第十二章(VC维) - 图304表示假设空间中经验误差最小的假设,第十二章(VC维) - 图305表示泛化误差最小的假设,将这两个假设共用作用于样本集第十二章(VC维) - 图306,则一定有第十二章(VC维) - 图307,因此上式可以简化为 第十二章(VC维) - 图308 根据式子12.32和式子12.34,可以求出第十二章(VC维) - 图309为关于第十二章(VC维) - 图310的多项式,因此根据定理12.2,定理12.5,得到结论任何第十二章(VC维) - 图311维有限的假设空间第十二章(VC维) - 图312都是(不可知)PAC可学习的.


第十二章(VC维) - 图313
第十二章(VC维) - 图314
由推论12.1可知
第十二章(VC维) - 图315
至少以第十二章(VC维) - 图316的概率成立,令
第十二章(VC维) - 图317
则由定理12.3可知
第十二章(VC维) - 图318
从而可知
第十二章(VC维) - 图319
以至少第十二章(VC维) - 图320的概率成立。由式子(12.32)和(12.34)可以解出第十二章(VC维) - 图321,再由第十二章(VC维) - 图322的任意性可知定理12.4得证。