• 1.VC维的可学习性分析结果具有一定的普适性(对任何数据分布都成立)
  • 2.由于它的普适性,所以没有考虑数据自身,所以基于VC维得到的泛化误差通常比较松
  • 3.Rademacher复杂度在一定程度上考虑上了数据自身的分布

给定训练集Rademacher复杂度 - 图1,假设Rademacher复杂度 - 图2的经验误差为
Rademacher复杂度 - 图3

解析:这里解释了从第一步到第二部的推导,因为前提假设是2分类问题,Rademacher复杂度 - 图4,因此Rademacher复杂度 - 图5。这是因为假如Rademacher复杂度 - 图6Rademacher复杂度 - 图7,由Rademacher复杂度 - 图8;反之,假如Rademacher复杂度 - 图9Rademacher复杂度 - 图10,有Rademacher复杂度 - 图11

其中Rademacher复杂度 - 图12体现了预测值Rademacher复杂度 - 图13与样例真实标记Rademacher复杂度 - 图14之间的一致性,若对于所有Rademacher复杂度 - 图15都有Rademacher复杂度 - 图16,则Rademacher复杂度 - 图17取最大值1,也就是说,经验误差最小的假设是
Rademacher复杂度 - 图18

解析:由公式12.36可知,经验误差Rademacher复杂度 - 图19Rademacher复杂度 - 图20呈反比的关系,因此假设空间中能使经验误差最小的假设Rademacher复杂度 - 图21即是使Rademacher复杂度 - 图22最大的Rademacher复杂度 - 图23

现实任务中的样例有时会收到噪声的影响,这个时候在假设空间Rademacher复杂度 - 图24在训练集上表现最好的假设,不如选择Rademacher复杂度 - 图25中事先考虑了随机噪声影响的假设。
考虑随机变量Rademacher复杂度 - 图26,它以0.5的概率取值-1,0.5的概率取值+1,称为Rademacher随机变量。基于Rademacher复杂度 - 图27,可将式子(12.37)重写为
Rademacher复杂度 - 图28

解析:上确界Rademacher复杂度 - 图29这个概念已经解释过,见式子12.7的解析。由于Rademacher复杂度 - 图30是随机变量,因此这个式子可以理解为求解随机生成的标签(即Rademacher复杂度 - 图31)最契合的假设(当Rademacher复杂度 - 图32Rademacher复杂度 - 图33)完全一致时,它们的内积最大。

Rademacher复杂度 - 图34是无限假设空间,有可能取不到最大值,因此使用上确值代替最大值。考虑Rademacher复杂度 - 图35中的所有假设,对式子(12.38)取期望可得
Rademacher复杂度 - 图36

解析:这个式子可以用来衡量假设空间Rademacher复杂度 - 图37的表达能力,对变量Rademacher复杂度 - 图38求期望可以理解为当变量Rademacher复杂度 - 图39包含所有可能的结果时,假设空间Rademacher复杂度 - 图40中最契合的假设Rademacher复杂度 - 图41和变量的平均契合程度。因为前提假设是2分类的问题,因此Rademacher复杂度 - 图42一共有Rademacher复杂度 - 图43种,这些不同的Rademacher复杂度 - 图44构成了数据集Rademacher复杂度 - 图45的对分(12.4节),如果一个假设空间的表达能力越强,那么就越有可能对于每一种Rademacher复杂度 - 图46,假设空间中都存在一个Rademacher复杂度 - 图47使得Rademacher复杂度 - 图48Rademacher复杂度 - 图49非常接近甚至相同,对所有可能的Rademacher复杂度 - 图50取期望即可衡量假设空间的整体表达能力,这就是这个式子的含义。

其中Rademacher复杂度 - 图51。式子(12.39)的取值范围是Rademacher复杂度 - 图52,它体现了假设空间Rademacher复杂度 - 图53的表达能力,例如。当Rademacher复杂度 - 图54时,Rademacher复杂度 - 图55中仅有一个假设,这时可计算出式子(12.39)的值为0;当Rademacher复杂度 - 图56Rademacher复杂度 - 图57能打散Rademacher复杂度 - 图58时,对任意Rademacher复杂度 - 图59总有一个假设使得Rademacher复杂度 - 图60,这时可计算出式子(12.39)的值为1.
考虑实值函数空间Rademacher复杂度 - 图61。令Rademacher复杂度 - 图62,其中Rademacher复杂度 - 图63,将式子(12.39)中的Rademacher复杂度 - 图64Rademacher复杂度 - 图65替换为Rademacher复杂度 - 图66Rademacher复杂度 - 图67可得

定义12.8

函数空间Rademacher复杂度 - 图68关于Rademacher复杂度 - 图69的经验Rademacher复杂度
Rademacher复杂度 - 图70

解析:对比式子(12.39),这里使用函数空间Rademacher复杂度 - 图71代替了假设空间Rademacher复杂度 - 图72,函数Rademacher复杂度 - 图73代替了假设Rademacher复杂度 - 图74,很容易理解,因为假设Rademacher复杂度 - 图75即可看作是作用在Rademacher复杂度 - 图76上的一个映射,通过这个映射可以得到标签Rademacher复杂度 - 图77.注意前提假设实值函数空间Rademacher复杂度 - 图78,即映射Rademacher复杂度 - 图79将样本Rademacher复杂度 - 图80隐射到了实数空间,这个时候所有的Rademacher复杂度 - 图81将是一个标量即Rademacher复杂度 - 图82.

经验Rademacher复杂度衡量了函数空间Rademacher复杂度 - 图83与随机噪声在集合Rademacher复杂度 - 图84中的相关性。通常我们希望了解函数空间Rademacher复杂度 - 图85Rademacher复杂度 - 图86上关于分布Rademacher复杂度 - 图87的相关性,因此,对所有从Rademacher复杂度 - 图88独立同分布采样而得的大小为Rademacher复杂度 - 图89的集合Rademacher复杂度 - 图90求期望可得。

定义12.9

函数空间Rademacher复杂度 - 图91关于Rademacher复杂度 - 图92上分布Rademacher复杂度 - 图93的Rademacher复杂度
Rademacher复杂度 - 图94
基于Rademacher复杂度可得关于函数空间Rademacher复杂度 - 图95的泛化误差界。

解析:这里所要求的是Rademacher复杂度 - 图96关于分布Rademacher复杂度 - 图97的Rademacher复杂度,因此从Rademacher复杂度 - 图98中采出不同的样本Rademacher复杂度 - 图99,计算这些样本对应的Rademacher复杂度的期望.

定理12.5

对实值函数空间Rademacher复杂度 - 图100,根据分布Rademacher复杂度 - 图101Rademacher复杂度 - 图102中独立同分布采样得到示例集Rademacher复杂度 - 图103,对任意Rademacher复杂度 - 图104,以至少Rademacher复杂度 - 图105的概率有

Rademacher复杂度 - 图106

解析:首先令记号 Rademacher复杂度 - 图107 Rademacher复杂度 - 图108Rademacher复杂度 - 图109表示函数Rademacher复杂度 - 图110作为假设下的经验误差,Rademacher复杂度 - 图111表示经验误差和泛化误差的上确界.再令Rademacher复杂度 - 图112为只与Rademacher复杂度 - 图113有一个示例(样本)不同的训练集,不妨设Rademacher复杂度 - 图114Rademacher复杂度 - 图115为不同的示例,那么有 Rademacher复杂度 - 图116 第一个不等式是因为上确界的差不大于差的上确界,第四行的等号由于Rademacher复杂度 - 图117Rademacher复杂度 - 图118只有Rademacher复杂度 - 图119不相同,最后一行的不等式是因为前提假设:Rademacher复杂度 - 图120,即Rademacher复杂度 - 图121.同理 Rademacher复杂度 - 图122 综上二式有: Rademacher复杂度 - 图123Rademacher复杂度 - 图124看作函数Rademacher复杂度 - 图125(注意这里的Rademacher复杂度 - 图126不是Rademacher复杂度 - 图127定义里的Rademacher复杂度 - 图128),那么可以套用McDiarmid不等式的结论式12.7 Rademacher复杂度 - 图129Rademacher复杂度 - 图130可以求得Rademacher复杂度 - 图131,所以 Rademacher复杂度 - 图132 由逆事件的概率定义得 Rademacher复杂度 - 图133 即书中式子12.44的结论,下面来估计Rademacher复杂度 - 图134的上界: Rademacher复杂度 - 图135 第二行等式是外面套了一个对服从分布Rademacher复杂度 - 图136的示例集Rademacher复杂度 - 图137求期望,因为Rademacher复杂度 - 图138,而采样出来的Rademacher复杂度 - 图139Rademacher复杂度 - 图140相互独立,因此有Rademacher复杂度 - 图141.第三行不等式基于上确界函数Rademacher复杂度 - 图142是个凸函数,将Rademacher复杂度 - 图143看作是凸函数Rademacher复杂度 - 图144,将Rademacher复杂度 - 图145看作变量Rademacher复杂度 - 图146,根据Jensen不等式(式子12.4),有 Rademacher复杂度 - 图147 其中Rademacher复杂度 - 图148Rademacher复杂度 - 图149的简写形式.第五行引入对Rademacher随机变量的期望,由于函数值空间是标量,因为Rademacher复杂度 - 图150也是标量,即Rademacher复杂度 - 图151,且Rademacher复杂度 - 图152总以相同概率可以取到这两个值,因此可以引入Rademacher复杂度 - 图153而不影响最终结果.第六行利用了上确界的和不小于和的上确界,因为第一项中只含有变量Rademacher复杂度 - 图154,所以可将Rademacher复杂度 - 图155去掉,因为第二项中只含有变量Rademacher复杂度 - 图156,所以可以将Rademacher复杂度 - 图157去掉.第七行利用Rademacher复杂度 - 图158是对称的,所以Rademacher复杂度 - 图159的分布和Rademacher复杂度 - 图160完全一致,所以可以将第二项中的负号去除,又因为Rademacher复杂度 - 图161Rademacher复杂度 - 图162均是从Rademacher复杂度 - 图163Rademacher复杂度 - 图164采样得到的数据,因此可以将第一项中的Rademacher复杂度 - 图165替换成Rademacher复杂度 - 图166,将Rademacher复杂度 - 图167替换成Rademacher复杂度 - 图168,最终根据定义式12.41可得Rademacher复杂度 - 图169,式子12.24得证.

Rademacher复杂度 - 图170
证明,令
Rademacher复杂度 - 图171
同时,令Rademacher复杂度 - 图172为只与Rademacher复杂度 - 图173有一个示例不同的训练集,不妨设Rademacher复杂度 - 图174Rademacher复杂度 - 图175为不同示例,可得
Rademacher复杂度 - 图176
同理可得
Rademacher复杂度 - 图177
根据McDiarmid不等式(12.7)可知,对任意Rademacher复杂度 - 图178
Rademacher复杂度 - 图179
以至少Rademacher复杂度 - 图180的概率成立,下面来估计Rademacher复杂度 - 图181的上界:
Rademacher复杂度 - 图182
至此,式子(12.42)得证,由定义12.9可知,改变Rademacher复杂度 - 图183中的一个示例对Rademacher复杂度 - 图184的值所造成的改变最多为Rademacher复杂度 - 图185,由McDiarmid不等式(12.7)可知
Rademacher复杂度 - 图186
以至少Rademacher复杂度 - 图187的概率成立,再由式子(12.44)可知,
Rademacher复杂度 - 图188
以至少Rademacher复杂度 - 图189的概率成立,于是
Rademacher复杂度 - 图190
以至少Rademacher复杂度 - 图191的概率成立,至此,式子(12.43)得证.
需注意的是,定理12.5中的函数空间Rademacher复杂度 - 图192是区间Rademacher复杂度 - 图193上的实值函数,因此定理12.5只适用于回归问题,对二分类问题,我们有下面的定理:

定理12.6

对假设空间Rademacher复杂度 - 图194,根据分布Rademacher复杂度 - 图195Rademacher复杂度 - 图196中独立同分布采样得到示例集Rademacher复杂度 - 图197,对任意Rademacher复杂度 - 图198,以至少Rademacher复杂度 - 图199的概率有
Rademacher复杂度 - 图200
Rademacher复杂度 - 图201
证明 对二分类问题的假设空间Rademacher复杂度 - 图202,令Rademacher复杂度 - 图203,则Rademacher复杂度 - 图204中的假设Rademacher复杂度 - 图205变形为
Rademacher复杂度 - 图206
于是就可将值域为Rademacher复杂度 - 图207的假设空间Rademacher复杂度 - 图208转化为值域为Rademacher复杂度 - 图209的函数空间Rademacher复杂度 - 图210.由定义12.8,有
Rademacher复杂度 - 图211
对式(12.50)求期望后可得
Rademacher复杂度 - 图212
由定理12.5和式子(12.50)~(12.51),定理12.6得证
定理12.6给出了基于Rademacher复杂度的泛化误差界.与定理12.3对比可知,基于VC维的泛化误差界是分布无关,数据独立的,而基于Rademacher复杂度的泛化误差界(12.47)与分布Rademacher复杂度 - 图213有关,式子(12.48)与数据Rademacher复杂度 - 图214有关,换言之,有点类似于为该学习问题”量身定制”的,因此它通常比基于VC维的泛化误差界更紧一些.
值得一提的是,关于Rademacher复杂度与增长函数,有如下定理:

定理12.7

假设空间Rademacher复杂度 - 图215的Rademacher复杂度Rademacher复杂度 - 图216与增长函数Rademacher复杂度 - 图217满足
Rademacher复杂度 - 图218

证明:比较繁琐,同书上所示,参见Foundations of Machine Learning

由式子(12.47),(12.52)和推论12.2可得
Rademacher复杂度 - 图219

解析:根据式12.28有Rademacher复杂度 - 图220,根据式子12.52有Rademacher复杂度 - 图221,因此Rademacher复杂度 - 图222,再根据式子12.47Rademacher复杂度 - 图223即证.

也就是说,我们从Rademacher复杂度和增长函数能推导出基于VC维的泛化误差界.