1.6 泛化能力

1.6.1 泛化误差

泛化能力是指模型对未知数据的预测能力。
现实中采用最多的办法是通过测试误差来评估泛化能力,但测试数据集是有限的,由此得到的评价是不可靠的。
现从理论上对泛化能力进行分析,首先给出泛化误差的定义。
如果学习到的模型是第1章 统计学习与监督学习概论 - 图1,那么该模型对未知数据的泛化误差为,即期望风险
第1章 统计学习与监督学习概论 - 图2

1.6.2 泛化误差上界

泛化误差上界通常用来比较两种学习方法的优劣,且具有以下性质:

  • 它是样本容量的函数,当样本容量增加时,泛化误差上界趋于0;
  • 它是假设空间容量的函数,当假设空间容量越大,泛化误差上界就越大,模型就越难学;

已知训练集第1章 统计学习与监督学习概论 - 图3第1章 统计学习与监督学习概论 - 图4是样本容量,第1章 统计学习与监督学习概论 - 图5是从联合概率分布第1章 统计学习与监督学习概论 - 图6独立同分布产生的,第1章 统计学习与监督学习概论 - 图7第1章 统计学习与监督学习概论 - 图8。假设空间是函数的有限集合第1章 统计学习与监督学习概论 - 图9第1章 统计学习与监督学习概论 - 图10是函数个数。设第1章 统计学习与监督学习概论 - 图11是从第1章 统计学习与监督学习概论 - 图12中选的选取的0-1损失函数。关于第1章 统计学习与监督学习概论 - 图13的期望风险和经验风险分别是:第1章 统计学习与监督学习概论 - 图14
下面讨论从有限集合第1章 统计学习与监督学习概论 - 图15中任意选出的函数第1章 统计学习与监督学习概论 - 图16的泛化误差上界。

定理(二分类泛化误差上界) 对二分类问题,当假设空间是有限个函数的集合第1章 统计学习与监督学习概论 - 图17时,对于任意一个函数第1章 统计学习与监督学习概论 - 图18,至少以概率第1章 统计学习与监督学习概论 - 图19,以下不等式成立:
第1章 统计学习与监督学习概论 - 图20
其中,
第1章 统计学习与监督学习概论 - 图21
对于一般的假设空间要到泛化误差上界不作介绍

证明
对任意函数第1章 统计学习与监督学习概论 - 图22第1章 统计学习与监督学习概论 - 图23第1章 统计学习与监督学习概论 - 图24个独立的随机变量第1章 统计学习与监督学习概论 - 图25的样本均值,第1章 统计学习与监督学习概论 - 图26第1章 统计学习与监督学习概论 - 图27个独立的随机变量第1章 统计学习与监督学习概论 - 图28的期望值
对所有第1章 统计学习与监督学习概论 - 图29,那么由 Hoffding’s Inequality 不难得知,对第1章 统计学习与监督学习概论 - 图30,以下不等式成立:
第1章 统计学习与监督学习概论 - 图31
由于第1章 统计学习与监督学习概论 - 图32是一个有限集合,故:
第1章 统计学习与监督学习概论 - 图33
上式表明假设空间至少存在一个函数满足条件的概率,等价于:
第1章 统计学习与监督学习概论 - 图34
令:第1章 统计学习与监督学习概论 - 图35,解得:第1章 统计学习与监督学习概论 - 图36,代入上式得到:
第1章 统计学习与监督学习概论 - 图37

回顾泛化误差上界的性质,第1章 统计学习与监督学习概论 - 图38

  • 它是样本容量的函数,当样本容量增加时,泛化误差上界趋于0;
  • 它是假设空间容量的函数,当假设空间容量越大,泛化误差上界就越大,模型就越难学;

补充:Markov’s Inequality

第1章 统计学习与监督学习概论 - 图39是非负随机变量,则对任意第1章 统计学习与监督学习概论 - 图40,有:
第1章 统计学习与监督学习概论 - 图41
证明
第1章 统计学习与监督学习概论 - 图42

补充:Hoffding’s Lemma

第1章 统计学习与监督学习概论 - 图43是一个随机变量,取值于第1章 统计学习与监督学习概论 - 图44区间,且第1章 统计学习与监督学习概论 - 图45%3D0#card=math&code=E%28X%29%3D0&id=LwzPV),那么对于任意第1章 统计学习与监督学习概论 - 图46,有:

第1章 统计学习与监督学习概论 - 图47%20%5Cle%20e%5E%5Cfrac%7B%5Clambda%20%5E%202%20(b-a)%5E2%7D%7B8%7D%0A#card=math&code=E%28e%5E%7B%5Clambda%20x%7D%29%20%5Cle%20e%5E%5Cfrac%7B%5Clambda%20%5E%202%20%28b-a%29%5E2%7D%7B8%7D%0A&id=Ss1RI)

证明

第1章 统计学习与监督学习概论 - 图48#card=math&code=f%28x%29&id=wIG4p)在第1章 统计学习与监督学习概论 - 图49上是凸函数,根据图函数的性质,则有如下不等式:

第1章 统计学习与监督学习概论 - 图50%20%5Cle%20f(a)%2B%5Cfrac%7Bf(b)-f(a)%7D%7Bb-a%7D(x-a)%EF%BC%8Cx%20%5Cin%20%5Ba%2Cb%5D%0A#card=math&code=f%28x%29%20%5Cle%20f%28a%29%2B%5Cfrac%7Bf%28b%29-f%28a%29%7D%7Bb-a%7D%28x-a%29%EF%BC%8Cx%20%5Cin%20%5Ba%2Cb%5D%0A&id=kPvlU)

显然第1章 统计学习与监督学习概论 - 图51%3De%5E%7B%5Clambda%20x%7D#card=math&code=f%28x%29%3De%5E%7B%5Clambda%20x%7D&id=wU2Ox)亦是凸函数,代入后:

第1章 统计学习与监督学习概论 - 图52

第1章 统计学习与监督学习概论 - 图53看作第1章 统计学习与监督学习概论 - 图54上的随机变量第1章 统计学习与监督学习概论 - 图55,对上述不等式同时取期望,我们有:

第1章 统计学习与监督学习概论 - 图56%20%5Cle%20%5Cfrac%20%7Bb-E(x)%7D%7Bb-a%7De%5E%7B%5Clambda%20a%7D%20%2B%20%5Cfrac%7BE(x)-a%7D%7Bb-a%7De%5E%7B%5Clambda%20b%7D%0A#card=math&code=E%28e%5E%7B%5Clambda%20x%7D%29%20%5Cle%20%5Cfrac%20%7Bb-E%28x%29%7D%7Bb-a%7De%5E%7B%5Clambda%20a%7D%20%2B%20%5Cfrac%7BE%28x%29-a%7D%7Bb-a%7De%5E%7B%5Clambda%20b%7D%0A&id=IrIYs)

由题设条件第1章 统计学习与监督学习概论 - 图57%3D0#card=math&code=E%28x%29%3D0&id=VK34H),化简后得到:

第1章 统计学习与监督学习概论 - 图58%20%5Cle%20%5Cfrac%20%7Bb%7D%7Bb-a%7De%5E%7B%5Clambda%20a%7D%20-%20%5Cfrac%7Ba%7D%7Bb-a%7De%5E%7B%5Clambda%20b%7D%20%20%3D%20e%5E%7B%5Clambda%20a%7D%5B1%2B%5Cfrac%7Ba%7D%7Bb-a%7D-%5Cfrac%7Ba%7D%7Bb-a%7De%5E%7B%5Clambda(b-a)%7D%5D%0A#card=math&code=E%28e%5E%7B%5Clambda%20x%7D%29%20%5Cle%20%5Cfrac%20%7Bb%7D%7Bb-a%7De%5E%7B%5Clambda%20a%7D%20-%20%5Cfrac%7Ba%7D%7Bb-a%7De%5E%7B%5Clambda%20b%7D%20%20%3D%20e%5E%7B%5Clambda%20a%7D%5B1%2B%5Cfrac%7Ba%7D%7Bb-a%7D-%5Cfrac%7Ba%7D%7Bb-a%7De%5E%7B%5Clambda%28b-a%29%7D%5D%0A&id=Esv1J)

进行变量代换,令第1章 统计学习与监督学习概论 - 图59第1章 统计学习与监督学习概论 - 图60%3E0#card=math&code=h%3D%5Clambda%28b-a%29%3E0&id=VWGaS),代入后得到:

第1章 统计学习与监督学习概论 - 图61%20%5Cle%20(1-p%2Bpe%5Eh)e%5E%7B-hp%7D%20%3D%20e%5E%7B-hp%2Bln(1-p%2Bpe%5Eh)%7D%3De%5E%7BL(h)%7D%0A#card=math&code=E%28e%5E%7B%5Clambda%20x%7D%29%20%5Cle%20%281-p%2Bpe%5Eh%29e%5E%7B-hp%7D%20%3D%20e%5E%7B-hp%2Bln%281-p%2Bpe%5Eh%29%7D%3De%5E%7BL%28h%29%7D%0A&id=uasbw)

若能证明第1章 统计学习与监督学习概论 - 图62%7D%20%5Cle%20e%5E%5Cfrac%7B%5Clambda%20%5E2%20(b-a)%5E2%7D%7B8%7D%20%3D%20e%5E%7B%5Cfrac%7Bh%5E2%7D%7B8%7D%7D#card=math&code=e%5E%7BL%28h%29%7D%20%5Cle%20e%5E%5Cfrac%7B%5Clambda%20%5E2%20%28b-a%29%5E2%7D%7B8%7D%20%3D%20e%5E%7B%5Cfrac%7Bh%5E2%7D%7B8%7D%7D&id=N6EuT),就可以证明Hoffding’s lemma,即证第1章 统计学习与监督学习概论 - 图63%20%5Cle%20%5Cfrac%7Bh%5E2%7D%7B8%7D#card=math&code=L%28h%29%20%5Cle%20%5Cfrac%7Bh%5E2%7D%7B8%7D&id=Hq2sK),构造:

第1章 统计学习与监督学习概论 - 图64%3DL(h)-%5Cfrac%7Bh%5E2%7D%7B8%7D%20%3D%20-hp%2Bln(1-p%2Bpe%5Eh)-%5Cfrac%7Bh%5E2%7D%7B8%7D%2C%20p%3E0%2C%20h%20%3E%200%0A#card=math&code=g%28h%29%3DL%28h%29-%5Cfrac%7Bh%5E2%7D%7B8%7D%20%3D%20-hp%2Bln%281-p%2Bpe%5Eh%29-%5Cfrac%7Bh%5E2%7D%7B8%7D%2C%20p%3E0%2C%20h%20%3E%200%0A&id=NMiMz)

显然有:

第1章 统计学习与监督学习概论 - 图65%3D0%5C%5Cg’(h)%3D-p%2B%20%5Cfrac%7Bpe%5Eh%7D%7B1-p%2Bpe%5Eh%7D-%5Cfrac%7Bh%7D%7B4%7D%5C%5Cg’’(h)%3D%5Cfrac%7Bpe%5Eh(1-p%2Bpe%5Eh)-pe%5E%7B2h%7D%7D%7B(1-p%2Bpe%5Eh)%5E2%7D-%5Cfrac%7B1%7D%7B4%7D%3D%5Cfrac%7B(1-p)pe%5Eh%7D%7B(1-p%2Bpe%5Eh)%5E2%7D-%5Cfrac%7B1%7D%7B4%7D%0A#card=math&code=g%280%29%3D0%5C%5Cg%27%28h%29%3D-p%2B%20%5Cfrac%7Bpe%5Eh%7D%7B1-p%2Bpe%5Eh%7D-%5Cfrac%7Bh%7D%7B4%7D%5C%5Cg%27%27%28h%29%3D%5Cfrac%7Bpe%5Eh%281-p%2Bpe%5Eh%29-pe%5E%7B2h%7D%7D%7B%281-p%2Bpe%5Eh%29%5E2%7D-%5Cfrac%7B1%7D%7B4%7D%3D%5Cfrac%7B%281-p%29pe%5Eh%7D%7B%281-p%2Bpe%5Eh%29%5E2%7D-%5Cfrac%7B1%7D%7B4%7D%0A&id=RHSJZ)

第1章 统计学习与监督学习概论 - 图66第1章 统计学习与监督学习概论 - 图67,根据基本不等式:

第1章 统计学习与监督学习概论 - 图68%3D%5Cfrac%7Bmn%7D%7B(m%2Bn)%5E2%7D-%5Cfrac%7B1%7D%7B4%7D%3D%5Cfrac%7B1%7D%7B%5Cfrac%7Bm%7D%7Bn%7D%2B%5Cfrac%7Bn%7D%7Bm%7D%2B2%7D%20%5Cle%200%0A#card=math&code=g%27%27%28h%29%3D%5Cfrac%7Bmn%7D%7B%28m%2Bn%29%5E2%7D-%5Cfrac%7B1%7D%7B4%7D%3D%5Cfrac%7B1%7D%7B%5Cfrac%7Bm%7D%7Bn%7D%2B%5Cfrac%7Bn%7D%7Bm%7D%2B2%7D%20%5Cle%200%0A&id=E1qU6)

所以,第1章 统计学习与监督学习概论 - 图69%20%5Cdownarrow#card=math&code=g%27%28h%29%20%5Cdownarrow&id=xyRNI),第1章 统计学习与监督学习概论 - 图70%3Cg’(0)%3D0#card=math&code=g%27%28h%29%3Cg%27%280%29%3D0&id=MxBKF),进而第1章 统计学习与监督学习概论 - 图71%20%5Cdownarrow#card=math&code=g%28h%29%20%5Cdownarrow&id=Iu4m8),第1章 统计学习与监督学习概论 - 图72%3Cg(0)%3D0#card=math&code=g%28h%29%3Cg%280%29%3D0&id=FdcXG)

最后 Hoffding’s lemma 成立

补充:Hoffding’s Inequality

第1章 统计学习与监督学习概论 - 图73是随机独立变量,且第1章 统计学习与监督学习概论 - 图74, 第1章 统计学习与监督学习概论 - 图75,对任意第1章 统计学习与监督学习概论 - 图76,以下不等式成立:
第1章 统计学习与监督学习概论 - 图77
第1章 统计学习与监督学习概论 - 图78
证明
第1章 统计学习与监督学习概论 - 图79,由Markov’s Inequality,可得:
第1章 统计学习与监督学习概论 - 图80
对上式中得期望部分进行化简:
第1章 统计学习与监督学习概论 - 图81
其中,第1章 统计学习与监督学习概论 - 图82第1章 统计学习与监督学习概论 - 图83
再对上式中的期望部分使用Hoffding’s Lemma,可得:
第1章 统计学习与监督学习概论 - 图84

将其不断回代,继续化简得:
第1章 统计学习与监督学习概论 - 图85
考虑关于第1章 统计学习与监督学习概论 - 图86的二次函数最小值,得到如下不等式:
第1章 统计学习与监督学习概论 - 图87
第1章 统计学习与监督学习概论 - 图88,代入上式,可得:
第1章 统计学习与监督学习概论 - 图89