• 1.VC维和Rademacher复杂度得到的结果与具体学习算法无关,对所有学习算法都适用.
  • 2.若希望获得与算法有关的分析结果,稳定性(stability)分析是这方面一个方向.

算法的”稳定性”考察的是算法在输入发生变化时,输出是否会随之发生较大的变化,学习算法的输入是训练集.
给定稳定性 - 图1是来自分布稳定性 - 图2的独立同分布示例,稳定性 - 图3.对假设空间稳定性 - 图4和学习算法稳定性 - 图5,令稳定性 - 图6表示基于训练集稳定性 - 图7从假设空间稳定性 - 图8中学得的假设,考虑稳定性 - 图9的以下变化:

  • 稳定性 - 图10表示移除稳定性 - 图11中第稳定性 - 图12个样例得到的集合

稳定性 - 图13

  • 稳定性 - 图14表示替换稳定性 - 图15中第稳定性 - 图16个样例得到的集合

稳定性 - 图17
其中,稳定性 - 图18服从分布稳定性 - 图19并独立于稳定性 - 图20.
损失函数稳定性 - 图21刻画了假设稳定性 - 图22的预测标记稳定性 - 图23与真实标记稳定性 - 图24之间的差别,简记为稳定性 - 图25,下面定义关于假设稳定性 - 图26的几种损失.

  • 1.泛化损失

稳定性 - 图27

  • 2.经验损失

稳定性 - 图28

  • 3.留一(leave-one-out)损失

稳定性 - 图29
下面定义算法的均匀稳定性(uniform stability):

定义12.10

对任何稳定性 - 图30,若学习算法稳定性 - 图31满足
稳定性 - 图32

解析:根据三角不等式,有稳定性 - 图33,将稳定性 - 图34带入即可得出第一个不等式,根据稳定性 - 图35表示移除稳定性 - 图36中第稳定性 - 图37个样本,稳定性 - 图38表示替换稳定性 - 图39中第稳定性 - 图40个样本,那么稳定性 - 图41的变动均为一个样本,根据式子12.57,稳定性 - 图42,因此稳定性 - 图43.

则称稳定性 - 图44关于损失函数稳定性 - 图45满足稳定性 - 图46-均匀稳定性.
显然,若算法稳定性 - 图47关于损失函数稳定性 - 图48满足稳定性 - 图49-均匀稳定性,则有:
稳定性 - 图50
也就是说,移除示例的稳定性包含替换示例的稳定性.
若损失函数稳定性 - 图51有界,即对所有稳定性 - 图52稳定性 - 图53稳定性 - 图54,则有

定理12.8

给定从分布稳定性 - 图55上独立同分布采样得到的大小为稳定性 - 图56的示例集稳定性 - 图57,若学习算法稳定性 - 图58满足关于损失函数稳定性 - 图59稳定性 - 图60-均匀稳定性,且损失函数稳定性 - 图61的上界为稳定性 - 图62,则对任意稳定性 - 图63,以至少稳定性 - 图64的概率有
稳定性 - 图65
稳定性 - 图66

证明:比较繁琐,同书上所示,参见Foundations of Machine Learning

定理12.8给出了基于稳定性分析推导出的学习算法稳定性 - 图67学得假设的泛化误差界.从式子(12.58)可看出,经验损失与泛化损失之间差别的收敛率为稳定性 - 图68;若稳定性 - 图69,则可保证收敛率为稳定性 - 图70.与定理12.3和定理12.6比较可知,这与基于VC维和Rademacher复杂度得到的收敛率一致.
需注意,学习算法的稳定性分析所关注的是稳定性 - 图71,而假设空间复杂度分析所关注的是稳定性 - 图72;也就是说,稳定性分析不必考虑假设空间中所有可能的假设,只需根据算法自身的特性(稳定性)来讨论输出假设稳定性 - 图73的泛化误差界,那么,稳定性与可学习性之间有什么关系呢?
首先,必须假设稳定性 - 图74,这样才能保证稳定的学习算法稳定性 - 图75具有一定的泛化能力,即使经验损失收敛于泛化损失,否则可学习性无从谈起,为便于计算,我们假定稳定性 - 图76,带入式(12.58)可得
稳定性 - 图77

证明:将稳定性 - 图78带入式子12.58即得证.

对损失函数稳定性 - 图79,若学习算法稳定性 - 图80所输出的假设满足经验损失最小化,则成算法稳定性 - 图81满足经验风险最小化(Empirical Risk Minimization)原则,简称算法是ERM的,关于学习算法的稳定性和可学习性,有如下定理:

定理12.9

若学习算法稳定性 - 图82是ERM且稳定的.则假设空间稳定性 - 图83可学习.

解析:若学习算法稳定性 - 图84是ERM且是稳定的,则假设空间稳定性 - 图85可学习. 首先明确几个概念,ERM表示算法稳定性 - 图86满足经验风险最小化(Empirical Risk Minimization),学习算法稳定表示,由于稳定性 - 图87满足经验误差最小化,则可令稳定性 - 图88表示假设空间中具有最小化泛化损失的假设,即 稳定性 - 图89 再令 稳定性 - 图90稳定性 - 图91带入到稳定性 - 图92可以解得稳定性 - 图93,由Hoeffding不等式12.6 稳定性 - 图94 其中稳定性 - 图95,带入可得 稳定性 - 图96 根据逆事件的概率可得 稳定性 - 图97 即文中稳定性 - 图98至少以稳定性 - 图99的概率成立. 由稳定性 - 图100可以求解出 稳定性 - 图101稳定性 - 图102稳定性 - 图103可以按照同公式12.31中介绍的相同的方法推导出 稳定性 - 图104 又因为稳定性 - 图105为关于稳定性 - 图106的多项式,因此根据定理12.2,定理12.5,得到结论稳定性 - 图107是(不可知)PAC可学习的.

证明,令稳定性 - 图108表示稳定性 - 图109中具有最小化泛化损失的假设,即
稳定性 - 图110
再令
稳定性 - 图111
由Hoeffding不等式(12.6)可知,当稳定性 - 图112时,
稳定性 - 图113
以至少稳定性 - 图114的概率成立,令式子(12.60)中
稳定性 - 图115
解得稳定性 - 图116使
稳定性 - 图117
以至少稳定性 - 图118的概率成立,从而可得
稳定性 - 图119
以至少稳定性 - 图120的概率成立,定理12.9得证.
对上面这个定理读者也许会纳闷,为什么学习算法的稳定性能导出假设空间的可学习型?学习算法和假设空间是两码事,事实上,要注意到稳定性与假设空间并非无关,由稳定性的定义可知两者通过损失函数稳定性 - 图121联系起来.