1.VC维和Rademacher复杂度得到的结果与具体学习算法无关,对所有学习算法都适用.
2.若希望获得与算法有关的分析结果,稳定性(stability)分析是这方面一个方向.

算法的”稳定性”考察的是算法在输入发生变化时,输出是否会随之发生较大的变化,学习算法的输入是训练集.
给定稳定性 - 图1 是来自分布稳定性 - 图2 的独立同分布示例, 稳定性 - 图3 .对假设空间稳定性 - 图4 和学习算法稳定性 - 图5 ,令稳定性 - 图6 表示基于训练集稳定性 - 图7 从假设空间稳定性 - 图8 中学得的假设,考虑稳定性 - 图9 的以下变化:

表示移除中第个样例得到的集合

稳定性 - 图13

表示替换中第个样例得到的集合

稳定性 - 图17
其中, 稳定性 - 图18 服从分布稳定性 - 图19 并独立于稳定性 - 图20 .
损失函数稳定性 - 图21 刻画了假设稳定性 - 图22 的预测标记稳定性 - 图23 与真实标记稳定性 - 图24 之间的差别,简记为稳定性 - 图25 ,下面定义关于假设稳定性 - 图26 的几种损失.

1.泛化损失

稳定性 - 图27

2.经验损失

稳定性 - 图28

3.留一(leave-one-out)损失

稳定性 - 图29
下面定义算法的均匀稳定性(uniform stability):

定义12.10

对任何稳定性 - 图30 ,若学习算法稳定性 - 图31 满足
稳定性 - 图32

解析:根据三角不等式,有,将带入即可得出第一个不等式,根据表示移除中第个样本,表示替换中第个样本,那么的变动均为一个样本,根据式子12.57,,因此.

则称稳定性 - 图44 关于损失函数稳定性 - 图45 满足稳定性 - 图46 -均匀稳定性.
显然,若算法稳定性 - 图47 关于损失函数稳定性 - 图48 满足稳定性 - 图49 -均匀稳定性,则有:
稳定性 - 图50
也就是说,移除示例的稳定性包含替换示例的稳定性.
若损失函数稳定性 - 图51 有界,即对所有稳定性 - 图52 和稳定性 - 图53 有稳定性 - 图54 ,则有

定理12.8

给定从分布稳定性 - 图55 上独立同分布采样得到的大小为稳定性 - 图56 的示例集稳定性 - 图57 ,若学习算法稳定性 - 图58 满足关于损失函数稳定性 - 图59 的稳定性 - 图60 -均匀稳定性,且损失函数稳定性 - 图61 的上界为稳定性 - 图62 ,则对任意稳定性 - 图63 ,以至少稳定性 - 图64 的概率有
稳定性 - 图65
稳定性 - 图66

证明:比较繁琐,同书上所示,参见Foundations of Machine Learning

定理12.8给出了基于稳定性分析推导出的学习算法稳定性 - 图67 学得假设的泛化误差界.从式子(12.58)可看出,经验损失与泛化损失之间差别的收敛率为稳定性 - 图68 ;若稳定性 - 图69 ,则可保证收敛率为稳定性 - 图70 .与定理12.3和定理12.6比较可知,这与基于VC维和Rademacher复杂度得到的收敛率一致.
需注意,学习算法的稳定性分析所关注的是稳定性 - 图71 ,而假设空间复杂度分析所关注的是稳定性 - 图72 ;也就是说,稳定性分析不必考虑假设空间中所有可能的假设,只需根据算法自身的特性(稳定性)来讨论输出假设稳定性 - 图73 的泛化误差界,那么,稳定性与可学习性之间有什么关系呢?
首先,必须假设稳定性 - 图74 ,这样才能保证稳定的学习算法稳定性 - 图75 具有一定的泛化能力,即使经验损失收敛于泛化损失,否则可学习性无从谈起,为便于计算,我们假定稳定性 - 图76 ,带入式(12.58)可得
稳定性 - 图77

证明:将带入式子12.58即得证.

对损失函数稳定性 - 图79 ,若学习算法稳定性 - 图80 所输出的假设满足经验损失最小化,则成算法稳定性 - 图81 满足经验风险最小化(Empirical Risk Minimization)原则,简称算法是ERM的,关于学习算法的稳定性和可学习性,有如下定理:

定理12.9

若学习算法稳定性 - 图82 是ERM且稳定的.则假设空间稳定性 - 图83 可学习.

解析:若学习算法是ERM且是稳定的,则假设空间可学习. 首先明确几个概念,ERM表示算法满足经验风险最小化(Empirical Risk Minimization),学习算法稳定表示,由于满足经验误差最小化,则可令表示假设空间中具有最小化泛化损失的假设,即再令将带入到可以解得,由Hoeffding不等式12.6 其中,带入可得根据逆事件的概率可得即文中至少以的概率成立. 由可以求解出即由可以按照同公式12.31中介绍的相同的方法推导出又因为为关于的多项式,因此根据定理12.2,定理12.5,得到结论是(不可知)PAC可学习的.

证明,令稳定性 - 图108 表示稳定性 - 图109 中具有最小化泛化损失的假设,即
稳定性 - 图110
再令
稳定性 - 图111
由Hoeffding不等式(12.6)可知,当稳定性 - 图112 时,
稳定性 - 图113
以至少稳定性 - 图114 的概率成立,令式子(12.60)中
稳定性 - 图115
解得稳定性 - 图116 使
稳定性 - 图117
以至少稳定性 - 图118 的概率成立,从而可得
稳定性 - 图119
以至少稳定性 - 图120 的概率成立,定理12.9得证.
对上面这个定理读者也许会纳闷,为什么学习算法的稳定性能导出假设空间的可学习型?学习算法和假设空间是两码事,事实上,要注意到稳定性与假设空间并非无关,由稳定性的定义可知两者通过损失函数稳定性 - 图121 联系起来.