没有免费的午餐 (No Free Lunch Theorem, NFL)

没有免费午餐定理(No Free Lunch Theorem, NFL)是由 Wolpert 和 Macerday 在最优化理论中提出的。

白话定理

对于基于迭代的最优化算法不会存在某种算法对所有问题(有限的搜索空间内)都有效。如果一个算法对某些问题有效,那么它一定在另一些问题上比纯随机搜索算法更差。也就是说,不能脱离具体问题来讨论算法的优劣任何算法都有优劣性,必须要「具体问题具体分析」
平常所说的一个学习算法比另一个算法更「优越」,效果更好,只是针对特定的问题、特定的先验信息、数据的分布、训练样本的数目、代价或奖励函数等。
NFL 定理说明了无法保证一个机器学习算法在 机器学习理论 - 图1 以外的数据集上一定能分类或预测正确,除非加上一些假设条件。
image.png

数学描述

机器学习理论 - 图3

定理证明

假设样本空间 机器学习理论 - 图4 和假设空间 机器学习理论 - 图5 都是离散的,令 机器学习理论 - 图6 代表算法 机器学习理论 - 图7 基于训练数据 机器学习理论 - 图8 产生假设 机器学习理论 - 图9 的概率,再令 机器学习理论 - 图10 代表希望学习的真实目标函数。机器学习理论 - 图11 的「训练集外误差」,即 机器学习理论 - 图12 在训练集之外的所有样本上的误差为:

机器学习理论 - 图13

其中,机器学习理论 - 图14 是指示函数,若 机器学习理论 - 图15 为真则取值 1,否则取值 0。

考虑二分类问题,且真实目标函数可以是任何函数 机器学习理论 - 图16,函数空间为 机器学习理论 - 图17。对于所有可能的 机器学习理论 - 图18 按均匀分布对误差求和,有:

机器学习理论 - 图19

该式表明,无论学习算法 机器学习理论 - 图20 多聪明、学习算法 机器学习理论 - 图21 多笨拙,它们的期望性能尽然相同。

该证明的解释:
机器学习理论 - 图22:样本空间;
机器学习理论 - 图23:假设空间;
机器学习理论 - 图24:训练数据(即样本内数据);
机器学习理论 - 图25:未知数据(即样本外数据);
机器学习理论 - 图26:假设;
机器学习理论 - 图27:算法;
机器学习理论 - 图28 :希望学习的真实目标函数;
ote:off-training error,即训练集外误差;

机器学习理论 - 图29:算法 机器学习理论 - 图30 学得的假设在训练集外的所有样本上的误差的期望;

机器学习理论 - 图31:样本空间中的每个样本 机器学习理论 - 图32 取得的概率;

机器学习理论 - 图33:假设 机器学习理论 - 图34 对一个样本点 机器学习理论 - 图35 的预测误差,预测值 机器学习理论 - 图36 与真实值 机器学习理论 - 图37 一致则误差为 0,不一致则误差为 1;

机器学习理论 - 图38:对于样本空间中每一个训练集外的数据都进行右边的运算并加总求和;

机器学习理论 - 图39:假设函数 机器学习理论 - 图40 在训练集之外的所有样本上的误差

机器学习理论 - 图41:算法 机器学习理论 - 图42 基于训练数据 机器学习理论 - 图43 产生假设 机器学习理论 - 图44 的概率;

机器学习理论 - 图45:对于所有假设都进行右边的运算并加总求和;

机器学习理论 - 图46机器学习理论 - 图47 是算法 机器学习理论 - 图48 以概率 机器学习理论 - 图49 产生的,该式定义算法 机器学习理论 - 图50 的误差为所有可能的 机器学习理论 - 图51 的误差的期望;

机器学习理论 - 图52:整个函数空间的大小。二分类问题中假设真实目标函数 机器学习理论 - 图53 可以是任何输入空间 机器学习理论 - 图54 到输出空间 机器学习理论 - 图55 的映射。

机器学习理论 - 图56:假设在整个函数空间中所有可能的目标函数 机器学习理论 - 图57 是均匀分布的(即所有真实的问题是均匀出现的),在二分类问题中,对于一个样本点 机器学习理论 - 图58,假设函数 机器学习理论 - 图59 的预测值要么是 0 要么是 1,那么由于 机器学习理论 - 图60 是均匀分布的,所有将 机器学习理论 - 图61 映射为 0 的真实函数 机器学习理论 - 图62 的数量和所有将 机器学习理论 - 图63 映射为 1 的真实函数 机器学习理论 - 图64 的数量应该是一样的,那么,在函数空间中就有一半数量的可能的 机器学习理论 - 图65 与假设函数 机器学习理论 - 图66 的预测不一致。

丑小鸭 (Ugly Duckling Theorem)

丑小鸭定理(Ugly Duckling Theorem)是 1969 年由渡边慧提出的 [Watan-able, 1969]。

白话定理

丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大」。这个定理初看好像不符合常识,但是仔细思考后是非常有道理的。因为世界上不存在相似性的客观标准,一切相似性的标准都是主观的。如果以体型大小的角度来看,丑小鸭和白天鹅的区别大于两只白天鹅的区别;但是如果以基因的角度来看,丑小鸭与它父母的差别要小于他父母和其他白天鹅之间的差别。

定理证明

假设宇宙中有 机器学习理论 - 图67 个事物,并且想要将它们分类。对于什么样的事物属于什么类别没有任何先入为主的观念。因此必须考虑所有可能的分类方式,共有 机器学习理论 - 图68 种。
可以用它来度量两个对象之间的相似性:可以观察它们有多少共同的集合
但这是不可能的。因为,如果可以形成任何可能的分类,那么任何两个对象都有完全相同数量的分类,即 机器学习理论 - 图69 个类(总数的一半)。
因此,如果我们对于哪些类别更好没有先入为主的偏见,那么所有的东西都是相似的(或都是不相似的)。
该定理启示,做出判断需要某种提前的假设,即需要某种归纳偏置。

奥卡姆剃刀 (Occam’s Razor)

奥卡姆剃刀(Occam’s Razor)是由 14 世界逻辑学家 William of Occam 提出的一个解决问题的法则。

白话定理

「如无必要,勿增实体」。
奥卡姆剃刀的思想和机器学习上的正则化思想十分相似:简单的模型泛化能力更好如果有两个性能相近的模型,我们更倾向于选择简单的模型。因此在机器学习准则上,我们经常会引入参数正则化来限制模型的能力,避免过拟合。

数学描述

奥卡姆剃刀的一种形式化是最小描述长度(Minimum Description Length, MDL)原则,即对一个数据集 机器学习理论 - 图70最好的模型 机器学习理论 - 图71是会使得数据集的压缩效果最好,即编码长度最小
最小描述长度也可以通过贝叶斯学习的观点来解释,模型 机器学习理论 - 图72 在数据集 机器学习理论 - 图73 上的对数后验概率为:

机器学习理论 - 图74

其中,机器学习理论 - 图75机器学习理论 - 图76 可以分别看作在该模型下数据集 机器学习理论 - 图77 的编码长度和模型 机器学习理论 - 图78 的编码长度和,也就是说我们不但要使得模型 机器学习理论 - 图79 可以编码数据集 机器学习理论 - 图80 ,也要使模型 机器学习理论 - 图81 尽可能的简单。

归纳偏置 (Inductive Bias)

白话定理

在机器学习中,很多算法会对学习的问题做一些假设,这些假设就称为归纳偏置(Inductive Bias)。
归纳偏置所做的事情,是将无限可能的目标函数约束在一个有限的假设类别之中,这样,模型的学习才成为可能。

比如:

  • 最近邻分类器中,假设在特征空间内,一个小的局部区域中的大部分样本都属于同一类;
  • 朴素贝叶斯分类器中,假设每个特征的条件概率是相互独立的;
  • SVM 中,假设好的分类器应该最大化类别边界距离;
  • CNN 中,假设特征具有局部性 (Locality),即当我们把相邻的一些特征放在一起,会更容易得到「解」;
  • RNN 中,假设每一时刻的计算依赖于历史计算结果;

归纳 (Induction):是自然科学中常用的两大方法(归纳与演绎, Induction and Deduction)之一,指的是从一些例子中寻找共性、泛化,形成一个比较通用的规则的过程;
偏置 (Bias):是指我们对模型的偏好。

归纳偏置可以理解为,从现实生活中观察到的现象中归纳出一定的规则 (Heuristics),然后对模型做一定的约束,从而可以起到「模型选择」的作用,即从假设空间中选择出更符合现实规则的模型。归纳偏置在贝叶斯学习中也称为先验(Priors)

计算学习理论

二分类

二分类 (binary classification) 问题是将一组数据按照某个规则分为两类。用 h(x) = 1 和 h(x) = -1 分别表示正例和反例。

正射线 (Positive Ray)

正射线二分类的定义是在某个点的右边全是正例。有三种情况:

  1. 正例在反例的右边
  2. 只有正例没有反例
  3. 只有反例没有正例

机器学习理论 - 图82

正间隔 (Positive Interval)

正间隔二分类的定义是在某两个点的中间全是正例,有五种情况:

  1. 正例在反例的中间
  2. 只有正例没有反例
  3. 只有反例没有正例
  4. 正例右边没有反例
  5. 正例左边没有反例

机器学习理论 - 图83

一维感知器 (1D Perceptron)

一维感知器就是正射线和负射线的合体,有四种情况:

  1. 正例在反例的右边
  2. 正例在反例的左边
  3. 只有正例没有反例
  4. 只有反例没有正例

机器学习理论 - 图84

二维感知器 (2D Perceptron)

二维感知器就是一维感知器从线升级到面。

机器学习理论 - 图85

对分 (Dichotomy)

二分类问题中,假设输入空间为 机器学习理论 - 图86,假设空间为 机器学习理论 - 图87,有限的样本为 机器学习理论 - 图88,假设 机器学习理论 - 图89 将 输入空间 机器学习理论 - 图90 映射到 机器学习理论 - 图91,假设空间上的对分定义为:

机器学习理论 - 图92

二分类问题中,数据集 机器学习理论 - 图93 里面有 机器学习理论 - 图94 个样例,如果考虑用某种方法给这 机器学习理论 - 图95 个样例赋予 2 个标记的话,有 机器学习理论 - 图96 个结果。假设经过某种操作 机器学习理论 - 图97 是将正类和负类线性分开,这种分开的操作定义为对分 (Dichotomy),记为 机器学习理论 - 图98
对分的结果最多有 机器学习理论 - 图99 个,但是通常会少于甚至远少于 机器学习理论 - 图100 个。
机器学习理论 - 图101

增长函数 (Growth Function)

对分运用起来有一点麻烦,由于对分个数在固定 机器学习理论 - 图102 点的情况下可能有多个值,它不仅和点的个数 机器学习理论 - 图103 有关,还和点的分布情况有关。
增长函数 (Growth Function) 是一个只和 机器学习理论 - 图104 有关的量,它取每个 机器学习理论 - 图105 点对分时的最大值。

机器学习理论 - 图106

增长函数值越大则这个操作 机器学习理论 - 图107 的表示能力越强(我们把这个操作 机器学习理论 - 图108 定义成机器学习的假设空间 机器学习理论 - 图109),复杂度也越高,学习任务的适应能力越强。
机器学习理论 - 图110

打散 (Shatter)

假设经过某种操作 机器学习理论 - 图111 能实现数据集 机器学习理论 - 图112 上所有的对分,则称数据集 机器学习理论 - 图113 能被这个操作 机器学习理论 - 图114 打散 (Shatter)。
既然能实现所有对分,那么打散时对应的增长函数为 机器学习理论 - 图115

突破点 (Break Point)

第一个没被打散对应的 机器学习理论 - 图116 点称为突破点 (Break Point)。即,满足:
机器学习理论 - 图117
机器学习理论 - 图118 的最小值就是突破点。
机器学习理论 - 图119

增长函数的上界

机器学习理论 - 图120 表示当突破点为 机器学习理论 - 图121 时,增长函数 机器学习理论 - 图122 可能的最大值,即 机器学习理论 - 图123机器学习理论 - 图124 的上界,对应 机器学习理论 - 图125 最多有多少种对分。

机器学习理论 - 图126
机器学习理论 - 图127
假设 机器学习理论 - 图128,对分的情况如下:
Snipaste_2020-10-02_00-09-30.png
观察 机器学习理论 - 图130 ,有些对分在这 机器学习理论 - 图131 个点里只出现了一次(不考虑 机器学习理论 - 图132,即 机器学习理论 - 图133 要么为 +1 要么为 -1),将这些对分情况归入 机器学习理论 - 图134;有些对分在这 机器学习理论 - 图135 个点里出现了两次(机器学习理论 - 图136 分别为 +1 和 -1),将这些对分情况归入 机器学习理论 - 图137
机器学习理论 - 图138机器学习理论 - 图139 的部分归入 机器学习理论 - 图140机器学习理论 - 图141机器学习理论 - 图142 的部分归入 机器学习理论 - 图143
假设 机器学习理论 - 图144机器学习理论 - 图145 行,机器学习理论 - 图146机器学习理论 - 图147 都有 机器学习理论 - 图148 行,因为行的总数限定为 机器学习理论 - 图149,于是有:

机器学习理论 - 图150

对于前 机器学习理论 - 图151 个点,因为 机器学习理论 - 图152机器学习理论 - 图153 的前 机器学习理论 - 图154 个点相同,因此它们的对分也一样,于是,前 机器学习理论 - 图155 个点不同的对分总数为:机器学习理论 - 图156
因为 机器学习理论 - 图157 个点的任意 机器学习理论 - 图158 个点均不能被打散,所以前 机器学习理论 - 图159 个点的任意 机器学习理论 - 图160 个点均不能被打散,于是:

机器学习理论 - 图161

机器学习理论 - 图162 能被 机器学习理论 - 图163 个点打散,而 机器学习理论 - 图164 是成对存在的,则 机器学习理论 - 图165 组成的 机器学习理论 - 图166 必然能被 机器学习理论 - 图167 个点打散,因为 机器学习理论 - 图168 总能取到 +1 或 -1。因此有:

机器学习理论 - 图169

将式 (2) 和 (3) 代入 (1) 中,得到:

机器学习理论 - 图170

使用该式递归得到下表:
image.png
上表第一行和第一列通过实际计算得到。

Sauer’s Lemma

定理

机器学习理论 - 图172

证明

机器学习理论 - 图173机器学习理论 - 图174 时,上式成立。
假设对于所有的 机器学习理论 - 图175 和所有的 机器学习理论 - 图176 ,上式成立,需证明对于所有的 机器学习理论 - 图177 和所有的 机器学习理论 - 图178 ,上式成立。
因为对于所有的 机器学习理论 - 图179机器学习理论 - 图180 时上式成立,因此只需考虑 机器学习理论 - 图181
因为:
机器学习理论 - 图182
其中用到 机器学习理论 - 图183。因为从 机器学习理论 - 图184 个物体中选择 机器学习理论 - 图185 个物体的方式,要么第 1 个被选中,于是相当于从剩下的 机器学习理论 - 图186 个物体中选择 机器学习理论 - 图187 个,即 机器学习理论 - 图188;要么第 1 个没被选中,于是相当于从生下的 机器学习理论 - 图189 个物体中继续选 机器学习理论 - 图190 个,即 机器学习理论 - 图191
根据上式,证得:

机器学习理论 - 图192

定理

若存在 机器学习理论 - 图193 使 机器学习理论 - 图194,则对于所有的 机器学习理论 - 图195 ,有:
机器学习理论 - 图196
其中,不等式右边是 机器学习理论 - 图197机器学习理论 - 图198 阶多项式。即:

机器学习理论 - 图199

布尔不等式/联合上界 (Union Bound)

定理

布尔不等式(Boole’s Inequality)也叫(Union Bound),即并集的上界,描述的是至少一个事件发生的概率 机器学习理论 - 图200#card=math&code=%5Cmathbb%7BP%7D%5Cleft%28%5Cbigcup_i%20A_i%5Cright%29) 不大于单独事件(事件之间未必独立)发生的概率之和 机器学习理论 - 图201#card=math&code=%5Csum_i%5Cmathbb%20P%28A_i%29)

即:
机器学习理论 - 图202%5Cleq%20%5Csum_i%5Cmathbb%20P(A_i)%0A#card=math&code=%5Cmathbb%7BP%7D%5Cleft%28%5Cbigcup_i%20A_i%5Cright%29%5Cleq%20%5Csum_i%5Cmathbb%20P%28A_i%29%0A)

展开即为:
机器学习理论 - 图203%5Cleq%20%5Cmathbb%20P%5Cleft(A_1%5Cright)%2B%5Cmathbb%20P%5Cleft(A_2%5Cright)%2B%5Ccdots%0A#card=math&code=%5Cmathbb%20P%5Cleft%28A_1%5Cbigcup%20A_2%5Cbigcup%20%5Ccdots%5Cright%29%5Cleq%20%5Cmathbb%20P%5Cleft%28A_1%5Cright%29%2B%5Cmathbb%20P%5Cleft%28A_2%5Cright%29%2B%5Ccdots%0A&height=35&width=317)

证明

方法 1 数学归纳法

  • 机器学习理论 - 图204 时,显然 机器学习理论 - 图205%20%5Cle%20%5Cmathbb%20P(A_1)#card=math&code=%5Cmathbb%20P%28A_1%29%20%5Cle%20%5Cmathbb%20P%28A_1%29)
  • 对于 机器学习理论 - 图206,如果有:机器学习理论 - 图207%20%5Cle%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20%7B%5Cmathbb%20P%7D(A_i)#card=math&code=%7B%5Cmathbb%20P%7D%5Cleft%20%28%5Cbigcup%7Bi%3D1%7D%5E%7Bn%7D%20Ai%5Cright%20%29%20%5Cle%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20%7B%5Cmathbb%20P%7D%28Ai%29) ,则由 机器学习理论 - 图208%20%3D%20%5Cmathbb%20P(A)%20%2B%20%5Cmathbb%7BP%7D(B)%20-%20%5Cmathbb%7BP%7D(A%20%5Ccap%20B)#card=math&code=%5Cmathbb%20P%28A%20%5Ccup%20B%29%20%3D%20%5Cmathbb%20P%28A%29%20%2B%20%5Cmathbb%7BP%7D%28B%29%20-%20%5Cmathbb%7BP%7D%28A%20%5Ccap%20B%29) 可知:![](https://g.yuque.com/gr/latex?%5Cbegin%7Bsplit%7D%0A%09%5Cmathbb%7BP%7D%5Cleft(%5Cbigcup%7Bi%3D1%7D%5E%7Bn%2B1%7DAi%5Cright)%20%3D%5Cmathbb%7BP%7D%5Cleft(%5Cleft%5C%7B%5Cbigcup%7Bi%3D1%7D%5E%7Bn%7DAi%5Cright%5C%7D%20%5Cbigcup%20A%7Bn%2B1%7D%5Cright)%20%26%3D%5Cmathbb%7BP%7D%5Cleft(%5Cbigcup%7Bi%3D1%7D%5E%7Bn%7DA_i%5Cright)%2B%5Cmathbb%20P%5Cleft(A%7Bn%2B1%7D%5Cright)%20-%20%5Cmathbb%7BP%7D%5Cleft(%5Cleft%5C%7B%5Cbigcup%7Bi%3D1%7D%5E%7Bn%7DA_i%5Cright%5C%7D%20%5Cbigcap%20A%7Bn%2B1%7D%5Cright)%5C%5C%0A%09%26%5Cleq%20%5Cmathbb%7BP%7D%5Cleft(%5Cbigcup%7Bi%3D1%7D%5E%7Bn%7DA_i%5Cright)%2B%5Cmathbb%20P%5Cleft(A%7Bn%2B1%7D%5Cright)%0A%09%5Cend%7Bsplit%7D%0A#card=math&code=%5Cbegin%7Bsplit%7D%0A%09%5Cmathbb%7BP%7D%5Cleft%28%5Cbigcup%7Bi%3D1%7D%5E%7Bn%2B1%7DA_i%5Cright%29%20%3D%5Cmathbb%7BP%7D%5Cleft%28%5Cleft%5C%7B%5Cbigcup%7Bi%3D1%7D%5E%7Bn%7DAi%5Cright%5C%7D%20%5Cbigcup%20A%7Bn%2B1%7D%5Cright%29%20%26%3D%5Cmathbb%7BP%7D%5Cleft%28%5Cbigcup%7Bi%3D1%7D%5E%7Bn%7DA_i%5Cright%29%2B%5Cmathbb%20P%5Cleft%28A%7Bn%2B1%7D%5Cright%29%20-%20%5Cmathbb%7BP%7D%5Cleft%28%5Cleft%5C%7B%5Cbigcup%7Bi%3D1%7D%5E%7Bn%7DA_i%5Cright%5C%7D%20%5Cbigcap%20A%7Bn%2B1%7D%5Cright%29%5C%5C%0A%09%26%5Cleq%20%5Cmathbb%7BP%7D%5Cleft%28%5Cbigcup%7Bi%3D1%7D%5E%7Bn%7DA_i%5Cright%29%2B%5Cmathbb%20P%5Cleft%28A%7Bn%2B1%7D%5Cright%29%0A%09%5Cend%7Bsplit%7D%0A)
  • 由数学归纳法可得:机器学习理论 - 图209%5Cleq%20%5Csum_i%5Cmathbb%20P(A_i)#card=math&code=%5Cmathbb%7BP%7D%5Cleft%28%5Cbigcup_i%20A_i%5Cright%29%5Cleq%20%5Csum_i%5Cmathbb%20P%28A_i%29)

方法 2 将事件转换为独立事件(不相交事件)

假设有 机器学习理论 - 图210 三个事件,则:

  • 机器学习理论 - 图211机器学习理论 - 图212机器学习理论 - 图213 不相交
  • 机器学习理论 - 图214机器学习理论 - 图215机器学习理论 - 图216 不相交
  • 机器学习理论 - 图217#card=math&code=Bi%3DA_i%5Cbackslash%20%5Cleft%28%5Cbigcup%7Bk%3D1%7D%5E%7Bi-1%7D%20A_i%5Cright%29) ,则有 机器学习理论 - 图218 互不相交,且 机器学习理论 - 图219 ,自然 机器学习理论 - 图220%5Cleq%20P(A_i)#card=math&code=B_i%5Csubset%20A_i%20%5CRightarrow%20P%28B_i%29%5Cleq%20P%28A_i%29) :

机器学习理论 - 图221%26%3D%5Cmathbb%20P%5Cleft(B_1%5Ccup%20B_2%5Ccup%20%5Ccdots%5Cright)%3D%5Cmathbb%20P(B_1)%2B%5Cmathbb%20P(B_2)%2B%5Ccdots%20%5C%5C%0A%26%5Cleq%20%5Cmathbb%20P(A_1)%2B%5Cmathbb%20P(A_2)%2B%5Ccdots%0A%5Cend%7Bsplit%7D%0A#card=math&code=%5Cbegin%7Bsplit%7D%0A%5Cmathbb%20P%20%5Cleft%28A_1%5Ccup%20A_2%5Ccup%20%5Ccdots%5Cright%29%26%3D%5Cmathbb%20P%5Cleft%28B_1%5Ccup%20B_2%5Ccup%20%5Ccdots%5Cright%29%3D%5Cmathbb%20P%28B_1%29%2B%5Cmathbb%20P%28B_2%29%2B%5Ccdots%20%5C%5C%0A%26%5Cleq%20%5Cmathbb%20P%28A_1%29%2B%5Cmathbb%20P%28A_2%29%2B%5Ccdots%0A%5Cend%7Bsplit%7D%0A)

机器学习理论 - 图222

马尔可夫不等式 (Markov’s Inequality)

定理

随机变量 机器学习理论 - 图223 ,具有数学期望 机器学习理论 - 图224,那么对于任意 机器学习理论 - 图225 ,有:
机器学习理论 - 图226

证明

利用概率和指示函数的等价变换,以及指示函数小于等于 1,机器学习理论 - 图227 可得:
机器学习理论 - 图228

切尔诺夫界 (Chernoff’s Bounding Method)

定理

机器学习理论 - 图229 是一个随机变量,且 机器学习理论 - 图230,那么对于 机器学习理论 - 图231
机器学习理论 - 图232

证明

利用马尔可夫不等式可得:
机器学习理论 - 图233
同理可得:
机器学习理论 - 图234
将以上两个不等式综合成一个不等式,得:
机器学习理论 - 图235

霍夫丁引理 (Hoeffding’s Lemma)

定理

对于随机变量 机器学习理论 - 图236机器学习理论 - 图237
机器学习理论 - 图238

证明

机器学习理论 - 图239,且假设 机器学习理论 - 图240,有:

机器学习理论 - 图241
因为 机器学习理论 - 图242是凸函数,根据凸函数的性质,有:
机器学习理论 - 图243

又因为 机器学习理论 - 图244,于是:

机器学习理论 - 图245

因为 机器学习理论 - 图246机器学习理论 - 图247,而 机器学习理论 - 图248 都为 0 的情况没有讨论的意义,所以有 机器学习理论 - 图249
机器学习理论 - 图250,则上式变为:
机器学习理论 - 图251
因为:
机器学习理论 - 图252
所以:
机器学习理论 - 图253
机器学习理论 - 图254
机器学习理论 - 图255
定义 机器学习理论 - 图256,因为 机器学习理论 - 图257,所以 机器学习理论 - 图258机器学习理论 - 图259机器学习理论 - 图260 的取值没有任何限制。可得:
机器学习理论 - 图261
由泰勒中值定理,机器学习理论 - 图262 使得:
机器学习理论 - 图263
其中:
机器学习理论 - 图264
因此有:
机器学习理论 - 图265
所以:
机器学习理论 - 图266

霍夫丁不等式 (Hoeffding’s Inequality)

定理

假设 机器学习理论 - 图267 服从独立同分布,且 机器学习理论 - 图268机器学习理论 - 图269,有:
机器学习理论 - 图270

证明

机器学习理论 - 图271,则:

机器学习理论 - 图272

根据切尔诺夫上界和霍夫丁引理,得:

机器学习理论 - 图273

因为对任意的 机器学习理论 - 图274 都成立,所以对 机器学习理论 - 图275 的二次函数求最小值,得:

机器学习理论 - 图276

概率近似正确 (Probably Approximately Correct, PAC)

机器学习理论 - 图277:训练集;
机器学习理论 - 图278 :概念(函数),若对训练集 机器学习理论 - 图279 ,有任意 机器学习理论 - 图280 成立,称 机器学习理论 - 图281目标概念
机器学习理论 - 图282:学得的目标概念构成的集合称为「概念类
机器学习理论 - 图283学习算法
机器学习理论 - 图284:算法考虑的所有可能概念的集合称为「假设空间」;
机器学习理论 - 图285:对于假设空间中的任一概念,由于不能确定它是否真的是目标概念,因此称为「假设」。
机器学习理论 - 图286:在抽样样本中 机器学习理论 - 图287 的概率;
机器学习理论 - 图288:在实际所有样本中 机器学习理论 - 图289 的概率;

有限假设空间机器学习理论 - 图290 有限;
无限假设空间机器学习理论 - 图291 无限;

可分的:训练样本通过学习算法 机器学习理论 - 图292 后,得出假设空间 机器学习理论 - 图293, 如果目标概念 机器学习理论 - 图294,则假设空间 机器学习理论 - 图295 中存在假设能将所有实例按与真实标记一致的方式完全分开,我们就称该问题对学习算法 机器学习理论 - 图296 是「可分的」;
不可分的:训练样本通过学习算法 机器学习理论 - 图297 后,得出假设空间 机器学习理论 - 图298, 如果目标概念 机器学习理论 - 图299,则假设空间 机器学习理论 - 图300 中不存在假设能将所有实例按与真实标记一致的方式完全分开,我们就称该问题对学习算法 机器学习理论 - 图301 是「不可分的」;

给定训练集 机器学习理论 - 图302,我们希望基于学习算法 机器学习理论 - 图303 学到的模型对应的假设 机器学习理论 - 图304 尽可能接近目标概念 机器学习理论 - 图305
以较大的概率学得误差满足预设上限的模型就是「概率」「近似正确」的含义。

PAC 辨识 (PAC Identify)

PAC 辨识:对 机器学习理论 - 图306,所有 机器学习理论 - 图307 和分布 机器学习理论 - 图308,若存在学习算法 机器学习理论 - 图309,其输出假设 机器学习理论 - 图310 满足:
机器学习理论 - 图311

PAC 可学习

PAC 可学习:令 机器学习理论 - 图312 表示从分布 机器学习理论 - 图313 中独立同分布采样得到的样例数目,机器学习理论 - 图314,对所有分布 机器学习理论 - 图315,若存在学习算法 机器学习理论 - 图316 和多项式函数 机器学习理论 - 图317,使对于任何 机器学习理论 - 图318,算法 机器学习理论 - 图319 能从假设空间 机器学习理论 - 图320 中 PAC 辨识概念类 机器学习理论 - 图321,则称概念类 机器学习理论 - 图322 对假设空间 机器学习理论 - 图323 而言是 PAC 可学习的,有时也简称概念类 机器学习理论 - 图324 是 PAC 可学习的。

PAC 学习算法

PAC 学习算法:若学习算法 机器学习理论 - 图325 使概念类 机器学习理论 - 图326 为 PAC 可学习的,且 机器学习理论 - 图327 的运行时间也是多项式函数 机器学习理论 - 图328 的,则称概念类 机器学习理论 - 图329 是高效 PAC 可学习的,称 机器学习理论 - 图330 为概念类 机器学习理论 - 图331 的 PAC 学习算法。

样本复杂度

满足 PAC 学习算法 机器学习理论 - 图332 所需的 机器学习理论 - 图333 中最小的 机器学习理论 - 图334,称为学习算法 机器学习理论 - 图335 的样本复杂度。
假定学习算法 机器学习理论 - 图336 处理每个样本的时间为常数,则 机器学习理论 - 图337 的时间复杂度等价于样本复杂度。于是,我们关心的时间复杂度就变成了样本复杂度。

概率近似正确 (PAC)

根据霍夫丁不等式:
假设 机器学习理论 - 图338 服从独立同分布,且 机器学习理论 - 图339机器学习理论 - 图340,有:
机器学习理论 - 图341
因为:
机器学习理论 - 图342
机器学习理论 - 图343

机器学习理论 - 图344 服从伯努利分布时,机器学习理论 - 图345,代入霍夫丁不等式中,得:
机器学习理论 - 图346

该式表明,当样本数量 机器学习理论 - 图347 足够大,且样本是独立同分布的,那么 机器学习理论 - 图348机器学习理论 - 图349 不会相差很大,它们之间的差值被限定在 机器学习理论 - 图350 之内,把 机器学习理论 - 图351 称为概率近似正确(PAC)

概率近似正确表明:

  • 从样本中 机器学习理论 - 图352 的概率就能推导在所有样本中 机器学习理论 - 图353 的概率;
  • 概率上界 机器学习理论 - 图354 完全与 机器学习理论 - 图355 无关,因此目标函数 机器学习理论 - 图356 仍然可以保持未知;
  • 不管总体个数是多少,不管总体变量有多么未知,只要给定样本数量 机器学习理论 - 图357 及误差大小 机器学习理论 - 图358,就能计算一个「已知到未知」的概率上界;
  • 机器学习理论 - 图359机器学习理论 - 图360 在概率上近似正确,如果 机器学习理论 - 图361 很小,那么就能推断出 机器学习理论 - 图362 很小,也就是说在该数据分布下,机器学习理论 - 图363机器学习理论 - 图364 非常接近,机器学习的模型比较准确。

机器学习的可行性

机器学习理论 - 图365
为了证明机器学习是可行的,就要证明 机器学习理论 - 图366 发生的概率很小,即 机器学习理论 - 图367 很小,进而要证明 机器学习理论 - 图368 很小。
如此看来,只要增大 机器学习理论 - 图369 即可,但事实并非如此。

从单一到有限

以上证明只用了一个固定的假设函数 机器学习理论 - 图370,而不是一组假设函数 机器学习理论 - 图371,机器没有**学习到任何都东西,只能说验证了固定的假设函数 机器学习理论 - 图372 和目标函数 机器学习理论 - 图373 的差距。
即,只验证了 机器学习理论 - 图374,但没有证明 机器学习理论 - 图375
因为,当只有一个假设 机器学习理论 - 图376 时,它的训练误差是客观存在的,只能验证它,却不能减小它。减小误差才是
学习**。
于是,需要一种方式证明 机器学习理论 - 图377

从一组假设函数 机器学习理论 - 图378 中选出一个使得 机器学习理论 - 图379 最小的假设函数,并将这个最优假设函数设定为 机器学习理论 - 图380
根据布尔不等式(联合上界)及霍夫丁不等式,可得:
机器学习理论 - 图381
当假设函数的个数 机器学习理论 - 图382有限的,只要增大 机器学习理论 - 图383 就可以让 机器学习理论 - 图384 很小,机器学习是可行的。

从有限到无限

实际问题中,假设函数的个数 机器学习理论 - 图385 通常是无限的。此时即便 机器学习理论 - 图386 很大, 机器学习理论 - 图387 也会很大。

从无限到有限

事实上,很多假设函数的效果是相同的,而且推导过程中使用的联合上界会使上界过于宽松**
1568782711014.png**
即导致:

机器学习理论 - 图389

不等式右边的数值过大。

等效假设函数

很多假设函数的效果是相同的,这些等效的假设被归结为等效的一类(等效类),而增长函数 机器学习理论 - 图390 是计算等效类的个数。
因为增长函数的上界是 机器学习理论 - 图391,所以用 机器学习理论 - 图392 来代替上面不等式中的 机器学习理论 - 图393,得到:

机器学习理论 - 图394

分子分母均为 机器学习理论 - 图395 形式,分子分母为等价无穷大(当 机器学习理论 - 图396 时,分子分母趋于无穷大的速率一样),但 机器学习理论 - 图397 通常比 机器学习理论 - 图398 大,因此最后的比值会比 1 大。然而概率是小于或等于 1 的数。因此若分子是分母的低阶无穷大,问题就解决了。

根据增长函数的上界,可知:
机器学习理论 - 图399
于是:
机器学习理论 - 图400

根据洛必达法则,对 机器学习理论 - 图401 阶多项式函数和指数函数分别求 机器学习理论 - 图402 次导数后,分子为常数,分母还是与 机器学习理论 - 图403 相关的指数函数,这样,当 机器学习理论 - 图404 很大时,整体会很小。综上所述:
机器学习理论 - 图405

机器学习可行。

上式为 VC 不等式的仿真版,真正的 VC 不等式如下:

  • 仿真版:机器学习理论 - 图406

  • 真正版机器学习理论 - 图407

VC 不等式 (Vapnik-Chervonenkis Inequality)

符号

机器学习理论 - 图408, 机器学习理论 - 图409, 机器学习理论 - 图410
机器学习理论 - 图411:frequency of agreement of 机器学习理论 - 图412 on 机器学习理论 - 图413
机器学习理论 - 图414:frequency of agreement of 机器学习理论 - 图415 on 机器学习理论 - 图416
机器学习理论 - 图417:probability of agreement of 机器学习理论 - 图418
机器学习理论 - 图419:a learning model
机器学习理论 - 图420:the number of different patterns of 机器学习理论 - 图421 on 机器学习理论 - 图422
机器学习理论 - 图423:the growth function of 机器学习理论 - 图424
机器学习理论 - 图425:a subset of 机器学习理论 - 图426 that 「represents」 机器学习理论 - 图427
机器学习理论 - 图428
机器学习理论 - 图429:is w.r.t. 机器学习理论 - 图430 . Thus, 机器学习理论 - 图431
机器学习理论 - 图432:is a short-hand of 机器学习理论 - 图433

基础不等式

霍夫丁不等式

机器学习理论 - 图434

Bin model

机器学习理论 - 图435

注意峰值出现在 机器学习理论 - 图436,如果 机器学习理论 - 图437 是整数,对于 机器学习理论 - 图438,易证:

机器学习理论 - 图439

引理 1 (Bounding the deviation with two half-vectors)

机器学习理论 - 图440
for 机器学习理论 - 图441 such that 机器学习理论 - 图442

证明引理 1

机器学习理论 - 图443

引理 2 (Bounding the difference of half-vectors under specific conditions)

对于任意整数 机器学习理论 - 图444机器学习理论 - 图445机器学习理论 - 图446机器学习理论 - 图447,有:

机器学习理论 - 图448

证明引理 2

因为:
机器学习理论 - 图449
所以,左式(left-hand-side,LHS)机器学习理论 - 图450 独立于 机器学习理论 - 图451
如果 机器学习理论 - 图452,则:
机器学习理论 - 图453
因为左式独立于 机器学习理论 - 图454,于是可以处理一个伪问题,其中,机器学习理论 - 图455 是从 机器学习理论 - 图456 中得出的,并且不失一般性地选择 机器学习理论 - 图457 使 机器学习理论 - 图458,于是:
机器学习理论 - 图459
所以:
机器学习理论 - 图460
其中,
机器学习理论 - 图461

注意到 机器学习理论 - 图462 的峰值出现在 机器学习理论 - 图463 附近。令:
机器学习理论 - 图464
于是:
机器学习理论 - 图465
现在,
机器学习理论 - 图466
注意到需要 机器学习理论 - 图467,而当集合 机器学习理论 - 图468 非空时,机器学习理论 - 图469;如果集合为空,左式等于 0,引理无意义。

定理 (VC 不等式)

对于满足引理 1 的 机器学习理论 - 图470,有:
机器学习理论 - 图471

证明 (VC 不等式)

由引理 1 可得:
机器学习理论 - 图472

We get the same probability if we first generate 机器学习理论 - 图473 according to 机器学习理论 - 图474 and choose one of the 机器学习理论 - 图475 permutations of 机器学习理论 - 图476 to permute 机器学习理论 - 图477 into 机器学习理论 - 图478. Here 机器学习理论 - 图479 depends on 机器学习理论 - 图480 and the permutation 机器学习理论 - 图481, but 机器学习理论 - 图482 and 机器学习理论 - 图483 are equivalent.

机器学习理论 - 图484

VC 上界

VC 不等式右边的项 机器学习理论 - 图485 被称为 VC 上界。

VC 维 (VC Dimension)

给定数据集 机器学习理论 - 图486机器学习理论 - 图487 个点以及假设函数空间 机器学习理论 - 图488,突破点 机器学习理论 - 图489 表示第一个无法被打散的点,既然 机器学习理论 - 图490 点是第一个无法被打散的点,那么 机器学习理论 - 图491 点一定是最后被打散的点。通常把它定义为 VC 维(VC Dimension),有:
机器学习理论 - 图492
把 VC 维代入 VC 不等式中,即用 机器学习理论 - 图493 替代 机器学习理论 - 图494,得到:
机器学习理论 - 图495

只要 机器学习理论 - 图496 是有限的,那么当 机器学习理论 - 图497 很大时,不等式的最右边就是一个很小的数,即真实误差 机器学习理论 - 图498 逼近训练误差 机器学习理论 - 图499,那么假设函数 机器学习理论 - 图500 具有很好的推广能力。

机器学习可行的本质

由 VC 不等式可知,「有限的 VC 维才是机器学习可行的条件」,从而有以下结论:

  • 不需要知道算法 机器学习理论 - 图501
  • 不需要知道数据分布 机器学习理论 - 图502
  • 不需要知道目标函数 机器学习理论 - 图503
  • 只需要知道训练集 机器学习理论 - 图504 和假设函数集 机器学习理论 - 图505 就能找到最优假设函数 机器学习理论 - 图506 来学习 机器学习理论 - 图507

模型复杂度 (Model Complexity)

设定一个概率 机器学习理论 - 图508,则样本数 机器学习理论 - 图509 和容忍度 机器学习理论 - 图510 之间的关系为:
机器学习理论 - 图511
可得:
机器学习理论 - 图512
因此,在大于 机器学习理论 - 图513 的概率下:
机器学习理论 - 图514
可得:
机器学习理论 - 图515

定义 机器学习理论 - 图516机器学习理论 - 图517 为惩罚函数,也被称为模型复杂度(Model Complexity)
于是可得:

机器学习理论 - 图518

机器学习理论 - 图519 表示假设空间 机器学习理论 - 图520 越强,算法越需要强大的推广能力。即,机器学习理论 - 图521 容量越大,机器学习理论 - 图522 越大,那么模型就越难学习。

真实误差 = 训练误差 + 模型复杂度
1568973410760.png
训练误差是 机器学习理论 - 图524 的减函数;而模型复杂度是 机器学习理论 - 图525 的增函数。
机器学习的任务就是找到有最佳 VC 维 机器学习理论 - 图526 的模型,对应着最小的真实误差。

样本复杂度 (Sampling Complexity)

设定一个容忍度 机器学习理论 - 图527,计算需要的样本数量 机器学习理论 - 图528,即计算出样本复杂度(Sampling Complexity):
根据:

机器学习理论 - 图529
得到:
机器学习理论 - 图530

上式左右两边都有 机器学习理论 - 图531,因此需要用迭代法(如牛顿法)求解。

通过迭代法算出:

  • 理论上,样本数量 机器学习理论 - 图532
  • 实际上,样本数量 机器学习理论 - 图533

原因如下:

  • 霍夫丁不等式适用于任何数据分布和任何目标函数;
  • 增长函数适用于任何数据;
  • VC 维适用于任何假设空间;
  • 联合上界适用于最差的状况。

实践中,「任何」和「最差」同时发生的可能性不大,因此,样本复杂度的理论值和实际值可能相差很大。

通用近似定理/万能近似定理 (Universal Approximation Theorem)

白话定理

在人工神经网络的数学理论中, 通用近似定理(或称万能近似定理)指出人工神经网络可以用来近似任意函数。 通常此定理所指的神经网络为前馈神经网络,并且被近似的目标函数通常为输入输出都在欧几里得空间的连续函数。但亦有研究将此定理扩展至其他类型的神经网络。

此定理意味着神经网络可以用来近似任意的复杂函数,并且可以达到任意近似精准度。但它并没有告诉我们如何选择神经网络参数(权重、神经元数量、神经层层数等等)来达到我们想近似的目标函数。

数学描述

任意宽度

任意宽度和有限深度的万能近似定理的经典形式如下:

固定一个连续函数 机器学习理论 - 图534 和正整数 机器学习理论 - 图535,对于任意连续函数 机器学习理论 - 图536,任意 机器学习理论 - 图537 的紧致子集(compact subset)机器学习理论 - 图538,任意的 机器学习理论 - 图539,当且仅当存在一个可以表示为 机器学习理论 - 图540 的连续函数 机器学习理论 - 图541 时,函数 机器学习理论 - 图542 不是一个多项式函数。
其中,机器学习理论 - 图543 表示合成的仿射映射(composable affine maps );机器学习理论 - 图544 表示逐成分合成(component-wise composition),使得近似界(approximation bound)成立:

机器学习理论 - 图545

该定理指出,第一层可以逼近任何表现良好的函数。这样一个表现良好的函数也可以由一个和第一层结构相同并且其后各层近似为恒等函数的更深的网络近似。

任意深度

这个定理的「对偶」版本考虑了有限宽度和任意深度的网络。
该定理指出,在网络深度允许增加的情况下,带有 ReLU 激活函数的宽度为 机器学习理论 - 图546 的网络可以在 L1 距离上近似于 机器学习理论 - 图547 维输入空间上的任意勒贝格可积函数(Lebesgue integrable function )。当宽度小于或等于 机器学习理论 - 图548 时,其表达能力是有限的,除了零测度集外,所有勒贝格可积函数(Lebesgue integrable function )都不能用宽度为 机器学习理论 - 图549 的 ReLU 网络近似。宽度为 机器学习理论 - 图550 的 ReLU 网络足以逼近任意 机器学习理论 - 图551 维输入变量的连续函数。

Universal approximation theorem (L1 distance, ReLU activation, arbitrary depth)

对于任意勒贝格可积函数(Lebesgue integrable function )机器学习理论 - 图552 和任意的 机器学习理论 - 图553,存在一个宽度为 机器学习理论 - 图554 的全连接 ReLU 网络 机器学习理论 - 图555(用函数 机器学习理论 - 图556 表示该网络),使下式成立:

机器学习理论 - 图557

Universal approximation theorem (nonaffine activation, arbitrary depth)

机器学习理论 - 图558 表示任意连续可微的非仿射连续函数,该函数至少在一点上具有非零导数;令 机器学习理论 - 图559 是紧致的;机器学习理论 - 图560 上的实向量-值(real vector-valued)连续函数的空间表示为 机器学习理论 - 图561;令 机器学习理论 - 图562 表示有 机器学习理论 - 图563 个输入神经元、机器学习理论 - 图564 个输出神经元和任意数量的隐层,每个隐层有 机器学习理论 - 图565 个神经元,每个隐神经元都有激活函数 机器学习理论 - 图566,每个输出神经元都有同样的激活函数作为其自身的激活函数。给定任意的 机器学习理论 - 图567 以及任意的 机器学习理论 - 图568,存在 机器学习理论 - 图569 ,对于所有的 机器学习理论 - 图570,使得下式成立:

机器学习理论 - 图571

换句话说,相对于一致范数(uniform norm),机器学习理论 - 图572机器学习理论 - 图573 中是稠密的。

定理证明

信息瓶颈理论 (Information Bottleneck Method)

白话定理

信息瓶颈是信息论中的一种方法,运用了互信息的概念。对于一随机变量 机器学习理论 - 图574,假设已知 机器学习理论 - 图575 与观察变量 机器学习理论 - 图576 之间的联合概率分布为 机器学习理论 - 图577。此时,当需要概括(聚类)机器学习理论 - 图578 时,可以通过信息瓶颈方法来分析如何最优化地平衡准确度与复杂度(数据压缩)。该方法的应用还包括分布聚类(distributional clustering)与降维等。此外,信息瓶颈也被用于分析深度学习的过程。

数学描述

假设压缩后的随机变量为 机器学习理论 - 图579,试图用 机器学习理论 - 图580 代替 机器学习理论 - 图581 来预测 机器学习理论 - 图582。此时,可使用以下算法得到最优的 机器学习理论 - 图583

机器学习理论 - 图584

其中,机器学习理论 - 图585机器学习理论 - 图586 分别为 机器学习理论 - 图587机器学习理论 - 图588 之间的互信息、机器学习理论 - 图589机器学习理论 - 图590 之间的互信息,可由 机器学习理论 - 图591 计算得到;
机器学习理论 - 图592 为示拉格朗日乘数。

小数定律 (Law of Small Numbers, LSN)

小数定律是阿莫斯·特沃斯基(Amos Tversky)和丹尼尔·卡纳曼(Daniel Kahneman)在其研究中对「赌徒谬误」的总结。

白话定理

如果统计数据很少,那么事件就表现为各种极端情况,而这些情况都是偶然事件,跟它的期望值没有一点关系。

大数定律 (Law of Large Numbers, LLN)

白话定理

如果统计数据足够大,那么事物出现的频率就能无限接近它的期望。
样本数量越多,则样本的算术平均值就有越高的概率接近其期望值(总体均值)。
我们通常对数据进行抽样估计利用的就是大数定理思想。
**

大数定律的作用

大数定律告诉我们,当样本容量极大时,样本均值约等于总体期望,即 机器学习理论 - 图593,因此我们可以用样本均值来估计总体的期望

数学描述

机器学习理论 - 图594 是一列独立同分布(i.i.d)的可积随机变量,均值 机器学习理论 - 图595 存在,机器学习理论 - 图596,方差 机器学习理论 - 图597,则则对于任意的正数 机器学习理论 - 图598,有:

机器学习理论 - 图599
或:
机器学习理论 - 图600

实际上,我们只需要均值 机器学习理论 - 图601 存在即有大数定律成立,上述定理中加上了方差存在的条件,只是为了证明的方便。

弱大数定理

机器学习理论 - 图602 是一列独立同分布(i.i.d)的可积随机变量,期望 机器学习理论 - 图603 存在,
机器学习理论 - 图604
机器学习理论 - 图605 依概率收敛于期望 机器学习理论 - 图606,此即为弱大数定律。
**

强大数定理

机器学习理论 - 图607 是一列独立同分布(i.i.d)的可积随机变量,期望 机器学习理论 - 图608 存在,
机器学习理论 - 图609
机器学习理论 - 图610 以概率 1 收敛于期望 机器学习理论 - 图611,又机器学习理论 - 图612 几乎处处收敛机器学习理论 - 图613
**

定理证明

假设随机变量 X 具有数学期望 机器学习理论 - 图614,方差为 机器学习理论 - 图615,样本均值 机器学习理论 - 图616,根据切比雪夫不等式:
机器学习理论 - 图617
因为:
机器学习理论 - 图618
机器学习理论 - 图619
代入切比雪夫不等式得到:
机器学习理论 - 图620
因为 机器学习理论 - 图621,所以:
机器学习理论 - 图622

Chebyshev 大数定律

前提条件:机器学习理论 - 图623 相互独立(不必同分布);机器学习理论 - 图624 存在且一致有上界(即,机器学习理论 - 图625 使 机器学习理论 - 图626 对于一切 机器学习理论 - 图627 成立)。
结论:
机器学习理论 - 图628
数学意义:算数平均值依概率收敛于数学期望。

Bernoulli 大数定律

前提条件:机器学习理论 - 图629 是 n 重 Bernoulli 试验中事件 A 的发生次数;每次试验 A 发生的概率为 p。(即,机器学习理论 - 图630 相互独立且都服从于参数为 机器学习理论 - 图631 的 Bernoulli 分布(0-1 分布))
结论:
机器学习理论 - 图632
数学意义:频率依概率收敛于统计概率。
Bernoulli 大数定律属于 Chebyshev 大数定律的一种特殊情况,可以由 Chebyshev 大数定律推出。

Khinchin 大数定律

前提条件:机器学习理论 - 图633 相互独立且同分布;机器学习理论 - 图634 存在
结论:
机器学习理论 - 图635
数学意义:算数平均值依概率收敛于数学期望。
Chebyshev 大数定律要求独立和方差有上界;Khinchin 大数定律要求独立同分布和期望存在。

中心极限定理 (Central Limit Theorem, CLT)

白话定理

大量相互独立的随机变量,其均值(或者和)的分布以正态分布为极限。
中心极限定理指的是给定一个任意分布的总体,每次从总体中随机抽取 n 个抽样,一共抽 m 次, 然后把这 m 组抽样分别求出平均值, 这些平均值的分布接近正态分布。
中心极限定理说明:

  1. 样本的平均值约等于总体的平均值
  2. 不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体平均值周围,并且呈正态分布

中心极限定理的作用

  1. 在没有办法得到总体全部数据的情况下,可以用样本来估计总体
    如果知道了某个正确抽取的样本的平均值和标准差,就能估计出总体的平均值和标准差。
  2. 根据总体的平均值和标准差,判断某个样本是否属于总体
    如果知道了某个总体的具体信息,以及某个样本的数据,就能推理出该样本是否是该群体的样本之一。通过中心极限定理的正态分布,就能计算出某个样本属于总体的概率是多少。如果概率非常低,那么我们就能自信地认为该样本不属于该群体。这也是统计概率中假设检验的原理。

数学描述

机器学习理论 - 图636 是一列独立同分布(i.i.d)的可积随机变量,期望 机器学习理论 - 图637 存在,方差 机器学习理论 - 图638 存在,机器学习理论 - 图639
机器学习理论 - 图640
即,当 机器学习理论 - 图641 时,机器学习理论 - 图642
即,样本容量极大时样本均值的抽样分布趋近于期望为 机器学习理论 - 图643、标准差为 机器学习理论 - 图644 的正态分布。
大数定律和中心极限定理都是讲样本均值的分布的估计,只不过是相比大数定律,中心极限定理更精确,当然前提条件也比大数定律的强。

棣莫佛-拉普拉斯定理

棣莫佛-拉普拉斯(de Moivre - Laplace)定理是中央极限定理的最初版本,讨论了服从二项分布的随机变量序列。它指出,参数为 机器学习理论 - 图645 的二项分布以 机器学习理论 - 图646 为均值、机器学习理论 - 图647 为方差的正态分布为极限。

机器学习理论 - 图648机器学习理论 - 图649 次伯努利实验中事件 机器学习理论 - 图650 出现的次数,每次试验成功的概率为 机器学习理论 - 图651,且 机器学习理论 - 图652,则对任意有限区间 机器学习理论 - 图653
机器学习理论 - 图654,当 机器学习理论 - 图655 时:

  1. 机器学习理论 - 图656
  2. 机器学习理论 - 图657

其中,机器学习理论 - 图658 为标准正态分布的概率密度函数

林德伯格-列维定理

定理描述

林德伯格-列维(Lindeberg-Levy)定理,是棣莫佛-拉普拉斯定理的扩展,讨论独立同分布随机变量序列的中央极限定理。它表明,独立同分布(iid independent and indentically distributed)、且数学期望和方差有限的随机变量序列的标准化和以标准正态分布为极限:
设随机变量 机器学习理论 - 图659 独立同分布,且具有有限的数学期望和方差 机器学习理论 - 图660机器学习理论 - 图661。记:机器学习理论 - 图662,则:
机器学习理论 - 图663
即:
机器学习理论 - 图664
其中 机器学习理论 - 图665 是标准正态分布的分布函数。

定理证明

机器学习理论 - 图666 的特征函数为 机器学习理论 - 图667,根据傅里叶变换,样本空间中的褶积在特征函数空间变为乘积,因此 机器学习理论 - 图668 的特征函数为 机器学习理论 - 图669,由于 机器学习理论 - 图670 ,故 机器学习理论 - 图671,因此:
机器学习理论 - 图672
所以:
机器学习理论 - 图673
由于 机器学习理论 - 图674 是连续函数,它对应的分布函数为 机器学习理论 - 图675,因此由逆极限定理知:
机器学习理论 - 图676

林德伯格-费勒定理

定理描述

林德伯格-费勒定理,是中心极限定理的高级形式,是对林德伯格-列维定理的扩展,讨论独立,但不同分布的情况下的随机变量和。它表明,满足一定条件时,独立,但不同分布的随机变量序列的标准化和依然以标准正态分布为极限:
记随机变量序列 机器学习理论 - 图677机器学习理论 - 图678独立但不一定同分布,机器学习理论 - 图679 且有有限方差)部分和为 机器学习理论 - 图680,记 机器学习理论 - 图681机器学习理论 - 图682,如果对每个 机器学习理论 - 图683,序列满足:
机器学习理论 - 图684
则称它满足林德伯格(Lindeberg)条件。满足此条件的序列趋向于正态分布,即:
机器学习理论 - 图685
同时,该条件也是期望为零、方差有限的独立变量之和趋于正态分布的必要条件。与之相关的是李雅普诺夫(Lyapunov)条件:
机器学习理论 - 图686
满足李雅普诺夫条件的序列,必满足林德伯格条件。

定理证明

在此只对较强的李雅普诺夫条件给出证明。
以下证明对每一实数 机器学习理论 - 图687,特征函数满足 机器学习理论 - 图688
机器学习理论 - 图689
泰勒展开,上式可近似为:
机器学习理论 - 图690
由李雅普诺夫条件,当 机器学习理论 - 图691 时,第一项收敛于零。
机器学习理论 - 图692,则由李雅普诺夫不等式得:
机器学习理论 - 图693
因此第二项也收敛于零。

小数定理、大数定理和中心极限定理的关系

机器学习理论 - 图694

覆盖定理 (Cover’s Theorem)

白话定理

Cover’s Theorem 是核方法的理论基础,指的是对于非线性可分的训练集,可以大概率通过将其非线性映射到一个高维空间来转化成线性可分的训练集

定理证明

使用确定性映射:假设有 机器学习理论 - 图695 样本,将它们升维到 机器学习理论 - 图696 维实空间中单纯形的顶点上。由于每个样本都是线性可分的,所以定理得证。

附件

Learning from data a short course.pdf
vc proof.pdf
note_hoeffding.pdf
Concentration Inequalities Hoeffding and McDiarmid.pdf
Hoefding’s Inequality.pdf
McDiarmid’s Inequality.pdf

参考资料

  1. 《机器学习》
  2. 《快乐机器学习》:P44(NFL 定理的解释)
  3. NFL定理:https://www.jianshu.com/p/e1705306f6a3
  4. 没有免费午餐定理通俗证明:https://zhuanlan.zhihu.com/p/48493722
  5. Inductive bias:https://en.wikipedia.org/wiki/Inductive_bias
  6. Relational inductive biases, deep learning, and graph network:https://zhuanlan.zhihu.com/p/38861547
  7. 如何理解 Inductive bias?:https://www.zhihu.com/question/264264203
  8. 林轩田《机器学习基石》、《机器学习技法》
  9. Learning from data: a short course
  10. VC proof
  11. 通用近似定理:https://ai.stackexchange.com/questions/13317/where-can-i-find-the-proof-of-the-universal-approximation-theorem
  12. 信息瓶颈:https://zh.wikipedia.org/wiki/信息瓶颈
  13. Information bottleneck method:https://en.wikipedia.org/wiki/Information_bottleneck_method
  14. Cover’s theorem:https://en.wikipedia.org/wiki/Cover%27s_theorem