1.中心极限定理

中心极限定理:在自然界与生产中, 一些现象受到许多相互独立的随机因素的影响, 如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。中心极限定理是研究独立随机变量和的极限分布为正态分布的命题。经过科学家长期的观察和总结,发现服从正态分布的随机现象往往是由独立(或弱相依)的随机变量产生的,这类随机现象往往可视为独立随机变量之和。
中心极限定理是概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理;是数理统计学和
误差分析的理论基础, 指出了大量随机变量近似服从正态分布的条件。
【应用】
线性回归中根据中心极限定理得出误差值符合正态分布。


2.最大似然估计

给定一堆数据, 假如我们知道它是从某一种分布中随机取出来的, 可是我们并不知道这个分布具体的参数, 即“模型已定, 参数未知”。
例如:知道这个分布是正态分布, 但不知道均值和方差; 或者是二项分布, 但不知道均值。
最大似然估计(MLE,Maximum Likelihood Estimation) 就可以用来估计模型的参数。 MLE的目标是找出一组参数, 使得模型产生出观测数据的概率最大。
概率描述了已知参数时的随机变量的输出结果; 似然则用来描述已知随机变量输出结果时, 未知参数的可能取值。
【应用】
使用似然函数和最大似然估计,推导并求解线性回归的误差函数最小化。


3.奥卡姆剃刀

如无必要,勿增实体.
【应用】
选择复杂度较低的模型,获得更好的泛化能力。
多项式回归Polynomial Regression中对特征进行展开升维,并不是维度越高越好,超过一定的维度,预测误差也逐渐变大。


4.没有免费的午餐(NFL)

没有免费午餐定理(No Free Lunch Theorem,NFL)是由Wolpert和Macerday在最优化理论中提出的 。对于一个学习算法A,如果在某些问题上它比算法B好,那么必然存在另一些问题,在那些问题中B比A更好。因此不存在这样的算法:它在所有的问题上都取得最佳的性能。因此要谈论算法的优劣必须基于具体的学习问题。


5.丑小鸭定理

丑小鸭定理(Ugly Duckling Theorem)是1969年由渡边慧提出的[Watan-able, 1969]。如果以体型大小的角度来看,丑小鸭和白天鹅的区别大于两只白天鹅的区别;但是如果以基因的角度来看,丑小鸭与它父母的差别要小于他父母和其他白天鹅之间的差别。世界上不存在相似性的客观标准,一切相似性的标准都是主观的。
“丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大”。所谓这两个东西“相似”,是在分类的时候,这两个东西能被分在同一个类里面。在不同的标准对应的各自不同的分类之中,它们两个被分到一起的次数,就是相似度的大小。因此,丑小鸭与天鹅之间的区别,和两只天鹅之间的区别一样大。
分类之前是需要有分类标准的;没有好处/价值,就不要随便分类。


6.Hebb定律

1949年,加拿大生物心理学家Hebb提出了突触学习的模型,这个模型被称为“Hebb定律”。赫布认为神经网络的学习过程最终是发生在神经元之间的突触部位,突触的联结强度随着突触前后神经元的活动而变化,变化的量与两个神经元的活性之和成正比。
受巴甫洛夫的条件反射实验的启发,Hebb的理论认为在同一时间被激发的神经元间的联系会被强化。
1973年Bliss和Lomo第一次阐述了在哺乳动物的脑中存在的长时程增强机制(LTP:Long-Term Potentiation)。
在神经生物学中,学习定义为人或动物通过神经系统接受外界环境信息而影响自身行为的过程,学习在脑中分子层次发生的过程是神经元突触处连接的变化。
有效的学习算法,使得神经网络能够通过联结权重的调整,构造客观世界的内在表征。


7.莫拉维克悖论

莫拉维克悖论(Moravec’s paradox)是人工智能学者发现的一个与常识相反的现象。和传统的假设不同,人类所独有的逻辑和思考能力(即所谓的智慧)只需要非常少的计算能力,但是无意识的技能和感知能力却需要极大的运算能力。
原始表达是:“要让电脑如成人般下棋是相对容易的,但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难,甚至是不可能的。”

一位人工智能学者这样写道:

“人工智能研究的主要教训是,难题很容易解决,而我们认为理所当然的一个四岁孩子的能力—— 识别一张脸,举起一支铅笔,走过一个房间,回答一个问题 —— 实际上是有史以来最困难的问题。……新一代智能设备出现了,它会取代股票分析师、工程师和董事会成员,但是园丁、服务员和厨师在未来几十年中,工作都很安全。”


8.概率近似正确PAC

PAC(Probably Approximately Correct)概率近似正确:“近似”是在取值上,只要和真实值的偏差小于一个足够小的值就认为”近似正确”;”可能”是在概率上,即只要”近似正确”的概率足够大就认为”可能近似正确”。
【怎么选】机器学习关心的是从假设空间中以什么样的方式选出的假设才是最优的,最优的意思是经验误差和泛化误差都小;
【有没有】PAC关心的是在假设空间中这样的一个最优假设是否存在,PAC可以用来判断达没达到可以选择出足够好的假设来解决问题的下限。
这个下限是什么? 即怎么定义“最优假设”?需要满足两个条件:

  • 近似正确。泛化误差足够小,把泛化误差限定在一个很小的数之内,即思想汇总 - 图1,此时得到的假设是近似正确的,即思想汇总 - 图2
  • 可能正确。选择的假设很可能是近似正确的,即思想汇总 - 图3,只要机器学习对外来的随机样本失败的频率被限定在值δ以内,用总的概率1减去它就是置信度,作为判断”可能近似正确”的阈值。

如果学习机器在短时间(多项式级别)内根据少量的(多项式级别)的训练集样本m,能够找到一个好的假设h,满足“近似正确”和“可能正确”,那么就说这个问题是PAC可学习的。
一个PAC可学习的问题也必须要有足够多的样本m才能完成任务,样本数m有一个一般理论边界M,如果m大于M那么就足以在预期的泛化误差和显著性水平下用机器学习找到的最优的假设h解决问题。 思想汇总 - 图4