机器学习是通过计算的手段利用经验(数据的形式)来改善系统自身性能的学科
两大流派
频率学派发展出的机器学习理论 ——统计学习,核心数据,基础模型线性回归
贝叶斯学派发展出的机器学习理论——符号学习,概率图模型
频率统计学派
在频率学派眼中,当重复试验的次数趋近于无穷大时,事件发生的频率会收敛到真实的概率之上
频率统计理论的核心在于认定待估计的参数是固定不变的常量,讨论参数的概率分布是没有意义的;而用来估计参数的数据是随机的变量,每个数据都是参数支配下一次独立重复试验的结果。由于参数本身是确定的,那频率的波动就并非来源于参数本身的不确定性,而是由有限次观察造成的干扰而导致。
统计学的核⼼任务之一是根据从总体中抽取出的样本,也就是数据来估计未知的总体参数。参数的最优估计可以通过样本数据的分布,也就是采样分布(sampling distribution)来求解,由于频率统计将数据看作随机变量,所以计算采样分布是没有问题的。确定采样分布之后,参数估计可以等效成一个最优化的问题,而频率统计最常使用的最优化方法,就是最大似然估计(maximum likelihood estimation)其目标是让似然概率最大化,也就是固定参数的前提之下,数据出现的条件概率最大化。
将频率主义“参数确定,数据随机”的思路应用在机器学习当中,得到的就是统计机器学习。
频率学派认为概率是随机事件发生频率的极限值; 频率学派执行参数估计时,视参数为确定取值,视数据为随机变量;频率学派主要使用最大似然估计法,让数据在给定参数下的似然概率最大化;频率学派对应机器学习中的统计学习,以经验风险最小化作为模型选择的准则。
概率学派
概率表示的是客观上事件的可信程度(degree of belief),也可以说成是主观上主体对事件的信任程度,它是建立在对事件的已有知识基础上的。
对概率的置信度解释之外,贝叶斯学派中的另一个核心内容是贝叶斯定理用来解决“逆向概率问题”

贝叶斯定理的意义正是在于将先验概率和后验概率关联起来,刻画了数据对于知识和信念的影响。将待估计的参数视为随机变量,用来估计的数据反过来是确定的常数,讨论观测数据的概率分布才是没有意义的。
贝叶斯定理大量涉及各种显式变量与隐藏变量的依赖关系,通常用概率图模型来直观地描述。
与频率主义不同的是,贝叶斯学习的输出不是简单的最优估计值 θ^,而是关于参数的概率分布 p(θ),从而给出了更加完整的信息
贝叶斯方法的缺点
1.对未知变量的积分运算会导致极高的计算复杂度
2.对先验分布的设定包含一定的主观性
贝叶斯学派认为概率是事件的可信程度或主体对事件的信任程度; 贝叶斯学派执行参数估计时,视参数为随机变量,视数据为确定取值;贝叶斯学派主要使用最大后验概率法,让参数在先验信息和给定数据下的后验概率最大化;贝叶斯学派对应机器学习中的概率图模型,可以在模型预测和选择中提供更加完整的信息。
