机器学习 - 《机器学习基础》

机器学习是通过计算的手段利用经验（数据的形式）来改善系统自身性能的学科
两大流派
频率学派发展出的机器学习理论 ——统计学习，核心数据，基础模型线性回归
贝叶斯学派发展出的机器学习理论——符号学习，概率图模型
频率统计学派
在频率学派眼中，当重复试验的次数趋近于无穷大时，事件发生的频率会收敛到真实的概率之上
频率统计理论的核心在于认定待估计的参数是固定不变的常量，讨论参数的概率分布是没有意义的；而用来估计参数的数据是随机的变量，每个数据都是参数支配下一次独立重复试验的结果。由于参数本身是确定的，那频率的波动就并非来源于参数本身的不确定性，而是由有限次观察造成的干扰而导致。
统计学的核⼼任务之一是根据从总体中抽取出的样本，也就是数据来估计未知的总体参数。参数的最优估计可以通过样本数据的分布，也就是采样分布（sampling distribution）来求解，由于频率统计将数据看作随机变量，所以计算采样分布是没有问题的。确定采样分布之后，参数估计可以等效成一个最优化的问题，而频率统计最常使用的最优化方法，就是最大似然估计（maximum likelihood estimation）其目标是让似然概率最大化，也就是固定参数的前提之下，数据出现的条件概率最大化。
将频率主义“参数确定，数据随机”的思路应用在机器学习当中，得到的就是统计机器学习。
频率学派认为概率是随机事件发生频率的极限值；频率学派执行参数估计时，视参数为确定取值，视数据为随机变量；频率学派主要使用最大似然估计法，让数据在给定参数下的似然概率最大化；频率学派对应机器学习中的统计学习，以经验风险最小化作为模型选择的准则。
概率学派
概率表示的是客观上事件的可信程度（degree of belief），也可以说成是主观上主体对事件的信任程度，它是建立在对事件的已有知识基础上的。
对概率的置信度解释之外，贝叶斯学派中的另一个核心内容是贝叶斯定理用来解决“逆向概率问题”

贝叶斯定理的意义正是在于将先验概率和后验概率关联起来，刻画了数据对于知识和信念的影响。将待估计的参数视为随机变量，用来估计的数据反过来是确定的常数，讨论观测数据的概率分布才是没有意义的。
贝叶斯定理大量涉及各种显式变量与隐藏变量的依赖关系，通常用概率图模型来直观地描述。
与频率主义不同的是，贝叶斯学习的输出不是简单的最优估计值 θ^，而是关于参数的概率分布 p(θ)，从而给出了更加完整的信息
贝叶斯方法的缺点
1.对未知变量的积分运算会导致极高的计算复杂度
2.对先验分布的设定包含一定的主观性
贝叶斯学派认为概率是事件的可信程度或主体对事件的信任程度；贝叶斯学派执行参数估计时，视参数为随机变量，视数据为确定取值；贝叶斯学派主要使用最大后验概率法，让参数在先验信息和给定数据下的后验概率最大化；贝叶斯学派对应机器学习中的概率图模型，可以在模型预测和选择中提供更加完整的信息。