贝叶斯分类器 - 极大似然估计 - 《机器学习笔记》

估计类条件概率的一种常用策略是：先假定该类样本服从某种确定的概率分布形式，然后再基于训练集中的该类样本对假定的概率分布的参数进行估计。比方说假定该类样本服从高斯分布，那么接下来就是利用训练集中该类样本来估计高斯分布的参数——均值和方差。

具体来说，如果类 $极大似然估计 - 图1$ 的样本服从参数为 $极大似然估计 - 图2$ （可能不止一个参数）的分布，那么我们从样本空间抽取到该类的某一个样本 $极大似然估计 - 图3$ 的概率就是 $极大似然估计 - 图4$ #card=math&code=P%28%5Cmathbf%7Bx%7D%5C%20%7C%5C%20%5Ctheta_c%29&id=mdBaZ)。使用 $极大似然估计 - 图5$ 来表示训练集中类 $极大似然估计 - 图6$ 的子集，可以定义数据集 $极大似然估计 - 图7$ 的似然（likelihood）为：

$极大似然估计 - 图8$ %20%3D%20%5Cprod%7B%5Cmathbf%7Bx%7D%20%5Cin%20D_c%7D%20P(%5Cmathbf%7Bx%7D%5C%20%7C%5C%20%5Ctheta_c)%0A#card=math&code=P%28D_c%5C%20%7C%5C%20%5Ctheta_c%29%20%3D%20%5Cprod%7B%5Cmathbf%7Bx%7D%20%5Cin%20D_c%7D%20P%28%5Cmathbf%7Bx%7D%5C%20%7C%5C%20%5Ctheta_c%29%0A&id=sM3Ws)

由于连乘操作容易造成下溢，实际任务中通常使用对数似然（log-likelihood）代替：

$极大似然估计 - 图9$ %20%3D%20%5Clog%20P(Dc%5C%20%7C%5C%20%5Ctheta_c)%20%3D%20%5Csum%7B%5Cmathbf%7Bx%7D%20%5Cin%20Dc%7D%20%5Clog%20P(%5Cmathbf%7Bx%7D%5C%20%7C%5C%20%5Ctheta_c)%0A#card=math&code=LL%28%5Ctheta_c%29%20%3D%20%5Clog%20P%28D_c%5C%20%7C%5C%20%5Ctheta_c%29%20%3D%20%5Csum%7B%5Cmathbf%7Bx%7D%20%5Cin%20D_c%7D%20%5Clog%20P%28%5Cmathbf%7Bx%7D%5C%20%7C%5C%20%5Ctheta_c%29%0A&id=SZQjH)

所谓极大似然估计（Maximum Likelihood Estimation，简称MLE）就是找出令似然最大的参数 $极大似然估计 - 图10$ 。也即从 $极大似然估计 - 图11$ 的所有可能取值中找到一个令所抽取样本出现的可能性最大的值。

求解的过程也很简单，就是求似然函数的导数，令导数为0，得到似然方程，解似然方程得到最优解，也即该类样本分布的参数。

特别地，对于参数估计，频率主义学派（Frequentist）和贝叶斯学派（Bayesian）有不同的见解。前者认为，参数虽然未知，却是客观存在的固定值，因此可以用优化似然函数等准则确定参数值；后者认为，参数是未观测到的随机变量，参数本身也存在分布。所以可以先假定参数服从一个先验分布，然后再根据观测到的数据计算参数的后验分布。这一节讨论的极大似然估计方法源于频率主义学派。

尽管极大似然估计能使我们求取类条件概率的过程变得相对简单，但它有最大的一个缺点就是：估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。在实际任务中，我们需要利用任务所属领域的一些经验知识，全凭猜测是很容易产生误导性结果的。