一、概述

假设有如下数据：

:observed data :unobserved data(latent variable) :complete data :parameter

EM算法的目的是解决具有隐变量的参数估计（MLE、MAP）问题。EM算法是一种迭代更新的算法，其计算公式为：

这个公式包含了迭代的两步：
①E step：计算 EM算法(含隐变量的参数估计) - 图6 在概率分布 EM算法(含隐变量的参数估计) - 图7 下的期望
②S step：计算使这个期望最大化的参数得到下一个EM步骤的输入

二、EM的算法收敛性

现在要证明迭代求得的 EM算法(含隐变量的参数估计) - 图9 序列会使得对应的 EM算法(含隐变量的参数估计) - 图10 是单调递增的，也就是说要证明 EM算法(含隐变量的参数估计) - 图11 。首先我们有：

接下来等式两边同时求关于 EM算法(含隐变量的参数估计) - 图13 的期望：

这里我们定义了 EM算法(含隐变量的参数估计) - 图15 ，称为Q函数（Q function），这个函数也就是上面的概述中迭代公式里用到的函数，因此满足 EM算法(含隐变量的参数估计) - 图16 。
接下来将上面的等式两边 EM算法(含隐变量的参数估计) - 图17 分别取 EM算法(含隐变量的参数估计) - 图18 和 EM算法(含隐变量的参数估计) - 图19 并相减：

我们需要证明 EM算法(含隐变量的参数估计) - 图21 ，同时已知 EM算法(含隐变量的参数估计) - 图22 ，现在来观察 EM算法(含隐变量的参数估计) - 图23 ：

因此得证 EM算法(含隐变量的参数估计) - 图25 。这说明使用EM算法迭代更新参数可以使得 EM算法(含隐变量的参数估计) - 图26 逐步增大。
另外还有其他定理保证了EM的算法收敛性。首先对于 EM算法(含隐变量的参数估计) - 图27 序列和其对应的对数似然序列 EM算法(含隐变量的参数估计) - 图28 有如下定理：
①如果 EM算法(含隐变量的参数估计) - 图29 有上界，则 EM算法(含隐变量的参数估计) - 图30 收敛到某一值 EM算法(含隐变量的参数估计) - 图31 ；
②在函数 EM算法(含隐变量的参数估计) - 图32 与 EM算法(含隐变量的参数估计) - 图33 满足一定条件下，由EM算法得到的参数估计序列 EM算法(含隐变量的参数估计) - 图34 的收敛值 EM算法(含隐变量的参数估计) - 图35 是 EM算法(含隐变量的参数估计) - 图36 的稳定点。

三、EM的算法的导出

ELBO+KL散度的方法

因此我们得出 EM算法(含隐变量的参数估计) - 图38 ，由于KL散度恒 EM算法(含隐变量的参数估计) - 图39 ，因此 EM算法(含隐变量的参数估计) - 图40 ，则 EM算法(含隐变量的参数估计) - 图41 就是似然函数 EM算法(含隐变量的参数估计) - 图42 的下界。
使得 EM算法(含隐变量的参数估计) - 图43 时，就必须有 EM算法(含隐变量的参数估计) - 图44 ，也就是 EM算法(含隐变量的参数估计) - 图45 时。
在每次迭代中我们取 EM算法(含隐变量的参数估计) - 图46 ，就可以保证 EM算法(含隐变量的参数估计) - 图47 与 EM算法(含隐变量的参数估计) - 图48 相等，也就是：

也就是说 EM算法(含隐变量的参数估计) - 图50 与 EM算法(含隐变量的参数估计) - 图51 都是关于 EM算法(含隐变量的参数估计) - 图52 的函数，且满足 EM算法(含隐变量的参数估计) - 图53 ，也就是说 EM算法(含隐变量的参数估计) - 图54 的图像总是在 EM算法(含隐变量的参数估计) - 图55 的图像的上面。对于 EM算法(含隐变量的参数估计) - 图56 ，我们取 EM算法(含隐变量的参数估计) - 图57 ，这也就保证了只有在 EM算法(含隐变量的参数估计) - 图58 时 EM算法(含隐变量的参数估计) - 图59 与 EM算法(含隐变量的参数估计) - 图60 才会相等，因此使 EM算法(含隐变量的参数估计) - 图61 取极大值的 EM算法(含隐变量的参数估计) - 图62 一定能使得 EM算法(含隐变量的参数估计) - 图63 。该过程如下图所示：

ELBO
然后我们观察一下 EM算法(含隐变量的参数估计) - 图65 取极大值的过程：

由此我们就导出了EM算法的迭代公式。

ELBO+Jensen不等式的方法

首先要具体介绍一下Jensen不等式：对于一个凹函数 EM算法(含隐变量的参数估计) - 图67 （国内外对凹凸函数的定义恰好相反，这里的凹函数指的是国外定义的凹函数），我们查看其图像如下：

Jensen不等式

接下来应用Jensen不等式来导出EM算法：

这里应用了Jensen不等式得到了上面出现过的 EM算法(含隐变量的参数估计) - 图71 ，这里的 EM算法(含隐变量的参数估计) - 图72 函数也就是 EM算法(含隐变量的参数估计) - 图73 函数，显然这是一个凹函数。当 EM算法(含隐变量的参数估计) - 图74 这个函数是一个常数时会取得等号：

这种方法到这里就和上面的方法一样了，总结来说就是：

参考：
博客1
博客2
机器学习——聚类