序列模型

这里x是隐状态,y是观察到的结果,x和y都可能是离散的或连续的。

利用MLE得
但模型中是存在隐变量的,我们不知道样本对应的标签,无法知道其来自哪个分布,利用x的边缘概率分布公式可得:
假设标签是离散的,可能的结果有K种则上式变为
如果将上式代入到MLE表达式中,是无法直接求出参数θ的。
根据Jensen不等式:若函数f(x)是凹函数,则,当且仅当X时常量时,等号成立。
对我们这个模型来说是凹函数,为了凑出期望E[X],我们引入一个关于隐变量的分布
综上可得:
是随机变量Z的函数,对应于Jensen不等式中的X。
- 通过上面的过程就获得了对数似然函数的下界②式,对给定参数θ,②式的值由
决定,我们可以通过调整这两个概率值使得等号成立,那么我们就可以直接最大化②式来求解参数。
- 对给定参数θ,要使等号成立,需要
,则
,又已知
,则
。因此
在给定参数下,这就是隐变量Z的后验分布。
- 我们要最大化②式来求参数θ,等价于
有了以上分析我们就得到了EM算法:
- 初始化模型参数θ为
- 循环执行E-step和M-step:
- E-step:
计算后验概率分布
计算 - M-step:
计算
- E-step:
