序列模型

第8次课堂笔记 - 图1
这里x是隐状态,y是观察到的结果,x和y都可能是离散的或连续的。

  • 若隐状态都是离散的,就是隐马尔科夫模型
  • 在语音识别领域,观测状态是连续的,所以通常使用高斯混合模型建模
  • 隐状态之间是连续的,就是卡尔曼滤波

    EM算法

  • Data 第8次课堂笔记 - 图2,假设标签y的数据丢失了,则y成了隐变量。且样本之间独立同分布

  • Model :

image.png
利用MLE得第8次课堂笔记 - 图4
但模型中是存在隐变量的,我们不知道样本第8次课堂笔记 - 图5对应的标签,无法知道其来自哪个分布,利用x的边缘概率分布公式可得:
第8次课堂笔记 - 图6
假设标签是离散的,可能的结果有K种则上式变为第8次课堂笔记 - 图7
如果将上式代入到MLE表达式中,是无法直接求出参数θ的。

根据Jensen不等式:若函数f(x)是凹函数,则第8次课堂笔记 - 图8当且仅当X时常量时,等号成立
对我们这个模型来说第8次课堂笔记 - 图9是凹函数,为了凑出期望E[X],我们引入一个关于隐变量的分布第8次课堂笔记 - 图10
综上可得:
第8次课堂笔记 - 图11

  • 第8次课堂笔记 - 图12是随机变量Z的函数,对应于Jensen不等式中的X。
  • 通过上面的过程就获得了对数似然函数的下界②式,对给定参数θ,②式的值由第8次课堂笔记 - 图13决定,我们可以通过调整这两个概率值使得等号成立,那么我们就可以直接最大化②式来求解参数。
  • 对给定参数θ,要使等号成立,需要第8次课堂笔记 - 图14,则第8次课堂笔记 - 图15,又已知第8次课堂笔记 - 图16,则第8次课堂笔记 - 图17。因此第8次课堂笔记 - 图18在给定参数下,这就是隐变量Z的后验分布。
  • 我们要最大化②式来求参数θ,等价于第8次课堂笔记 - 图19

有了以上分析我们就得到了EM算法:

  1. 初始化模型参数θ为第8次课堂笔记 - 图20
  2. 循环执行E-step和M-step:
    1. E-step:
      计算后验概率分布第8次课堂笔记 - 图21
      计算 第8次课堂笔记 - 图22
    2. M-step:
      计算第8次课堂笔记 - 图23
  3. 第8次课堂笔记 - 图24