1. ELBO

给定一组观测数组第9次课堂笔记 - 图1模型参数为θ,假设对应隐藏数据为第9次课堂笔记 - 图2
利用EM算法求解参数

  • E-step:求期望
    对每个样本计算隐变量的后验分布第9次课堂笔记 - 图3,再求期望 第9次课堂笔记 - 图4
    第9次课堂笔记 - 图5
  • M-step: 最大化Q
    第9次课堂笔记 - 图6

对于混合高斯,混合伯努利这种模型,隐变量的后验分布还比较好计算。若是后验分布非常复杂,我们通常就采样近似的方法:我们用一个更简单的分布q(Z)代替后验分布。

KL散度:衡量两个分布的距离

公式:第9次课堂笔记 - 图7
第9次课堂笔记 - 图8代入上式得第9次课堂笔记 - 图9
移项使得等式左边仅保留X得:
第9次课堂笔记 - 图10后面的一项我们叫做ELBO

2. 序列化模型

隐马尔可夫模型
image.png
y是状态,x是观测值。状态之间存在先后序列关系,t 时刻的状态只与 t-1 时刻的状态有关,t时刻的观测值只与当前时刻的状态有关。为了方便说明,我们假设xy都是可列的离散值。
状态之间的转换可以用一个状态转移矩阵表示,我们将状态转移矩阵记为A
两个相邻时刻状态的变换可以用条件概率表示
第9次课堂笔记 - 图12第9次课堂笔记 - 图13
每种状态观测值的条件概率组成的矩阵叫做发射矩阵记为B,第9次课堂笔记 - 图14
初始概率分布第9次课堂笔记 - 图15: 表示初始化时每种状态被选择的概率 第9次课堂笔记 - 图16
MLE计算参数
数据集第9次课堂笔记 - 图17
对于一个序列对第9次课堂笔记 - 图18分别是T个时刻的状态序列和对应的观测值序列。
联合概率为第9次课堂笔记 - 图19
则整个数据集的对数似然函数:
第9次课堂笔记 - 图20
利用拉格朗日数乘法求得使上式最大化的参数。
第9次课堂笔记 - 图21