HMM

贝叶斯网络中变量间的关系:
image.png
(a)和(b)其实是一样的当X2被观测到时,X1和X3相互独立,即课堂笔记10 - 图2
(c)是共因关系,当X2未知时,X1和X3是不独立的,当X2已知,X1和X3条件独立
(d)是共果关系,当X2未知时,X1和X3条件独立,当X2已知,X1和X3是不独立的
HMM概率图模型
课堂笔记10 - 图3
HMM是一个产生式模型,可以表示为HMM=(X, Y, π, A, B)。
X是观测值集合假设集合大小为D,Y是状态值集合假大小为K,π是初始时刻,状态变量的分布。
A是状态转移矩阵课堂笔记10 - 图4
B是发射矩阵课堂笔记10 - 图5

评估-求联合概率

对一个观测序列序列课堂笔记10 - 图6
课堂笔记10 - 图7执行课堂笔记10 - 图8次加法,计算量太大了,为了减小计算量可以使用动态规划。
T = 1时
课堂笔记10 - 图9
T=2时
课堂笔记10 - 图10
课堂笔记10 - 图11
课堂笔记10 - 图12
课堂笔记10 - 图13
课堂笔记10 - 图14
同理可得T=3时
课堂笔记10 - 图15
于是得到递推公式课堂笔记10 - 图16
概率视角:
课堂笔记10 - 图17
课堂笔记10 - 图18
课堂笔记10 - 图19
课堂笔记10 - 图20
课堂笔记10 - 图21
以上推导过程叫做前向算法,我们从t=1开始进行合并消除。

如果我们从最后一个时刻t=T开始合并消除,就是后向算法:
课堂笔记10 - 图22
课堂笔记10 - 图23我们合并yT
课堂笔记10 - 图24
课堂笔记10 - 图25
课堂笔记10 - 图26
可以发现若给定T-2时刻状态为i则课堂笔记10 - 图27
可得递推公式:课堂笔记10 - 图28
概率视角:课堂笔记10 - 图29

推理-求状态的后验分布

定义课堂笔记10 - 图30即已知观测序列,则t时刻状态为i的概率。
课堂笔记10 - 图31
课堂笔记10 - 图32
课堂笔记10 - 图33后两项交换
课堂笔记10 - 图34
对分母同样处理,最后得到
课堂笔记10 - 图35
课堂笔记10 - 图36同样的计算过程最终得到
课堂笔记10 - 图37
课堂笔记10 - 图38

学习-求参数

对一个给定观测序列课堂笔记10 - 图39,状态序列课堂笔记10 - 图40是隐状态,求参数课堂笔记10 - 图41
由于模型带有隐变量,所以可以使用EM算法求参数。
E-step: 写出期望
期望就是完备数据的对数似然函数在y的后验分布下的期望即:
课堂笔记10 - 图42
这里课堂笔记10 - 图43是第i次迭代后的参数,是已知量。
课堂笔记10 - 图44
M-step:
课堂笔记10 - 图45
课堂笔记10 - 图46分母是一个常数故可以直接舍去
课堂笔记10 - 图47
课堂笔记10 - 图48
代入得:
课堂笔记10 - 图49
分别对π, A, B求解
π:
课堂笔记10 - 图50
课堂笔记10 - 图51
约束条件为课堂笔记10 - 图52,利用拉格朗日乘子法求解得
课堂笔记10 - 图53
A:
课堂笔记10 - 图54
课堂笔记10 - 图55
约束条件课堂笔记10 - 图56,同样利用拉格朗日乘子法求解得
课堂笔记10 - 图57
B:
课堂笔记10 - 图58
课堂笔记10 - 图59
课堂笔记10 - 图60

无向图模型

无向图模型上的概率分布可以表示为:
课堂笔记10 - 图61E叫做能量函数。
参数学习:
课堂笔记10 - 图62
假设x,y都是离散一维变量,可能的值均为0或1。
课堂笔记10 - 图63
课堂笔记10 - 图64
这里a、b、c、d就是参数
课堂笔记10 - 图65取对数得课堂笔记10 - 图66
课堂笔记10 - 图67