HMM

贝叶斯网络中变量间的关系：

（a）和（b）其实是一样的当X2被观测到时，X1和X3相互独立，即课堂笔记10 - 图2
（c）是共因关系，当X2未知时，X1和X3是不独立的，当X2已知，X1和X3条件独立
（d）是共果关系，当X2未知时，X1和X3条件独立，当X2已知，X1和X3是不独立的
HMM概率图模型
课堂笔记10 - 图3
HMM是一个产生式模型，可以表示为HMM=(X, Y, π, A, B)。
X是观测值集合假设集合大小为D，Y是状态值集合假大小为K，π是初始时刻，状态变量的分布。
A是状态转移矩阵课堂笔记10 - 图4
B是发射矩阵课堂笔记10 - 图5

评估-求联合概率

对一个观测序列序列课堂笔记10 - 图6
课堂笔记10 - 图7 执行课堂笔记10 - 图8 次加法，计算量太大了，为了减小计算量可以使用动态规划。
T = 1时
课堂笔记10 - 图9
T=2时
课堂笔记10 - 图10
课堂笔记10 - 图11
课堂笔记10 - 图12
课堂笔记10 - 图13
课堂笔记10 - 图14
同理可得T=3时
课堂笔记10 - 图15
于是得到递推公式课堂笔记10 - 图16
概率视角：
课堂笔记10 - 图17
课堂笔记10 - 图18
课堂笔记10 - 图19
课堂笔记10 - 图20
课堂笔记10 - 图21
以上推导过程叫做前向算法，我们从t=1开始进行合并消除。

如果我们从最后一个时刻t=T开始合并消除，就是后向算法：
课堂笔记10 - 图22
课堂笔记10 - 图23 我们合并yT
课堂笔记10 - 图24
课堂笔记10 - 图25
课堂笔记10 - 图26
可以发现若给定T-2时刻状态为i则课堂笔记10 - 图27
可得递推公式：课堂笔记10 - 图28
概率视角：课堂笔记10 - 图29

推理-求状态的后验分布

定义课堂笔记10 - 图30 即已知观测序列，则t时刻状态为i的概率。
课堂笔记10 - 图31
课堂笔记10 - 图32
课堂笔记10 - 图33 后两项交换
课堂笔记10 - 图34
对分母同样处理，最后得到
课堂笔记10 - 图35
对课堂笔记10 - 图36 同样的计算过程最终得到
课堂笔记10 - 图37
课堂笔记10 - 图38

学习-求参数

对一个给定观测序列课堂笔记10 - 图39 ，状态序列课堂笔记10 - 图40 是隐状态,求参数课堂笔记10 - 图41
由于模型带有隐变量，所以可以使用EM算法求参数。
E-step: 写出期望
期望就是完备数据的对数似然函数在y的后验分布下的期望即：
课堂笔记10 - 图42
这里课堂笔记10 - 图43 是第i次迭代后的参数，是已知量。
课堂笔记10 - 图44
M-step:
课堂笔记10 - 图45
课堂笔记10 - 图46 分母是一个常数故可以直接舍去
课堂笔记10 - 图47
课堂笔记10 - 图48
代入得：
课堂笔记10 - 图49
分别对π, A, B求解
π：
课堂笔记10 - 图50
课堂笔记10 - 图51
约束条件为课堂笔记10 - 图52 ,利用拉格朗日乘子法求解得
课堂笔记10 - 图53
A：
课堂笔记10 - 图54
课堂笔记10 - 图55
约束条件课堂笔记10 - 图56 ，同样利用拉格朗日乘子法求解得
课堂笔记10 - 图57
B:
课堂笔记10 - 图58
课堂笔记10 - 图59
课堂笔记10 - 图60

无向图模型

无向图模型上的概率分布可以表示为：
课堂笔记10 - 图61 E叫做能量函数。
参数学习：
课堂笔记10 - 图62
假设x，y都是离散一维变量，可能的值均为0或1。
课堂笔记10 - 图63
课堂笔记10 - 图64
这里a、b、c、d就是参数
课堂笔记10 - 图65 取对数得课堂笔记10 - 图66
课堂笔记10 - 图67