概率图模型 - 条件随机场 - 《人工智能》

条件随机场
链式条件随机场
条件随机场运行过程">条件随机场运行过程
Source

条件随机场

条件随机场(Conditional Random Field, CRF)是一种判别式无向图模型。生成式模型是直接对联合分布建模，而判别式模型则是对条件分布进行建模。条件随机场是给定随机变量条件随机场 - 图1 条件下，随机变量条件随机场 - 图2 的马尔可夫随机场。

设条件随机场 - 图3 与条件随机场 - 图4 是随机变量，条件随机场 - 图5 是在给条件随机场 - 图6 的条件下条件随机场 - 图7 的条件概率分布。若随机变量条件随机场 - 图8 构成一个无向图条件随机场 - 图9 表示的马尔可夫随机场，即

条件随机场 - 图10

对任意结点条件随机场 - 图11 成立，则称条件概率分布条件随机场 - 图12 为条件随机场。式中条件随机场 - 图13 表示在图条件随机场 - 图14 中与结点条件随机场 - 图15 有边连接的所有结点条件随机场 - 图16 ，条件随机场 - 图17 表示结点条件随机场 - 图18 以外所有结点，条件随机场 - 图19 为结点条件随机场 - 图20 对应的随机变量。

链式条件随机场

这里主要介绍定义在线性链上的特殊的条件随机场，称为线性链条件随机场(Linear Chain Conditional Random Field)。线性链条件随机场可以用于标注问题。这时，在条件随机概率模型条件随机场 - 图21 中，条件随机场 - 图22 是输出变量，表示标记序列，条件随机场 - 图23 是输入变量，表示需要标注的观测序列。也把标记序列称为状态序列。学习时，利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型条件随机场 - 图24 ；预测时，对于给定的输入序列条件随机场 - 图25 ，求出条件概率条件随机场 - 图26 最大的输出序列条件随机场 - 图27 。

条件随机场1.png

设条件随机场 - 图29 ，条件随机场 - 图30 均为线性链表示的随机变量序列，若在给定随机变量序列条件随机场 - 图31 的条件下，随机变量序列条件随机场 - 图32 的条件概率分布条件随机场 - 图33 构成条件随机场，即满足马尔可夫性

条件随机场 - 图34 ，条件随机场 - 图35 (在i=1和n时只考虑单边)

则称条件随机场 - 图36 为线性链条件随机场。在标注问题中，条件随机场 - 图37 表示输入观测序列，条件随机场 - 图38 表示对应的输出标记序列或状态序列。

条件随机场2.png

条件随机场运行过程

请看第一张概率图模型构架图，CRF上面是马尔科夫随机场（马尔科夫网络），而条件随机场是在给定的随机变量条件随机场 - 图40 （具体，对应观测序列条件随机场 - 图41 ）条件下，随机变量条件随机场 - 图42 （具体，对应隐状态序列条件随机场 - 图43 的马尔科夫随机场。
广义的CRF的定义是：满足条件随机场 - 图44 的马尔科夫随机场叫做条件随机场。不过一般说CRF为序列建模，就专指CRF线性链（linear chain CRF）：

概率无向图的联合概率分布可以在因子分解下表示为：

条件随机场 - 图46

而在线性链CRF示意图中，每一个（条件随机场 - 图47 ）对为一个最大团,即在上式中条件随机场 - 图48 。并且线性链CRF满足条件随机场 - 图49 。

所以CRF的建模公式如下：

条件随机场 - 图50

我要敲黑板了，这个公式是非常非常关键的，注意递推过程啊，是怎么从条件随机场 - 图51 跳到条件随机场 - 图52 的

不过还是要多啰嗦一句，想要理解CRF，必须判别式模型的概念要深入你心。正因为是判别模型，所以不废话，我上来就直接为了确定边界而去建模，因为我创造出来就是为了这个分边界的目的的。比如说序列求概率（分类）问题，我直接考虑找出函数分类边界。所以才为什么会有这个公式。所以再看到这个公式也别懵逼了，he was born for discriminating the given data from different classes. 就这样。不过待会还会具体介绍特征函数部分的东西。除了建模总公式，关键的CRF重点概念在MEMM中已强调过：判别式模型、特征函数。

特征函数

上面给出了CRF的建模公式：

条件随机场 - 图53

下标i表示我当前所在的节点（token）位置。
下标k表示我这是第几个特征函数，并且每个特征函数都附属一个权重，也就是这么回事，每个团里面，我将为构造M个特征，每个特征执行一定的限定作用，然后建模时我再为每个特征函数加权求和。
是用来归一化的，为什么？想想LR以及softmax为何有归一化呢，一样的嘛，形成概率值。
再来个重要的理解。这个表示什么？具体地，表示了在给定的一条观测序列条件下，我用CRF所求出来的隐状态序列的概率，注意，这里的I是一条序列，有多个元素（一组随机变量），而至于观测序列，它可以是一整个训练语料的所有的观测序列；也可以是在inference阶段的一句sample，比如说对于序列标注问题，我对一条sample进行预测，可能能得到，即条隐状态，但我肯定最终选的是最优概率的那条（by viterbi）。这一点希望你能理解。