Bayesian Learning

伯努利分布 第七次课堂笔记 - 图1
抛骰子:
第七次课堂笔记 - 图2第七次课堂笔记 - 图3
概率可以表示为第七次课堂笔记 - 图4
假设已有数据集第七次课堂笔记 - 图5,模型是骰子模型,则θ就是参数

  • learning:D ——> θ
    第七次课堂笔记 - 图6
    第七次课堂笔记 - 图7这里nk叫做充分统计量。
    上面的式子就是数据集的似然函数,利用MLE和拉格朗日数乘法来求解参数θ得第七次课堂笔记 - 图8
    如果要求后验分布第七次课堂笔记 - 图9需要给参数一个先验分布,一般我们假设θ服从狄利克雷分布。
  • Inference:θ, x ——> y

    文本分类

    通常我们先汇总数据集中全部文档的词,形成一个词表,且其中各个词之间相互独立。
    第七次课堂笔记 - 图10 这里每一行代表一个文档,第七次课堂笔记 - 图11可以表示词表中第j个词在文档中出现的次数。

这里我们也可以令第七次课堂笔记 - 图12i篇文档中第j个词是在词表中的索引。这里我们假设词表大小为V,则第七次课堂笔记 - 图13
文档具有分类标签我们假设第七次课堂笔记 - 图14
则根据上面的公式第七次课堂笔记 - 图15,整个模型参数个数为(K-1) + K(V-1)

MLE

我们可以利用MLE进行求解,这里的充分统计量是:

  • 第七次课堂笔记 - 图16表示数据集中第k类文档的数量
  • 第七次课堂笔记 - 图17表示在第k类文档中,词表中第v个词出现的次数

解得:

  • 第七次课堂笔记 - 图18
  • 第七次课堂笔记 - 图19这里如果分子为0,那么参数也等于0,但这可能违背了真实情况。这可以利用平滑进行改进,比如+1平滑,保证分子至少为1.

这里如果我们给参数也加上先验分布,且标签y变成隐变量,那么MLE就没法求解了,需要利用EM求解。

伯努利混合模型(Bernoulli Mixture Model)

先看一个盒子摸球例子:

  • A盒子:黑8红2
  • B盒子:黑3红7

第七次课堂笔记 - 图20
第七次课堂笔记 - 图21
同理如果有两枚硬币A和B,每次选择一枚硬币抛掷,其概率为第七次课堂笔记 - 图22,硬币正面朝上概率分别为:
第七次课堂笔记 - 图23
如果我们已知抛掷的结果是正面朝上,我们可以利用上面盒子例子的公式求来自硬币A或B的概率。
对给定数据集第七次课堂笔记 - 图24,这里我们只有观测结果正面还是反面朝上,标签y(y=A/B)是隐变量,概率图可以表示为
image.png
第七次课堂笔记 - 图26
第七次课堂笔记 - 图27
对数似然函数第七次课堂笔记 - 图28

EM算法

这里由于对数内是一个概率求和,使得利用导数难以求解MLE。
我们引入一个第七次课堂笔记 - 图29,k的值是标签y的可能取值,在这个例子中是0、1。第七次课堂笔记 - 图30
则似然函数可以写成第七次课堂笔记 - 图31
转换成了对随机变量Yi的函数求期望,由期望的性质第七次课堂笔记 - 图32
第七次课堂笔记 - 图33
等号成立条件第七次课堂笔记 - 图34如果我们能知道θ就能计算此后验概率。
随后还需要对θ进行迭代计算。