贝叶斯方法 - 《狗屁算法》

5.1 贝叶斯垃圾邮件过滤器

P(h | D) = P(h) * P(D | h) / P(D)

分词问题的描述为：给定一个句子（字串），如：
南京市长江大桥

如何对这个句子进行分词（词串）才是最靠谱的。例如：

南京市/长江大桥
南京/市长/江大桥

这两个分词，到底哪个更靠谱呢？

我们用贝叶斯公式来形式化地描述这个问题，令 X 为字串（句子），Y 为词串（一种特定的分词假设）。我们就是需要寻找使得 P(Y|X) 最大的 Y ，使用一次贝叶斯可得：

P(Y|X) ∝ P(Y)*P(X|Y)

用自然语言来说就是这种分词方式（词串）的可能性乘以这个词串生成我们的句子的可能性。我们进一步容易看到：可以近似地将 P(X|Y) 看作是恒等于 1 的，因为任意假想的一种分词方式之下生成我们的句子总是精准地生成的（只需把分词之间的分界符号扔掉即可）。于是，我们就变成了去最大化 P(Y) ，也就是寻找一种分词使得这个词串（句子）的概率最大化。而如何计算一个词串：

5.1 贝叶斯垃圾邮件过滤器

罗志祥是不是渣男的概率 P(h)
爆料的概率 P(D)

P(h) 先验概率，单纯凭借你对罗志祥的了解来判断他是不是渣男的概率大概是五五开
P(D | h)最大似然率罗志祥是渣男的情况下周扬青爆料的概率，根据逻辑判断这个概率是很高的
P(D) 爆料的概率大概也是五五开
以上结果导致 P(h | D) 也就是爆料了的情况下罗志祥是渣男的概率很高，如果你对罗志祥很了解，那么你的先验概率影响很大，如果你对他不了解，逻辑判断的最大似然率影响很大