概率学派

概率学派的意思就是一件事情发生的概率是不可以被改变的,虽然有的事情发生的概率我们可能不知道,但它是个定值。比如那个经典的游戏:三门问题。
参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车,选中后面有车的那扇门可赢得该汽车,另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门,但未去开启它的时候,节目主持人开启剩下两扇门的其中一扇,露出其中一只山羊。主持人其后会问参赛者要不要换另一扇仍然关上的门。问题是:换另一扇门会否增加参赛者赢得汽车的机率?
如果纯从概率的角度来说,先不管主持人开不开门,我们随机选一扇门那么后面是汽车的概率是1/3。但是随着主任打开一扇门之后,我们换不换门对于我们获奖的概率会有印象吗?答案是肯定的。

贝叶斯学派

回到刚才的那个三门问题,在那个问题中主持人是知道哪扇门背后是有汽车的,所以他会打开另一扇背后有羊的门,那么此时换不换门显然会影响我们获奖的概率。
image.png
贝叶斯最主要的问题就是要解决一个叫做“逆向概率”的问题,

什么是逆向概率呢?

所谓“逆向概率”是相对“正向概率”而言。正向概率的问题很容易理解,比如我们已经知道袋子里面有 N 个球,不是黑球就是白球,其中 M 个是黑球,那么把手伸进去摸一个球,就能知道摸出黑球的概率是多少。但这种情况往往是上帝视角,即了解了事情的全貌再做判断。
在现实生活中,我们很难知道事情的全貌。贝叶斯则从实际场景出发,提了一个问题:如果我们事先不知道袋子里面黑球和白球的比例,而是通过我们摸出来的球的颜色,能判断出袋子里面黑白球的比例么?
正是这样的一个问题,影响了接下来近 200 年的统计学理论。这是因为,贝叶斯原理与其他统计学推断方法截然不同,它是建立在主观判断的基础上:在我们不了解所有客观事实的情况下,同样可以先估计一个值,然后根据实际结果不断进行修正。


贝叶斯学派的思想可以概括为先验概率+数据=后验概率。也就是说我们在实际问题中需要得到的后验概率,可以通过先验概率和数据一起综合得到。数据大家好理解,被频率学派攻击的是先验概率,一般来说先验概率就是我们对于数据所在领域的历史经验,但是这个经验常常难以量化或者模型化,于是贝叶斯学派大胆的假设先验分布的模型,比如正态分布,beta分布等。这个假设一般没有特定的依据,因此一直被频率学派认为很荒谬。虽然难以从严密的数学逻辑里推出贝叶斯学派的逻辑,但是在很多实际应用中,贝叶斯理论很好用,比如垃圾邮件分类,文本分类。

概率与贝叶斯的区别

频率派把需要推断的参数概率与贝叶斯 - 图2看做是固定的未知常数,即概率概率与贝叶斯 - 图3虽然是未知的,但最起码是确定的一个值,同时,样本概率与贝叶斯 - 图4是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本概率与贝叶斯 - 图5的分布。
而贝叶斯派的观点则截然相反,他们认为参数概率与贝叶斯 - 图6是随机变量,而样本概率与贝叶斯 - 图7是固定的,由于样本是固定的,所以他们重点研究的是参数概率与贝叶斯 - 图8的分布。