故事是小哥去公园。公交方式是因贝叶斯、似然、先验、后验 - 图1,到公园用的时间是果贝叶斯、似然、先验、后验 - 图2

知因求果是似然概率:
贝叶斯、似然、先验、后验 - 图3

知果求因是后验概率:
贝叶斯、似然、先验、后验 - 图4

由历史求因是先验概率:(此时选择交通方式不再和到公园用的时间有关,我们在结果x发生之前就开始猜,根据小哥的生活习惯,比如爱不爱运动、是不是喜欢开车这些)
贝叶斯、似然、先验、后验 - 图5

贝叶斯法则:
贝叶斯、似然、先验、后验 - 图6
贝叶斯、似然、先验、后验 - 图7
P(x)即evidence。小哥去公园很多次,不考虑交通方式是什么,只统计每次到达公园的时间x,于是得到了一组时间的概率分布。这种不考虑原因,只看结果的概率分布即evidence,它也称为样本发生的概率分布的证据

最大似然估计估计(MLE,maximum likelihood estimation):
贝叶斯、似然、先验、后验 - 图8

最大后验估计(MAP,maxaposterior):
贝叶斯、似然、先验、后验 - 图9
因为给定样本x后,贝叶斯、似然、先验、后验 - 图10贝叶斯、似然、先验、后验 - 图11空间上为一个定值,和贝叶斯、似然、先验、后验 - 图12的大小没有关系,所以可以忽略坟墓evidence,从而最大后验概率化简为:
贝叶斯、似然、先验、后验 - 图13
即:
贝叶斯、似然、先验、后验 - 图14
后验概率 正比于 似然函数 * 先验概率

概率密度和概率分布

如果对于随机变量X的分布函数F(x),存在一个非负可积函数f(x),使得对任意实数x,都有:
贝叶斯、似然、先验、后验 - 图15
其中f(x)称为X的概率密度,F(x)称为概率分布。

概率密度函数(密度函数)是描述一个随机变量在某个确定的值点附近的可能性的函数。
随机变量落在某个区域之内的概率就是概率密度函数在这个区域上的积分。
分布函数就是概率密度函数的积分。