概率分布联系.png

PDF vs. PMF vs. CDF

PDF(Probability Density Function)

如果概率分布 - 图2是一元连续性随机变量,那么可以定义他的概率密度函数(probability density function, PDF)概率分布 - 图3,有时简称为密度函数。我们用PDF在某一区间上的积分来刻画随机变量落在这个区间中的概率,即

概率分布 - 图4

PMF(Probability Mass Function)

如果概率分布 - 图5是一元离散性随机变量,那么可以定义它的概率质量函数(probability mass function, PMF)概率分布 - 图6。与连续型随机变量不同,这里的PMF其实就是高中所学的离散型随机变量的分布律,即

概率分布 - 图7

比如对于掷一枚均匀硬币,如果正面令概率分布 - 图8,如果反面令概率分布 - 图9。则在状态空间概率分布 - 图10(这是一个伯努利(Bernoulli)随机变量)中,概率分布 - 图11的概率是概率分布 - 图12。那么它的PMF就是

概率分布 - 图13

CDF(Cumulative Distribution Function)

不管概率分布 - 图14是什么类型(连续/离散/其他)的随机变量,都可以定义它的累积分布函数(cumulative distribution function ,CDF)概率分布 - 图15,有时简称为分布函数。CDF的定义是

概率分布 - 图16

对于连续型随机变量,那么CDF就是PDF的积分,PDF就是CDF的导数

概率分布 - 图17

对于离散型随机变量,其CDF是阶梯状的分段函数,比如举例中的掷硬币随机变量,它的CDF如下

概率分布 - 图18


概率分布

伯努利分布(Bernoulli)

伯努利分布是关于布尔变量概率分布 - 图19的概率分布,其连续参数概率分布 - 图20表示变量概率分布 - 图21的概率

概率分布 - 图22

概率分布 - 图23

二项分布(Binomial)

二项分布就是重复概率分布 - 图24次独立的伯努利试验,即当概率分布 - 图25时,二项分布退化为伯努利分布。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变。

一枚硬币扔概率分布 - 图26次,扔出正面概率为概率分布 - 图27,得到概率分布 - 图28次正面的概率:

概率分布 - 图29

二项分布.png

概率分布 - 图31非常大且概率分布 - 图32固定时,我们就得到概率分布 - 图33概率分布 - 图34的正态分布

泊松分布(Poisson)

概率分布 - 图35非常大且概率分布 - 图36很小时,我们就得到泊松分布。泊松分布可作为二项分布的近似,通常当概率分布 - 图37概率分布 - 图38时,就可以用泊松公式近似得计算:

由二项分布:

概率分布 - 图39

概率分布 - 图40时(自然底数e介绍):

概率分布 - 图41概率分布 - 图42

所以,代入上式:

概率分布 - 图43

多项分布(Multinomial)

二项分布的典型例子是扔硬币,硬币正面朝上概率概率分布 - 图44, 重复扔概率分布 - 图45次硬币,概率分布 - 图46次为正面的概率即为一个二项分布概率。把二项分布推广至多种状态如掷骰子(6种状态),就可得多项分布。由二项分布概率分布 - 图47,第一部分概率分布 - 图48即表示扔概率分布 - 图49次硬币正面朝上概率分布 - 图50次有多少种组合,第二部分概率分布 - 图51即扔概率分布 - 图52次正面概率概率分布 - 图53次背面概率。推广到多项式如下:

设我们现在有概率分布 - 图54个相同箱子,每个箱子都含概率分布 - 图55个标记为概率分布 - 图56的小球,每次从一个箱子里取出一个小球,概率分布 - 图57表示取出标记为概率分布 - 图58小球的个数,显然概率分布 - 图59(一个箱子取一个球,取出的球总数和箱子数一致)。我们取出概率分布 - 图60概率分布 - 图61概率分布 - 图62概率分布 - 图63概率分布 - 图64概率分布 - 图65有多少种取法呢?即下式:

概率分布 - 图66 (每拿概率分布 - 图67个球就表示少了概率分布 - 图68个可拿球箱子)
概率分布 - 图69
概率分布 - 图70 (又概率分布 - 图71)
概率分布 - 图72

这里概率分布 - 图73即多项分布第一部分(表示取出概率分布 - 图74概率分布 - 图75概率分布 - 图76概率分布 - 图77概率分布 - 图78概率分布 - 图79有多少种取法),第二部分显然就是他们的概率与次数作为次方概率分布 - 图80的累乘,即如下公式:

概率分布 - 图81

概率分布 - 图82

伽玛分布(Gamma)

概率分布 - 图83函数,也叫做伽玛函数(Gamma函数),是阶乘函数在实数与复数域上的扩展。如果概率分布 - 图84为正整数,则:

概率分布 - 图85

对于实数部分为正的复数概率分布 - 图86,伽玛函数定义为:

概率分布 - 图87

通过分部积分的方法,可以推导出这个函数有如下递归性质:

概率分布 - 图88

我们把数列的通项公式定义从整数集合延拓到实数集合,例如概率分布 - 图89可用通项公式概率分布 - 图90表达。直观的说,也就是可以找到一条平滑的曲线通过概率分布 - 图91通过所有的整数点概率分布 - 图92这些点,从而把定义在整数集上的公式延拓到实数集合。对于阶乘序列概率分布 - 图93,我们可以计算概率分布 - 图94概率分布 - 图95,那么概率分布 - 图96如何计算呢?

gamma.png

通过欧拉的推导,我们就有了:概率分布 - 图98 ,为什么不定义为概率分布 - 图99,可能因为通过Gamma函数构造Beta函数时,Beta函数更协调。

对Gamma函数的定义做一个变形,就可以得到如下式子:

概率分布 - 图100

于是,取积分中的函数作为概率密度,就得到一个形式最简单的Gamma分布的密度函数:

概率分布 - 图101

如果做一个变换概率分布 - 图102,就得到Gamma分布更一般形式

概率分布 - 图103

Gamma分布是统计学的一种连续概率函数。伽玛分布中的参数概率分布 - 图104,称为形状参数(shape parameter),主要决定了分布曲线的形状;概率分布 - 图105称为尺度参数(rate parameter)或者概率分布 - 图106称为scale parameter,主要决定曲线有多陡。
Gamma_distribution_pdf.pngGamma_distribution_cdf.png

Gamma分布和众多统计分布都有千丝万缕的联系。我们容易发现,Gamma分布的概率密度和Poisson分布在数学形式上具有高度的一致性:

概率分布 - 图109

在Gamma分布的密度中取概率分布 - 图110,得到

概率分布 - 图111

两个分布数学形式上一致,只是Poisson分布是离散的,Gamma分布是连续的,可以直观的认为Gamma分布是Poisson分布在正实数集上的连续化版本。

贝塔分布(Beta)

贝塔函数(B函数或第一类欧拉积分),是一个特殊函数,由下式定义:

概率分布 - 图112

贝塔函数具有对称性质概率分布 - 图113;当概率分布 - 图114是正整数时,我们可以从Gamma函数定义得到如下式子概率分布 - 图115,它有许多其他形式,比如概率分布 - 图116

假设一均匀分布概率分布 - 图117,随机生成10个数,把这10个数排序,问第7大的数的概率分布是多少?这就是一个Beta分布。

我们先将之一般化,对于一般的情况概率分布 - 图118的概率密度是什么呢?下面,我们尝试计算一下概率分布 - 图119落在一个区间概率分布 - 图120的概率值:概率分布 - 图121

beta.jpg

如上图所示,我们把概率分布 - 图123区间划分成概率分布 - 图124概率分布 - 图125概率分布 - 图126三段。我们假定,概率分布 - 图127足够小,只能够容纳一个点,则由排列组合理论可得

概率分布 - 图128

所以我们可以得到概率分布 - 图129的概率密度函数为

概率分布 - 图130
概率分布 - 图131
概率分布 - 图132
概率分布 - 图133

我们取概率分布 - 图134概率分布 - 图135,于是

概率分布 - 图136

这就是Beta分布。

回到上面题目,把概率分布 - 图137概率分布 - 图138带入其中,得到密度函数概率分布 - 图139

贝塔分布是关于连续变量概率分布 - 图140的概率分布,它由两个参数概率分布 - 图141概率分布 - 图142确定,概率密度函数如下

Beta_distribution_pdf.svg.pngBeta_distribution_cdf.svg.png

狄利克雷分布(Dirichlet)

狄利克雷分布是关于一组概率分布 - 图145个连续变量概率分布 - 图146的概率分布,概率分布 - 图147,令概率分布 - 图148,参数概率分布 - 图149概率分布 - 图150概率分布 - 图151。Dirichlet是多变量普遍化的Βeta分布,常用于成分分析模型,可以看到,将概率分布 - 图152时,Dirichlet退化为Beta分布。

概率分布 - 图153

其中均值概率分布 - 图154, 方差概率分布 - 图155 ,协方差概率分布 - 图156

高斯分布(Gaussian)

高斯分布是最常见的数据分布,又称正态分布

概率分布 - 图157,其中均值概率分布 - 图158,协方差概率分布 - 图159

若损失函数使用欧氏距离的平方:概率分布 - 图160

概率分布 - 图161

拉普拉斯分布(Laplacian)

拉普拉斯分布多用于稀疏模型,比高斯分布要陡,使用绝对距离非欧氏距离

概率分布 - 图162,其中均值概率分布 - 图163,协方差概率分布 - 图164

Laplace_distribution_pdf.png

指数分布(Exponential Family)

任何分布写成概率分布 - 图166,其中概率分布 - 图167包含参数,概率分布 - 图168概率分布 - 图169的函数,概率分布 - 图170为了标准化

比如高斯:将 概率分布 - 图171概率分布 - 图172概率分布 - 图173概率分布 - 图174

代入

概率分布 - 图175

共轭分布(Conjugate)

假设变量概率分布 - 图176服从分布概率分布 - 图177,其中概率分布 - 图178为参数。概率分布 - 图179为变量概率分布 - 图180的观测样本,假设参数概率分布 - 图181服从先验分布概率分布 - 图182。若由先验分布概率分布 - 图183和抽样分布(实验数据)概率分布 - 图184决定的后验分布概率分布 - 图185概率分布 - 图186是同种类型的分布,则称先验分布概率分布 - 图187为分布概率分布 - 图188概率分布 - 图189的共轭分布(Conjugate Distribution)。

其中,贝塔分布(Beta)与伯努利分布(Bernoulli)共轭;狄利克雷分布(Dirichlet)与多项分布(Multinomial)共轭;高斯分布的共轭分布仍是高斯分布。

先验分布反映了某种先验信息;后验分布既反映了先验分布提供的信息,又反映了样本提供的信息。当先验分布与抽样分布(实验数据)共轭时,后验分布与先验分布属于同种类型,这意味着先验信息与样本提供的信息具有某种同一性。于是,若使用后验分布作为进一步抽样的先验分布,则新的后验分布仍将属于同种类型。因此,共轭分布在不少情况下会使得问题得以简化。


统计检验

卡方分布(Chi-square)

卡方分布(概率分布 - 图190)是一种特殊的伽马分布(Gamma),是统计推断应用最为广泛的概率分布之一,例如假设检验和置信区间的计算。概率分布 - 图191个独立的标准正态分布变量的平方和服从自由度为概率分布 - 图192的卡方分布。

概率分布 - 图193个独立的随机变量概率分布 - 图194是相互独立, 符合标准正态分布的随机变量(数学期望为概率分布 - 图195 、方差为概率分布 - 图196),则随机变量概率分布 - 图197的平方和:

概率分布 - 图198

被称为服从自由度为概率分布 - 图199的卡方分布,记作:

概率分布 - 图200概率分布 - 图201

概率分布 - 图202概率分布 - 图203

t分布(Student’s t)

t检验(t test)又称学生t检验(Student t-test)可以说是统计推断中非常常见的一种检验方法,用于统计量服从正态分布,但方差未知的情况。

t检验的前提是要求样本服从正态分布或近似正态分布,不然可以利用一些变换(取对数、开根号、倒数等等)试图将其转化为服从正态分布是数据,如若还是不满足正态分布,只能利用非参数检验方法。不过当样本量大于30的时候,可以认为数据近似正态分布。

t检验最常见的四个用途:

  1. 单样本均值检验(One-sample t-test)用于检验 总体方差未知、正态数据或近似正态的单样本的均值是否与已知的总体均值相等
  2. 两独立样本均值检验(Independent two-sample t-test)用于检验 两对独立的正态数据或近似正态的样本的均值是否相等,这里可根据总体方差是否相等分类讨论
  3. 配对样本均值检验(Dependent t-test for paired samples)用于检验 一对配对样本的均值的差是否等于某一个值
  4. 回归系数的显著性检验(t-test for regression coefficient significance)用于检验 回归模型的解释变量对被解释变量是否有显著影响

在概率论和统计学中,学生t-分布(t-distribution),可简称为t分布,用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。t分布曲线形态与概率分布 - 图204(确切地说与自由度概率分布 - 图205)大小有关。与标准正态分布曲线相比,自由度概率分布 - 图206越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度概率分布 - 图207愈大,t分布曲线愈接近正态分布曲线,当自由度概率分布 - 图208时,t分布曲线为标准正态分布曲线。

由于在实际工作中,往往概率分布 - 图209是未知的,常用概率分布 - 图210作为概率分布 - 图211的估计值,为了与u变换区别,称为t变换,统计量t 值的分布称为t分布。 假设概率分布 - 图212是呈正态分布的独立的随机变量(随机变量的期望值是概率分布 - 图213,方差是概率分布 - 图214但未知)。 令:

样本均值:概率分布 - 图215, 样本方差:概率分布 - 图216

它显示了数量概率分布 - 图217呈正态分布且均值为概率分布 - 图218,方差为概率分布 - 图219(标准正态分布)

另一个相关数量:

概率分布 - 图220

上式的概率密度函数是:

概率分布 - 图221

概率分布 - 图222的分布称为t分布,参数概率分布 - 图223一般称为自由度,概率分布 - 图224是伽马函数。

概率分布 - 图225的概率密度函数的形状类似于均值为0方差为1的正态分布,但更低更宽。随着自由度概率分布 - 图226的增加,则越来越接近均值为0方差为1的正态分布。

概率分布 - 图227概率分布 - 图228

F分布(F-distribution)

在概率论和统计学里,F-分布(F-distribution)是连续概率分布,被广泛应用于似然比率检验,特别是方差分析(ANOVA)。若总体概率分布 - 图229概率分布 - 图230概率分布 - 图231为来自概率分布 - 图232的两个独立样本,设统计量

概率分布 - 图233

则称统计量概率分布 - 图234服从自由度概率分布 - 图235概率分布 - 图236概率分布 - 图237分布,记为概率分布 - 图238概率分布 - 图239分布的概率密度为

概率分布 - 图240

F-distribution_pdf.svg.pngF_dist_cdf.svg.png

Source

https://github.com/chmx0929/UIUCclasses/blob/master/598MachLrngforSignalProcessng/Slide/Lecture 2 - Probability%2C Statistics%2C PE.pdf