分布函数、密度函数、分位数及其反函数一览表
image.png

1 二项分布

Binomial(n,k,p)计算成功概率为 p 的随机事件,在 n 次独立重复试验中,成功次数大于等于 k 次的概率。如出现概率为 0.6 的某随机现象,在六次独立重复试验中,出现 4 次及以上的概率为.54432。
di Binomial(6,4,0.6)
.54432
如果要计算出,恰好成功 4 次的概率,则需要按如下方式求得
di Binomial(6,4,0.6)- Binomial(6,5,0.6)
.27648
掷一枚硬币二次,出现一次正面的概率为
di Binomial(2,1,0.5)-Binomial(2,2,0.5)
0.5
掷一枚硬币二次,至少出现一次正面的概率为
di Binomial(2,1,0.5)
.75
掷一枚硬币二次,出现两次正面的概率为
di Binomial(2,2,0.5)
.25
掷一枚硬币二次,不出现或者出现正面的概率为
di Binomial(2,0,0.5)
1

2 标准正态分布函数

在标准正态分布中,出现小于-1.96 的随机数的概率是 0.025
di normal(-1.96)
.0249979
而出现小于 1.96 的随机数的概率为 0.975
di normal(1.96)
.9750021
大于 1.96 的随机数出现的概率则为
di 1-normal(1.96)
.0249979
标准正态分布函数的图示

  1. twoway function y=normal(x), rang(-4 4)

image.png
任务 :利用计算机得到标准正态分布概率表

  1. mat z=J(61,11,.)
  2. forvalues i=1/61{
  3. mat z[i',1]=(i'-31 )/10
  4. forvalues j=2/11 {
  5. mat z[i',j']=normal((i'-31)/10+(j'-2)/100)
  6. }
  7. }
  8. matrix colnames z = z 0 1 2 3 4 5 6 7 8 9
  9. mat list z, format(%5.4f)

3 正态分布函数及其反函数

一般的正态分布函数,可以根据公式(x-m)/s=z来变形得到
例:人的智商(I.Q.)得分一般服从均值为 100,标准差为 16 的正态分布,随机抽取一人,他的智商在 100-115 之间的概率是多少?(以频率为表述,即智商在100-115 之间的人占多大比例?)
di normal((115-100)/16)- normal((100-100)/16)
.32574929
正态分布函数的图示

  1. twoway function y=normal((x-100)/16), rang(50 150)

image.png
求标准正态分布累积函数值为 0.975 的点对应的随机数
di invnormal(.975)
1.959964
结果为 1.96,正好与 normal(1.96)相对应,他们互为反函数。类似地计算
. di invnormal(.995)
2.5758293
例:设在注册会计师的会计科目考试中,其通过率只有 10%,从历年的经验来看,分数的均值和标准差分别为 72 和 13。如果分数近似正态分布,为了获得顶部 10%的分数并通过考试所需要的最小分数是多少?
di invnormal(0.9)*13+72
88.66017

4 服从正态分布的随机数

定理:设X是一个连续型随机变量,其分布函数F(x)是严格单调递增的,则Y=F(X)服从[0,1]上的均匀分布。

  1. clear
  2. set obs 10000
  3. gen z=invnormal(uniform()) //得到服从标准正态分布的随机数
  4. hist z,bin(100) norm //画出直方图并配上标准正态分布曲线

image.png

5 正态分布密度函数

STATA 提供了三种计算正态密度函数的命令,分别是标准正态密度函数
di normalden(1.95)
.05959471
均值为零,标准差为 s 的正态密度函数,经换算,与标准正态密度函数等价
normalden(z,s) = normalden(z)/s
di normalden(1.95,10)
.00595947
均值为 m,标准差为 s 的正态密度函数,经换算,与标准正态密度函数等价
normalden(x,m,s) = normalden((x-m)/s)/s
di normalden(29.5,10,10)

6 分位数

分位数是统计分布的一类数字特征。
定义:设随机变量 X 的分布函数 F(x),对给定的实数α(0<α<1),如果实数Fα满足:
P{X>Fα}=α,即 1-F( Fα)=α,或者 F( Fα)=1-α 则称为随机变量 X 的分布的水平α的上侧分位数。或分布函数 F(x)的水平α
的上侧分位数。Fα=invF(1-α)

  1. #delimit ;
  2. twoway
  3. function y=0.975, rang(-4 1.96) dropline(1.959)||
  4. function y=normal(x), range(-4 4) clstyle(foreground) ||,
  5. legend(off)
  6. xlabel(1.96)
  7. ylabel(.975)
  8. ;
  9. #delimit cr

image.png
标准正态分布的水平α=0.05 的上侧分位数为
di invnormal(0.95)
1.6448536
标准正态分布的水平α=0.05 的双侧分位数为
di invnorm(0.975)
1.959964

7 卡方分布

卡方分布:设 X1,X2,。。。,Xn是 n 个相互独立的随机变量,且 Xi均服从标 准正态分布,则 X=Σxi^2服从自由度为 n 的卡方分布。

  1. #delimit;
  2. tw function y=(chi2(2,x)-chi2(2,(x-0.01)))/0.01,rang(0 30) ||
  3. function y=(chi2(4,x)-chi2(4,(x-0.01)))/0.01,rang(0 30) ||
  4. function y=(chi2(8,x)-chi2(8,(x-0.01)))/0.01,rang(0 30) ,legend(off);
  5. tw function y=chi2(2,x),rang(0 30) ||
  6. function y=chi2(4,x),rang(0 30) ||
  7. function y=chi2(8,x),rang(0 30), legend(off);
  8. ***非中心化卡方分布图
  9. tw function y=100*(chi2(2,x)-chi2(2,(x-0.01))),rang(0 30) ||
  10. function y=100*(nchi2(2,4,x)-nchi2(2,4,(x-0.01))),rang(0 30) ||
  11. function y=100*(nchi2(2,8,x)-nchi2(2,8,(x-0.01))),rang(0 30) ,legend(off);

image.png
自由度为10时,累积分布为0.95所对应的随机变量为,即10个独立的标准正态分布随机变量平方和小于18.31的可能性为0.95.
di invchi2(10,0.95)
18.307038
di chi2(10,18.31)
.95004583
卡方分布的分位数函数与累积分布函数的关系是chi2(n,x)=1- chi2tail(n,x)
di chi2tail(10,18.31)
.04995417
卡方分布的分位数的反函数与其累积分布的反函数的关系是invchi2(n,p)=
invchi2tail(n,1-p)
di invchi2tail(10,0.05)
18.307038
任务 :自己做出卡方分布的临界值

  1. mat X=J(31,3,.)
  2. forvalues n=1/30{
  3. mat X[n',1]=invchi2tail(n',0.1)
  4. mat X[n',2]=invchi2tail(n',0.05)
  5. mat X[n',3]=invchi2tail(n',0.01)
  6. }
  7. mat list X, format(%5.2f)

8 t 分布的分位数

t 分布是标准正态分布与自由度为 n 的卡方分布的函数
自由度为 8 的 t 分布的水平 0.05 的上侧分位数为
di invttail(8,0.05)
1.859548

di ttail(8,1.86)
.04996531
由于 t 分布为对称分布,因此双侧分位数为
di invttail(8,0.025)
2.3060041
di ttail(8,2.306)
.02500016
任务:自己做出 t 分布表

  1. mat t=J(31,5,.)
  2. forvalues n=1/30{
  3. mat t[n',1]=invttail(n',0.1)
  4. mat t[n',2]=invttail(n',0.05)
  5. mat t[n',3]=invttail(n',0.025)
  6. mat t[n',4]=invttail(n',0.01)
  7. mat t[n',5]=invttail(n',0.005)
  8. }
  9. mat list t, format(%5.3f)

9 F 分布

F 分布是两个卡方分布的均商(自由度平均)

  1. #delimit ;
  2. twoway
  3. function y=Fden(2,8,x), rang(0 4) ||
  4. function y= Fden(6,8,x), rang(0 4) ||
  5. function y= Fden(6,20,x), rang(0 4) legend(off);

image.png
设 X 服从分子自由度为 10,分母自由度为 5 的 F 分布,求 X 小于 4.74 的概率
di F(10,5,4.74)
.95010421
di invF(10,5,0.95)
4.7350631
di Ftail(10,5,4.74)
.04989579
di invFtail(10,5,0.05)
4.7350631
设 X 服从分子自由度为 5,分母自由度为 10 的 F 分布,求 X 小于的概率
. di F(5,10,3.326)
.95000672
. di invF(5,10,0.95)
3.3258345
. di Ftail(5,10,3.326)
.04999328
. di invFtail(5,10,0.05)
3.3258345
可见,F 分布的累积分布函数与分位数的关系为
F(n,m,f)=1-Ftail(n,m,f)
反函数之间的关系为
invF(n,m,p)=invFtail(n,m,1-p)
交换第一自由度与第二自由度,则两个分数之间的关系为
Ftail(m,n,a)= 1/ [Ftail(n,m,1a)]
di invFtail(5,10,0.05)
3.3258345
di 1/(invFtail(10,5,0.95))
3.3258345
任务 :自己做出 F 分布表(p756)

  1. mat F=J(21,11,.)
  2. forvalues i=1/21{
  3. mat F[i',1]=i'+9
  4. forvalues j=2/11 {
  5. mat F[i',j']=invFtail((j'-1),(i'+9),0.05)
  6. }
  7. }
  8. matrix colnames z = F 1 2 3 4 5 6 7 8 9 10
  9. mat list F, format(%4.2f)