第二章:
随机变量:
离散分布:
0-1分布:
- 定义:随机变量取值只有0和1,X表示取值为0或者1的概率。
- 分布律:事实上就是个2*2的矩阵,二项分布是多次的0-1分布。0-1分布是二项分布的n=1。
| X | 0 | 1 |
|---|---|---|
| Pk | 1-p | p |
如某一服务设施在一定时间内到达的人数。hashmap的负载因子为什么75%,可以通过泊松分布算。
- 分布律:X表示单位时间内的事件A发生的次数
- 泊松定理:泊松分布逼近二项分布,二项分布中n很大时,可以用 λ=np 和泊松分布快速求解。
分布函数:
定义:设X 是一个随机变量,分布函数指的是区间内概率
概率密度:
定义: X为连续随机变量,分布函数求导,每个点的概率值,公式为
连续分布:
均匀分布:X~U(a,b)
- 概率密度函数:
- 分布函数:
指数分布:无记忆性
- 概率密度函数:
- 分布函数:
- 无记忆性:
正态分布: X~N(μ,σ^2)
- 概率密度函数:
- 分布函数:
3σ法则: 值落在(μ-3σ,μ+3σ)的概率是99.74%
第三章
二维随机向量:
二维分布函数:
二维正态: (X,Y)~N(μ1,σ1^2,μ2,σ2^2,ρ)
独立:
Z=X+Y 分布:概率密度实际上是一个卷积
两个N(0,1)→N(0,2)
-
Z=X/Y分布,Z=XY分布:略。
M=max(X,Y),N=min(X,Y)分布:
M分布 为 分布相乘
N分布 为 1-(【1-分布】相乘)
概率密度为求导。实际问题:三个0-1数加起来小于一的概率
画图,立方体里切一刀平面x+y+z<1,发现体积为1/6,四面体。
第四章
数学期望:级数或者积分收敛
方差:与数学期望的偏离程度
各分布的期望和方差:
泊松分布: λ,λ(用e^x的级数)
二项分布:np,np(1-p)
0-1分布:p,p(1-p)
均匀分布:(a+b)/2,(b-a)^2/12
正态分布: μ,σ^2
指数分布:θ,θ^2
卡方分布:n,2n
t 分布:0,n/n-2
F 分布:E(X)=n/(n-2)(n>2) ,D(X)=[2n^2(m+n-2)]/[m(n-2)^2(n-4)](n>4)
切比雪夫不等式:
定义:只根据期望方差,给出了X偏离μ距离为ε ,的两侧概率和的上界
随机变量X的期望μ,方差σ^2,则对于任意正数ε,有不等式
可以估算范围,可以证明方差为0,分布为常数。协方差:
相关系数:线性关系紧密程度
相关和独立:
对于二维正态分布是充要条件,用相关系数验证独立方便。
- 独立→相关为0,单向
k阶矩:
k阶中心矩:
协方差矩阵:
定义:i,j 都是对应变量的协方差第五章
大数定律:频率的稳定性
弱大数定律(辛钦大数定理)
定义:相关独立的K个随机变量服从同一分布(独立同分布),期望μ,则对于任意的ε,有
即算数平均数依概率收敛于期望。伯努利大数定理: 伯努利是独立同分布实验。
定义:fA是n次独立重复实验中A发生的次数,p为A发生的概率,则对于任意的ε,有
即频率依概率收敛于A发生的概率。(频率估算概率)中心极限定理:近似正态分布定理
定理一:独立同分布的中心极限定理(标准化变量)
定义:N个随机变量独立(服从)同分布,期望μ,方差σ方。则随机变量之和的标准化变量
的分布函数Fn(x)对于任意x满足
即标准化变量依分布收敛于正态分布N(0,1)
定理二:李雅普诺夫定理(不同分布)
条件很多,就不记了。n很大,无论什么分布,标准量依旧服从正态分布。
定理三:棣莫弗拉普拉斯定理(正态分布是二项分布的极限分布)
第六章 样本及抽样分布
数理统计的逻辑:
总体:
个体:
容量:
样本:
从总体中被抽出的部分个体,是一个集合。X的n个独立观察值。
从总体或者分布F中得到,n个随机变量独立服从同分布,叫做容量为n的样本。
直方图:
频率直方图,高度为f_i/n/delta,每个小矩形的面积等于数据落在该区间的频率f_i/n。
避免频数为0的区间,动态调整区间大小。
箱线图:
Q3-Q1=IQR
异常值(修正箱线图):Q1-1.5IQR,Q3+1.5IQR
样本均值:
样本方差:(重要)
样本k阶原点矩:
样本k阶中心矩:
F分布:F~F(n1,n2)
- 抽样原分布:U是卡方分布(n1),V是卡方分布(n2),UV相互独立。
- 性质:alpha 分位点,倒数关系。
正态总体的样本均值和样本方差分布
谁服从卡方分布:
谁服从t分布:
谁服从F分布:
当方差相等时有,谁又服从t分布
证明:
统计推断基本问题:
点估计:
矩估计:
样本矩依概率收敛于总体矩。
算E(X)和E(X^2)之类的去解方程。
极大似然估计:
X的样本X1,X2,X3…… 的联合分布律为:
观察值为 x1,x2,x3,x4,x5……,则事件X={X1=x1,X2=X2……}发生的概率为:
最大似然即为取max。
无偏性:
有效性:
相合性:
区间估计:
置信区间:
区间(a,b)是区间θ的置信水平为1-alpha的置信区间。
置信水平:
和置信区间是一体的。一般是1-alpha。与alpha 分位点概念对偶。
枢轴量:
关于样本和θ的函数,他不依赖于θ和其他未知参数。
单个正态总体均值 (μ) 的置信区间:
- 1:方差已知
- 枢轴量,服从什么分布
- 2:方差未知
- 枢轴量,服从什么分布。利用样本方差和均值
单个正态总体方差(σ) 的置信区间:
- 枢轴量,服从什么分布
两个正态总体的均值差(μ1-μ2)的置信区间
- 1:两个方差已知,两个样本独立
- 由独立性,枢轴量(长的那个),服从什么分布
- 2:方差未知,方差齐性
- 枢轴量,服从什么分布,样本方差怎么定义
两个正态总体方差比(σ1^2 / σ2^2)的置信区间
- 枢轴量,服从什么分布
0-1 分布 参数的区间估计
均值:p
方差:p*(1-p)
- 由什么定理,近似于什么分布
中心极限定理,近似于正态分布
- 枢轴量,服从什么分布
第八章:假设检验
假设检验:
总体分布参数未知,为了推断总体的某些特性,提出某些关于总体的假设。
显著性水平:
检验统计量:符合实际的一种判断标准
零假设:H0
备择假设: H1
第一类错误:弃真
第二类错误:取伪
显著性检验:
只对第一类错误的概率加以控制。
正态总体均值的假设检验
单个正胎总体均值(μ) 的检验
- 1:方差已知(Z 检验)
- 统计检验量,服从什么分布
- 2:方差未知(t 检验)
- 统计检验量,服从什么分布
两个正态总体均值差(μ1-μ2)检验
- 1:方差已知(Z检验)
- 统计检验量,服从什么分布
- 2:方差未知(t检验)
- 统计检验量,服从什么分布
- 3:基于成对数据的检验(配对样本T检验)
- 统计检验量,服从什么分布
正态总体方差的假设检验
单个总体方差:(卡方检验)
- 统计检验量,服从什么分布:方差比在1左右
两个总体方差比:(F检验)
- 统计检验量,服从什么分布:方差比在1左右
置信区间和假设检验关系
假设检验问题的接受域是参数 θ 的一个置信水平为1-α 的置信区间。
样本容量选择:
控制第二类错误,用功效函数判断
分布拟合检验:
单个分布的卡方拟合检验
H_0:总体 X的分布函数为 F(x)
H_1:总体 X的分布函数不是 F(x)
- 统计检验量,服从什么分布,(X^2 拟合检验法),k是分桶数量。
- 思想:大数定理。频率 - pi的差异不会太大。
- C_i 怎么取:n/p_i
-
分布族的卡方拟合检验
H_0:总体 X的分布函数为 F(x)
H_1:总体 X的分布函数不是 F(x) 先要做极大似然:因为是分布族,所以要先求p_i 的极大似然
- 统计检验量,服从什么分布,r是分布族的参数个数。
偏度,峰度K-S检验
目的:检验正态分布
- 偏度的数学式:峰度的数学式:
- 统计检验量,服从什么分布,B是样本k阶中心矩
秩和检验:
非参数检验
- 思想,两个样本秩和为,和R1的范围为。
而R1应该取到比较中间的值。
- 统计检验量,服从什么分布
假设检验问题的p值检验法
p值:
第九章: 方差分析
单因素方差分析:
因素,水平:
因素:影响实验指标的条件。
水平:因素的分类或者说所处的状态。
检验假设:单因素三水平问题
数学模型:
X_ij 是符合正态分布的, ε_ij 随机误差也是符合正态分布的。
- 效应:
- 总平均:
- 水平的平均:
SE:E代表误差,误差平方和
和样本方差的关系:nj-1 倍

引出服从的分布,自由度

因为分母是样本方差的 n_j-1 倍,所以服从卡方分布。
由独立性和 卡方分布的可加性得到,

SE 的自由度为 n-s,s为因素的水平数。且有,
SA:A代表因素A,因素A的效应平方和。
ST:自由度 n-1
统计检验量,服从的分布
- 关于分子的无偏估计:
H_0为真,期望为 σ^2。为假时,期望有较大偏差
- 关于分母的无偏估计:
永远是为 σ^2,所以检验量为F分布,分母与分子比有无较大差异。
双因素方差分析(重复试验)
检验假设
假设H0 : 三个

alpha beta gamma 的定义:
alpha: 水平Ai 的效应
beta: 水平Bj 的效应
gamma: 水平 Ai 和Bj 的交互效应
数学模型:
SE : 误差平方和
SA:效应A平方和
SB:效应B平方和
S{A*B}:AB交互效应平方和

自由度与统计检验量:
SA:r-1
SB:s-1
S{A*B}:(r-1)(s-1)
双因素方差分析(无重复试验)
交互作用可以忽略时。去掉了交互作用。其余是一样的。
一元线性回归
数学模型:
对于 a,b的估计:
用正态分布的联合概率密度的最大似然法估计使得Q(a,b)最小求导获得。
即正规方程。
对于 σ^2 的估计
- 残差平方和Q_e
- 引出统计量,服从什么分布,自由度n-2
线性显著性检验:
H0为真时,为线性不显著(不是线性的)。
- 统计检验量,服从什么分布,自由度n-2
原因:b与Q_e 独立,一个服从正态,一个服从卡方,相除自然时 t分布
多元线性回归
数学模型:
估计:
第十章 bootstrap 方法
非参数bootstrap:
过程:
bootstrap置信区间和检验:
非参数bootstrap:
k个样本的估计量排序作为分布,做分位数取区间(前20%,后20%)。
参数bootstrap:
极大似然→估计,然后用这个估计量做抽样,用非参数boostrap的方法。
第十二章随机过程
随机过程:
状态空间
一维分布函数
一维分布族
均值函数:
二阶原点矩:
方差函数:
自相关函数:
自协相关函数
泊松过程:
独立增量:
增量满足泊松分布:关于t-t0
N(0)=0
泊松的期望,协方差,相关函数
点间间距序列T_i服从同一个指数分布→泊松分布
维纳过程:随机游走
独立增量:
增量满足正态分布:关于t-t0
期望,协方差,相关函数
马尔科夫过程:和泊松维纳的区别
定理:无零元→有唯一解
平稳随机过程:
期望,自相关,协方差
