统计学 - 假设检验 - 《Machine Learning》

基本思路
正太总体-均值
正太总体-方差
- 单个总体- 卡方检验
- 两个总体- F 检验
置信区间与假设检验之间的关系
样本容量的选取
分布拟合检验
- 卡方拟合检验法
  - 假设前提
  - 拟合优度检验的基本原理和步骤
- 偏度、峰度检验
秩和检验
假设检验问题的 P 值法

基本思路

正太总体-均值

单个正太总体-均值

方差已知- Z 检验

方差未知- t 检验

两个正太总体-均值差- t 检验

基于成对数据的检验- t 检验

正太总体-方差

单个总体- 卡方检验

两个总体- F 检验

置信区间与假设检验之间的关系

样本容量的选取

分布拟合检验

上面介绍的各种检验方法都是在总体分布形式为已知的前提下进行的讨论，但在实际问题中，有时不能知道总体服从什么类型的分布，这时就要根据样本来检验关于分布的假设。

这里通过假设检验 - 图1 拟合检验法，来检验总体是否具有某一个指定的分布或属于某一个分布族（即分布中有未知参数）。

还介绍专用于检验分布是否为正态的偏度和峰度检验法。

卡方拟合检验法

假设前提

记： $假设检验 - 图2$ #card=math&code=F%5Cleft%28%20x%20%5Cright%29&height=20&width=37) 为总体X的位置的分布函数。

假设： $假设检验 - 图3$ #card=math&code=%7B%20F%20%7D_%7B%200%20%7D%5Cleft%28%20x%20%5Cright%29&height=20&width=44)是形式已知，但可能含有若干个未知参数的分布函数。

检验假设： $假设检验 - 图4$ %20%3D%7B%20F%20%7D%7B%200%20%7D%5Cleft(%20x%20%5Cright)%20%5Cquad%20%5Cforall%20x%5Cin#card=math&code=%7B%20H%20%7D%7B%200%20%7D%3AF%5Cleft%28%20x%20%5Cright%29%20%3D%7B%20F%20%7D_%7B%200%20%7D%5Cleft%28%20x%20%5Cright%29%20%5Cquad%20%5Cforall%20x%5Cin&height=20&width=194)

注意：

一般比如检验是否符合孟德尔遗传定律这种没有参数的，但大多是检验有参数的分布，比如检验是否符合泊松分布，泊松分布是有参数 $假设检验 - 图5$ 的，这类有参数的分布拟合假设也叫做分布族的 $假设检验 - 图6$ 拟合检验。
若总体 $假设检验 - 图7$ 为离散型，则原假设 $假设检验 - 图8$ ：总体 $假设检验 - 图9$ 的分布律为 $假设检验 - 图10$
若总体 $假设检验 - 图11$ 为连续型，则原假设 $假设检验 - 图12$ ：总体 $假设检验 - 图13$ 的概率密度为 $假设检验 - 图14$ #card=math&code=f%5Cleft%28%20x%20%5Cright%29&height=20&width=34)
备择假设是除了这个分布之外所有的分布，故不用写出。

拟合优度检验的基本原理和步骤

在 $假设检验 - 图15$ 下，总体 $假设检验 - 图16$ 取值的全体分成 $假设检验 - 图17$ 组，即 $假设检验 - 图18$ 个两两不想交的子集 $假设检验 - 图19$ .
以 $假设检验 - 图20$ #card=math&code=%7B%20n%20%7D%7B%20i%20%7D%5Cleft%28%20i%3D1%2C…k%20%5Cright%29&height=20&width=107) 记样本观察值 ![](https://g.yuque.com/gr/latex?%7B%20x%20%7D%7B%201%20%7D%2C…%2C%7B%20x%20%7D%7B%20n%20%7D#card=math&code=%7B%20x%20%7D%7B%201%20%7D%2C…%2C%7B%20x%20%7D%7B%20n%20%7D&height=14&width=73) 中落 ![](https://g.yuque.com/gr/latex?%7B%20A%20%7D%7B%20i%20%7D#card=math&code=%7B%20A%20%7D%7B%20i%20%7D&height=18&width=18) 内的个数（实际频数），且![](https://g.yuque.com/gr/latex?%5Csum%20%7B%20i%3D1%20%7D%5E%7B%20k%20%7D%7B%20%7B%20n%20%7D%7B%20i%20%7D%20%7D%20%3Dn#card=math&code=%5Csum%20%7B%20i%3D1%20%7D%5E%7B%20k%20%7D%7B%20%7B%20n%20%7D_%7B%20i%20%7D%20%7D%20%3Dn&height=53&width=75).
当 $假设检验 - 图21$ 为真且 $假设检验 - 图22$ #card=math&code=%7B%20F%20%7D%7B%200%20%7D%5Cleft%28%20x%20%5Cright%29&height=20&width=44) 完全已知时，计算事件 ![](https://g.yuque.com/gr/latex?%7B%20A%20%7D%7B%20i%20%7D#card=math&code=%7B%20A%20%7D%7B%20i%20%7D&height=18&width=18) 发生的概率 ![](https://g.yuque.com/gr/latex?%7B%20p%20%7D%7B%20i%20%7D%3D%7B%20P%20%7D%7B%20%7B%20F%20%7D%7B%200%20%7D%20%7D%5Cleft(%20%7B%20A%20%7D%7B%20i%20%7D%20%5Cright)%20%2Ci%3D1%2C…k#card=math&code=%7B%20p%20%7D%7B%20i%20%7D%3D%7B%20P%20%7D%7B%20%7B%20F%20%7D%7B%200%20%7D%20%7D%5Cleft%28%20%7B%20A%20%7D%7B%20i%20%7D%20%5Cright%29%20%2Ci%3D1%2C…k&height=21&width=183)；
当 ![](https://g.yuque.com/gr/latex?%7B%20F%20%7D%7B%200%20%7D%5Cleft(%20x%20%5Cright)#card=math&code=%7B%20F%20%7D%7B%200%20%7D%5Cleft%28%20x%20%5Cright%29&height=20&width=44) 含有 $假设检验 - 图23$ 个未知参数时，先利用极大似然法估计 $假设检验 - 图24$ 个未知参数，然后求得 ![](https://g.yuque.com/gr/latex?%7B%20p%20%7D%7B%20i%20%7D#card=math&code=%7B%20p%20%7D%7B%20i%20%7D&height=16&width=15) 的估计 ![](https://g.yuque.com/gr/latex?%7B%20%5Chat%20%7B%20p%20%7D%20%20%7D%7B%20i%20%7D#card=math&code=%7B%20%5Chat%20%7B%20p%20%7D%20%20%7D%7B%20i%20%7D&height=19&width=16).
此时称 ![](https://g.yuque.com/gr/latex?%7B%20n%20%7D%7B%20p%20%7D%7B%20i%20%7D#card=math&code=%7B%20n%20%7D%7B%20p%20%7D%7B%20i%20%7D&height=16&width=24)（或 ![](https://g.yuque.com/gr/latex?%7B%20n%5Chat%20%7B%20p%20%7D%20%20%7D%7B%20i%20%7D#card=math&code=%7B%20n%5Chat%20%7B%20p%20%7D%20%20%7D_%7B%20i%20%7D&height=19&width=25)）为理论频数.
直观来看，如果 $假设检验 - 图25$ 成立，实际频数 $假设检验 - 图26$ 与理论频数 $假设检验 - 图27$ 相差不会太大，基于这种想法，我们会选择：
检验统计量形式： $假设检验 - 图28$ %20%20%7D%5E%7B%202%20%7D%20%7D%20%2C%7B%20h%20%7D%7B%20i%20%7D%3D%3F#card=math&code=%5Csum%20%7B%20i%3D1%20%7D%5E%7B%20k%20%7D%7B%20%7B%20h%20%7D%7B%20i%20%7D%7B%20%5Cleft%28%20%7B%20n%20%7D%7B%20i%20%7D-n%7B%20p%20%7D%7B%20i%20%7D%20%5Cright%29%20%20%7D%5E%7B%202%20%7D%20%7D%20%2C%7B%20h%20%7D%7B%20i%20%7D%3D%3F&height=53&width=172)
检验的拒绝域形式： $假设检验 - 图29$ %20%20%7D%5E%7B%202%20%7D%20%7D%20%5Cge%20c#card=math&code=%5Csum%20%7B%20i%3D1%20%7D%5E%7B%20k%20%7D%7B%20%7B%20h%20%7D%7B%20i%20%7D%7B%20%5Cleft%28%20%7B%20n%20%7D%7B%20i%20%7D-n%7B%20p%20%7D%7B%20i%20%7D%20%5Cright%29%20%20%7D%5E%7B%202%20%7D%20%7D%20%5Cge%20c&height=53&width=153)
统计量分布：若 $假设检验 - 图30$ 充分大，则当 $假设检验 - 图31$ 为真时，统计量
$假设检验 - 图32$ %20%20%7D%5E%7B%202%20%7D%20%7D%7B%20n%7B%20p%20%7D%7B%20i%20%7D%20%7D%20%20%7D%20%5Coverset%20%7B%20%E8%BF%91%E4%BC%BC%20%7D%7B%20%5Csim%20%20%7D%20%7B%20%5Cchi%20%20%7D%5E%7B%202%20%7D%5Cleft(%20k-1%20%5Cright)#card=math&code=%7B%20%5Cchi%20%20%7D%5E%7B%202%20%7D%3D%5Csum%20%7B%20i%3D1%20%7D%5E%7B%20k%20%7D%7B%20%5Cfrac%20%7B%20%7B%20h%20%7D%7B%20i%20%7D%7B%20%5Cleft%28%20%7B%20n%20%7D%7B%20i%20%7D-n%7B%20p%20%7D%7B%20i%20%7D%20%5Cright%29%20%20%7D%5E%7B%202%20%7D%20%7D%7B%20n%7B%20p%20%7D%7B%20i%20%7D%20%7D%20%20%7D%20%5Coverset%20%7B%20%E8%BF%91%E4%BC%BC%20%7D%7B%20%5Csim%20%20%7D%20%7B%20%5Cchi%20%20%7D%5E%7B%202%20%7D%5Cleft%28%20k-1%20%5Cright%29&height=53&width=274)
$假设检验 - 图33$ %20%20%7D%5E%7B%202%20%7D%20%7D%7B%20n%7B%20%5Chat%20%7B%20p%20%7D%20%20%7D%7B%20i%20%7D%20%7D%20%20%7D%20%5Coverset%20%7B%20%E8%BF%91%E4%BC%BC%20%7D%7B%20%5Csim%20%20%7D%20%7B%20%5Cchi%20%20%7D%5E%7B%202%20%7D%5Cleft(%20k-r-1%20%5Cright)#card=math&code=%7B%20%5Cchi%20%20%7D%5E%7B%202%20%7D%3D%5Csum%20%7B%20i%3D1%20%7D%5E%7B%20k%20%7D%7B%20%5Cfrac%20%7B%20%7B%20h%20%7D%7B%20i%20%7D%7B%20%5Cleft%28%20%7B%20n%20%7D%7B%20i%20%7D-n%7B%20%5Chat%20%7B%20p%20%7D%20%20%7D%7B%20i%20%7D%20%5Cright%29%20%20%7D%5E%7B%202%20%7D%20%7D%7B%20n%7B%20%5Chat%20%7B%20p%20%7D%20%20%7D%7B%20i%20%7D%20%7D%20%20%7D%20%5Coverset%20%7B%20%E8%BF%91%E4%BC%BC%20%7D%7B%20%5Csim%20%20%7D%20%7B%20%5Cchi%20%20%7D%5E%7B%202%20%7D%5Cleft%28%20k-r-1%20%5Cright%29&height=53&width=303)
其中 $假设检验 - 图34$ 为分类数， $假设检验 - 图35$ 为 $假设检验 - 图36$ #card=math&code=%7B%20F%20%7D%7B%200%20%7D%5Cleft%28%20x%20%5Cright%29&height=20&width=44) 中被估未知参数的个数。
检验统计量:
![](https://g.yuque.com/gr/latex?%7B%20%5Cchi%20%20%7D%5E%7B%202%20%7D%3D%5Csum%20%7B%20i%3D1%20%7D%5E%7B%20k%20%7D%7B%20%5Cfrac%20%7B%20%7B%20h%20%7D%7B%20i%20%7D%7B%20%5Cleft(%20%7B%20n%20%7D%7B%20i%20%7D-n%7B%20p%20%7D%7B%20i%20%7D%20%5Cright)%20%20%7D%5E%7B%202%20%7D%20%7D%7B%20n%7B%20p%20%7D%7B%20i%20%7D%20%7D%20%20%7D%20%3D%5Csum%20%7B%20i%3D1%20%7D%5E%7B%20k%20%7D%7B%20%5Cfrac%20%7B%20%7B%20%7B%20n%20%7D%7B%20i%20%7D%20%7D%5E%7B%202%20%7D%20%7D%7B%20n%7B%20p%20%7D%7B%20i%20%7D%20%7D%20%20%7D%20-n#card=math&code=%7B%20%5Cchi%20%20%7D%5E%7B%202%20%7D%3D%5Csum%20%7B%20i%3D1%20%7D%5E%7B%20k%20%7D%7B%20%5Cfrac%20%7B%20%7B%20h%20%7D%7B%20i%20%7D%7B%20%5Cleft%28%20%7B%20n%20%7D%7B%20i%20%7D-n%7B%20p%20%7D%7B%20i%20%7D%20%5Cright%29%20%20%7D%5E%7B%202%20%7D%20%7D%7B%20n%7B%20p%20%7D%7B%20i%20%7D%20%7D%20%20%7D%20%3D%5Csum%20%7B%20i%3D1%20%7D%5E%7B%20k%20%7D%7B%20%5Cfrac%20%7B%20%7B%20%7B%20n%20%7D%7B%20i%20%7D%20%7D%5E%7B%202%20%7D%20%7D%7B%20n%7B%20p%20%7D%7B%20i%20%7D%20%7D%20%20%7D%20-n&height=53&width=281) 或
![](https://g.yuque.com/gr/latex?%7B%20%5Cchi%20%20%7D%5E%7B%202%20%7D%3D%5Csum%20%7B%20i%3D1%20%7D%5E%7B%20k%20%7D%7B%20%5Cfrac%20%7B%20%7B%20h%20%7D%7B%20i%20%7D%7B%20%5Cleft(%20%7B%20n%20%7D%7B%20i%20%7D-n%7B%20%5Chat%20%7B%20p%20%7D%20%20%7D%7B%20i%20%7D%20%5Cright)%20%20%7D%5E%7B%202%20%7D%20%7D%7B%20n%7B%20%5Chat%20%7B%20p%20%7D%20%20%7D%7B%20i%20%7D%20%7D%20%20%7D%20%3D%5Csum%20%7B%20i%3D1%20%7D%5E%7B%20k%20%7D%7B%20%5Cfrac%20%7B%20%7B%20%7B%20n%20%7D%7B%20i%20%7D%20%7D%5E%7B%202%20%7D%20%7D%7B%20n%7B%20%5Chat%20%7B%20p%20%7D%20%20%7D%7B%20i%20%7D%20%7D%20%20%7D%20-n#card=math&code=%7B%20%5Cchi%20%20%7D%5E%7B%202%20%7D%3D%5Csum%20%7B%20i%3D1%20%7D%5E%7B%20k%20%7D%7B%20%5Cfrac%20%7B%20%7B%20h%20%7D%7B%20i%20%7D%7B%20%5Cleft%28%20%7B%20n%20%7D%7B%20i%20%7D-n%7B%20%5Chat%20%7B%20p%20%7D%20%20%7D%7B%20i%20%7D%20%5Cright%29%20%20%7D%5E%7B%202%20%7D%20%7D%7B%20n%7B%20%5Chat%20%7B%20p%20%7D%20%20%7D%7B%20i%20%7D%20%7D%20%20%7D%20%3D%5Csum%20%7B%20i%3D1%20%7D%5E%7B%20k%20%7D%7B%20%5Cfrac%20%7B%20%7B%20%7B%20n%20%7D%7B%20i%20%7D%20%7D%5E%7B%202%20%7D%20%7D%7B%20n%7B%20%5Chat%20%7B%20p%20%7D%20%20%7D%7B%20i%20%7D%20%7D%20%20%7D%20-n&height=53&width=284)
显著水平 $假设检验 - 图37$ 下拒绝域：
![](https://g.yuque.com/gr/latex?%7B%20%5Cchi%20%20%7D%5E%7B%202%20%7D%3D%5Csum%20%7B%20i%3D1%20%7D%5E%7B%20k%20%7D%7B%20%5Cfrac%20%7B%20%7B%20%7B%20n%20%7D%7B%20i%20%7D%20%7D%5E%7B%202%20%7D%20%7D%7B%20n%7B%20p%20%7D%7B%20i%20%7D%20%7D%20%20%7D%20-n%5Cge%20%7B%20%5Cchi%20%20%7D%7B%20%5Calpha%20%20%7D%5E%7B%202%20%7D%5Cleft(%20k-1%20%5Cright)#card=math&code=%7B%20%5Cchi%20%20%7D%5E%7B%202%20%7D%3D%5Csum%20%7B%20i%3D1%20%7D%5E%7B%20k%20%7D%7B%20%5Cfrac%20%7B%20%7B%20%7B%20n%20%7D%7B%20i%20%7D%20%7D%5E%7B%202%20%7D%20%7D%7B%20n%7B%20p%20%7D%7B%20i%20%7D%20%7D%20%20%7D%20-n%5Cge%20%7B%20%5Cchi%20%20%7D%7B%20%5Calpha%20%20%7D%5E%7B%202%20%7D%5Cleft%28%20k-1%20%5Cright%29&height=53&width=224)，（没有参数需要估计）
![](https://g.yuque.com/gr/latex?%7B%20%5Cchi%20%20%7D%5E%7B%202%20%7D%3D%5Csum%20%7B%20i%3D1%20%7D%5E%7B%20k%20%7D%7B%20%5Cfrac%20%7B%20%7B%20%7B%20n%20%7D%7B%20i%20%7D%20%7D%5E%7B%202%20%7D%20%7D%7B%20n%7B%20%5Chat%20%7B%20p%20%7D%20%20%7D%7B%20i%20%7D%20%7D%20%20%7D%20-n%5Cge%20%7B%20%5Cchi%20%20%7D%7B%20%5Calpha%20%20%7D%5E%7B%202%20%7D%5Cleft(%20k-r-1%20%5Cright)#card=math&code=%7B%20%5Cchi%20%20%7D%5E%7B%202%20%7D%3D%5Csum%20%7B%20i%3D1%20%7D%5E%7B%20k%20%7D%7B%20%5Cfrac%20%7B%20%7B%20%7B%20n%20%7D%7B%20i%20%7D%20%7D%5E%7B%202%20%7D%20%7D%7B%20n%7B%20%5Chat%20%7B%20p%20%7D%20%20%7D%7B%20i%20%7D%20%7D%20%20%7D%20-n%5Cge%20%7B%20%5Cchi%20%20%7D_%7B%20%5Calpha%20%20%7D%5E%7B%202%20%7D%5Cleft%28%20k-r-1%20%5Cright%29&height=53&width=254)，（有 $假设检验 - 图38$ 个参数需要估计）
卡方拟合检验使用时必须注意：
$假设检验 - 图39$ 要足够大， $假设检验 - 图40$ ；
$假设检验 - 图41$ %5Cge%205#card=math&code=n%7B%20p%20%7D%7B%20i%20%7D%28%E6%88%96n%7B%20%7B%20%5Chat%20%7B%20p%20%7D%20%20%7D%7B%20i%20%7D%20%7D%29%5Cge%205&height=24&width=109)；
否则应适当合并相邻的类（组），以满足要求。

偏度、峰度检验

秩和检验

假设检验问题的 P 值法

p-value是指在一个概率模型中，统计摘要（如两组样本均值差）与实际观测数据相同，或甚至更大这一事件发生的概率。换言之，是检验假设零假设成立或表现更严重的可能性。p-value若与选定显著性水平（0.05 或 0.01）相比更小，则零假设会被否定而不可接受。然而这并不直接表明原假设正确。通常在零假设下，p-value是一个服从 $假设检验 - 图42$ 区间均匀分布的随机变量，在实际使用中因样本等各种因素存在不确定性。产生的结果可能会带来争议。

简单来说，p-value就是在假设原假设（）正确时，出现现状或更差的情况的概率。

从研究总体中抽取一个随机样本计算检验统计量的值计算概率p-value或者说观测的显著水平，即在假设为真时的前提下，检验统计量大于或等于实际观测值的概率，当然要看假设的情况选择单侧p-value和双侧p-value:

如果p-value<0.01，说明是较强的判定结果，拒绝假定的参数取值。
如果0.01<p-value<0.05，说明较弱的判定结果，拒绝假定的参数取值。
如果p-value>0.05，说明结果更倾向于接受假定的参数取值。

可是，那个年代，由于硬件的问题，计算p-value并非易事，人们就采用了统计量检验方法，也就是我们最初学的 $假设检验 - 图44$ 值和 $假设检验 - 图45$ 临界值比较的方法。统计检验法是在检验之前确定显著性水平 $假设检验 - 图46$ ，也就是说事先确定了拒绝域。但是，如果选中相同的 $假设检验 - 图47$ ，所有检验结论的可靠性都一样，无法给出观测数据与原假设之间不一致程度的精确度量。只要统计量落在拒绝域，假设的结果都是一样，即结果显著。但实际上，统计量落在拒绝域不同的地方，实际上的显著性有较大的差异。因此，随着计算机的发展， $假设检验 - 图48$ 值的计算不再是个难题，使得 $假设检验 - 图49$ 值变成最常用的统计指标之一。

以上关于p-value内容分别摘录自Wikipedia，知乎和百度百科。