假设检验【6-9】 - 《生物统计学》

总结
1. 【Z检验】单样本+总体方差已知
- 1.1 中心极限定理
- 1.2 置信区间计算推导
2. 【t检验】单样本+总体方差未知
- 2.1 确定假设检验结果的统计显著性的两种方法
3. 【卡方检验】单样本+方差检验
4. 【Z检验】大样本+比例检验
5. 【二项检验】小样本+比例检验
检验功效
非参数检验
11.【符号检验】
12.【秩检验】
13.【秩和检验】两个独立样本的非参数检验
多重假设检验矫正
单因素方差分析
多因素方差分析
多样本检验
缺失值

总结

编号	检验类型	样本数量	检验类型	前提条件	统计检验量计算	检验代码【R】	置信区间	检验效力	样本量计算
1.	参数检验	单样本	均值检验	1. 总体方差已知	Z检验	#计算对应z值的概率密度(Pr) >pnorm(q, lower.tail = TRUE) #计算z值 >qnorm(p,lower.tail = TRUE) #z检验 >z.test(x,alternative = “two.sided”, mu = 0, sigma.x = NULL,conf.level = 0.95) #检验样本是否符合正态分布 >shapiro.test(x)			单边检验
2.				1. 总体方差未知 1. >30的大样本或总体服从正态分布的小样本	t检验 t = （df=n-1）	#计算对应t值的概率密度(Pr) >pt(q, df, lower.tail = TRUE) #计算t值 >qt(p, df, lower.tail = TRUE) #t检验 >t.test(x,alternative=c(“two.sided”, “less”, “greater”)	双边检验单边检验	（\|μ1-μ0\|都是大的减小的）	对于t检验的样本容量，由于t依赖于样本容量，可以使用z检验进行近似估计
3			方差检验	1. 总体服从正态分布	卡方检验	#计算对应X2值的概率密度(Pr) >pchisq(q, df, lower.tail = TRUE) #计算X2值 >qchisq(p, df, lower.tail = TRUE) #卡方检验 >chisq.test(X)	双边检验
4			比例检验	1. np>15 1. n(1-p)≥15	Z检验	同1
5				1. np<15	二项分布	#计算对应的概率密度值 >pbinom(q, size, prob, lower.tail = TRUE) #某值的概率 dbinom(x, size, prob, log = FALSE) #概率密度 pbinom(q, size, prob, lower.tail = TRUE, log.p = FALSE) #计算某概率下的值 qbinom(p, size, prob, lower.tail = TRUE, log.p = FALSE) #二项分布检验 >binom.test(x, n, p = 0.5, alternative = c(“two.sided”, “less”, “greater”), conf.level = 0.95)
6		双样本	均值检验	1. 两个配对样本	t检验	同2		双尾
7			方差检验	1. 两个服从正态分布的独立样本	F检验	#F检验 >var.test(x, y, ratio = 1, alternative = c(“two.sided”, “less”, “greater”), conf.level = 0.95,)		双尾
8			均值检验	1. 两个总体都是正态分布或大样本 1. 独立样本 1. 总体方差已知	Z检验	同1			两个样本量相等两个样本量不等 k=n2/n1 △=\|μ2-μ1\| #R中pwr包估计功效和样本大小 >pwr.t.test(n = NULL, d = NULL, sig.level = 0.05, power = NULL, type = c(“two.sample”, “one.sample”, “paired”),alternative = c(“two.sided”, “less”, “greater”))
9				1. 两个总体都是正态分布或大样本 1. 独立样本 1. 总体方差未知且相等	t检验	#t检验 >t.test(x,y,var.equal=”TRUE”)		双尾
10				1. 两个总体都是正态分布或大样本 1. 独立样本 1. 总体方差未知且不等	t检验	#t检验 >t.test(x,y,var.equal=”FALSE”)		双尾
11		多样本	方差检验	1. 任意样本	Bartlett检验 Levene检验	#Bartlett检验 >bartlett.test(formula) #Levene检验 >leveneTest(formula)
12			均值检验	1. 只有一个自变量 1. 具有两个或两个以上的水平 1. 总体服从正态分布 1. 总体之间方差同质 1. 样本之间彼此独立	单因素ANOVA	#ANOVA >summary(aov(formula, data = NULL)) >oneway.test(formula, data,var.equal = TRUE) #拟合线性模型 >summary(lm(formula, data = NULL)) >anova(lm(formula, data = NULL))
13				1. 单因素方差存在有差异样本 1. 寻找差异样本	成对t检验 Tukey HSD，纠正多重测试问题的替代方法	#pairwise.t.test检验 >pairwise.t.test(x, g, p.adjust.method = c(“bonferroni”,”fdr”)) #Tukey HSD检验 >TukeyHSD(aov(formula, data = NULL)) >plot(TukeyHSD(aov(formula, data = NULL)))
14				1. 总体之间方差不等	韦尔奇的ANOVA	#Welch的ANOVA >oneway.test(formula, data,var.equal = FALSE)
15				1. 两个变量及其相互作用 1. 总体服从正态分布 1. 总体之间方差同质 1. 样本之间彼此独立	双因素ANOVA	#ANOVA >summary(aov(formula, data = NULL)) [注：有交互作用用*表示，没有交互作用用+表示] #可视化 >interaction.plot(x.factor, trace.factor, response,type=”b”,col=c(),pch=c()) >plotmeans(response~interaction(x.factor,trace.factor，sep=””),connect=list(c(),c())) >interaction2wt(formula)
16				1. 双因素方差存在差异样本 1. 寻找差异样本	后续分析	#Tukey HSD检验 >TukeyHSD(aov(formula, data = NULL))
17	非参数检验	单样本	中位数检验	1. 任意样本	符号检验（sign test）秩检验（wilcoxon test）	#秩检验 >wilcox.test(x, y,paired = TRUE, exact = FALSE)	符号检验
18		双样本		1. 配对样本
19				1. 独立样本	秩和检验	#秩和检验 >wilcox.test(x, y,paired = FALSE, exact = FALSE)
20		多样本		1. 总体分布为非正态 1. 因变量为序数数据	Kruskal-Wallis检验	#Kruskal-Wallis检验 >kruskal.test(formula, data)
21				1. KW检验存在差异 1. 寻找差异样本	配对秩和检验	#配对秩和检验 >pairwise.wilcox.test(formula,data, p.adjust.method = c(“bonferroni”,”fdr”))

1. 【Z检验】单样本+总体方差已知

1.1 中心极限定理

设从均值为μ、方差为σ2的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为 σ的正态分布。

例题：波士顿市医院的1000名婴儿的平均出生体重为112.0盎司，标准偏差为20.6盎司。 10名婴儿的平均出生体重在98.0到126.0盎司之间的概率是多少？

1.2 置信区间计算推导

置信率=1-α
置信区间指在指定置信率下，原假设分布总体均值的估计区间

2. 【t检验】单样本+总体方差未知

2.1 确定假设检验结果的统计显著性的两种方法

临界值算法：计算检验统计量t，并与a水平下的临界值tn-1进行比较。
计算p-value值：计算出准确的p值，与α进行比较。

注意：计算p值时，要注意检验的类型（单边or双边），通过p值在分布图中的含义来进行计算。

3. 【卡方检验】单样本+方差检验

从正态分布中随机选择的数据，样本方差遵循卡方分布
例题：一种新的动脉血压仪被开发出来，并被宣传与标准血压仪相比，能够减少不同观察者所获得的测量结果的可变性。假设标准血压仪的σ2= 35。这个广告是真的吗?——双边检验

4. 【Z检验】大样本+比例检验

例题：在50-54岁的10,000名患有乳腺癌患者中，大约有400名的母亲某个时期患有乳腺癌。该年龄段的美国女性患乳腺癌的比例约为2％。家族史是否影响乳腺癌?

5. 【二项检验】小样本+比例检验

例题：在特别严重的感染中，平均每100名患者中有60人存活下来。当随机抽取15名感染患者服用一种新药时，12人存活了下来。这能证明药物有效吗?
（1）临界值算法（2）计算p-value值

给定p = 0.6，观察到12个或更多患者存活的概率为
P（x = 12）+ P（x = 13）+ P（x = 14）+ P（x = 15）
= 0.0905019>α（0.05），故该药无效。

检验功效

1.含义

2.意义

如果备择假设是正确的——也就是说，如果真实均值与零假设下的均值不同，那么测试的功效告诉我们，在有限的样本大小n的基础上检测到统计上显著差异的可能性有多大。
如果功效太低，则几乎没有机会找到显着差异，即使被研究组的真实平均值和零平均值之间存在真正的差异，也有可能出现不显著的结果。样本容量不足通常是检测科学意义差异的低功率的原因。

3.计算

例题：在低SES地区，一家医院的100名婴儿的出生体重的平均出生体重（x）为115盎司。假设全国平均水平为120盎司，标准偏差为24盎司。计算检验效力。【μ1<μ0】

例题：假设父亲死于心脏病的10名儿童的平均胆固醇水平为175mg / dL，样本标准偏差为50mg / dL。该测试的显着性水平为5％，平均替代值为190 mg / dL，计算检验效力。【μ1>μ0】

4. 提高检验功效的方法

①降低限制性水平
②增大样本量
③增大效应量【effect size】
效应量与样本量无关，表示两个总体之间的真实差异。对于足够大的样本，除非效应量恰好为零，否则p值几乎总是有意义的。但非常小的差异，即使显著，往往也是毫无意义的。
④降低样本均值抽样分布的方差

非参数检验

含义

不依赖基本总体分布的的形式和参数；其数据可以是任意变量形式的；通常是对中位数进行检验

优缺点

优点：简单，仅需对数据进行计数或排序；应用范围更广，比参数检验更加稳定
缺点：没有充分利用数据的分布，效果较弱；在数据变换过程中，容易损失很多信息

11.【符号检验】

如果观测值是真是的中位数，则任何观测值都有50%的机会大于中位数，符合p=0.5的二项分布。
对于大样本，二项分布近似于正态分布，μ=n/2，σ2=n/4

12.【秩检验】

求每个观测值与中位数的绝对值后进行排序

13.【秩和检验】两个独立样本的非参数检验

将两个样本进行合并，并进行排序

多重假设检验矫正

1. Bonferroni

一种非常简单的方法，用于在执行m个独立的假设检验时确保维持α的总体I类错误率。

2. FWER顺序调整

对未修正的p值进行排序，对他们一次进行不同程度的修正

3. FDR

是控制被拒绝假设集合(R)中的假阳性比例。

单因素方差分析

方差分析的原理

总残差平方和(SS)=组间平方和(系统差异)+组内平方和(非系统差异)

如果SSbetween >> SSwithin ，则拒绝原假设，认为至少有一组的均值存在差异。

计算程序(step-by-step)

(1)读取数据

（2）计算总均值和分离均值

> GrandMean <- mean(PERCENT);GrandMean
> SMeans <- aggregate(PERCENT,by=list(JUDGE),FUN=mean);SMeans

（3）计算平方和

> SVars <- aggregate(PERCENT,by=list(JUDGE),FUN=var)
> SLens <- aggregate(PERCENT,by=list(JUDGE),FUN=length)
> within_SS <- sum((SLens$x-1)*SVars$x)
> total_SS <- sum((PERCENT-GrandMean)^2) 
> between_SS <- total_SS-within_SS

(4)计算自由度

> df_between <- length(levels(JUDGE))-1
> df_within <- length(PERCENT) - length(levels(JUDGE))

(5)计算均方

> between_MS <- between_SS/df_between
> within_MS <- within_SS/df_within

(6)F值和p值

> F_ration <- between_MS/within_MS
> P_value <- 1-pf(F_ration,df_between,df_within)

多因素方差分析

计算程序(step-by-step)

多样本检验

缺失值

#判断是否有缺失值
>is.na()
#寻找缺失值
>md.pattern()
#删除缺失值——删除行
>na.omit()
#可视化
>aggr()
>matrixplot()