【1】统计分析方法 - 统计学—显著性检验综述 - 《YT库》

显著性检验概述
显著性检验，即使用样本的数据去推断关于群体数据的描述是否正确。

设立虚无假说与对立假说
根据前提条件，设立检定统计量，找到符合统计量的分布
设立型一误差（显著水准α）
确定弃却域
计算检定统计量，并与弃却域作对比，计算p值
得到结论

关于统计的一些问题
关于独立
比如研究血型与性格是否独立，如果性格a的血型比例与性格b的血型比例相同，那么统计上独立。
关于自由度
定义：构成样本统计量的独立样本观测值的数目或自有变动的样本观测值的数目，用df表示。
在计算估计量的统计量时，引进一个统计量就会减少一个自由度。
例如：已知班级50人，平均分90分，那么自由度49，因为知道49人得成绩就知道总体的成绩。（这里引入了平均数的统计量）
又例如：正态分布的检验中，需要用平均数的标准差确定正态分布的形态，用N去计算各个区间的理论次数，所以自由度为K-3。
参数检验与非参数检验概述
参数检验与非参数检验，共同组陈给了统计推断的基本内容。
联系与区别
参数检验：当总体分布已知（给定或假定，例如正态分布），利用样本数据对一个总体的统计参数（均值，方差）进行推断，或进行两个或多个总体统计参数的比较。
非参数检验：总体分布未知，利用样本数据对总体分布形态推断。
区别：

假设不同：参数检验针对总体参数做假设，非参数检验针对总体的分布情况做假设。
检验对象不同：参数检验检验总体参数，非参数检验检验总体分布。
检验利用信息不同：参数检验利用总体的信息（总体分布、总体方差等参数），以总体分布和样本信息对总体参数做推断。非参数检验不需要用到总体的信息，以样本信息对总体分布做推断。
适用数据不同：参数检验只能用于等距和比例数据，非参数检验主要用于计数数据，也可用于等距和比例数据，但会降低精度。

优缺点
1）参数检验：优点是符合条件时，检验效率高；其缺点是对资料要求严格，如等级数据、非确定数据（＞50mg）不能使用参数检验，而且要求资料的分布型已知和总体方差相等。
2）非参数检验：优点是应用范围广、简便、易掌握；缺点是若对符合参数检验条件的资料用非参数检验，则检验效率低于参数检验。如无效假设是正确的，非参数法与参数法一样好，但如果无效假设是错误的，则非参数检验效果较差，如需检验出同样大小的差异的差异往往需要较多的资料。另一点是非参数检验统计量是近似服从某一部分，检验的界值表也是有近似的（如配对秩和检验）因此其结果有一定近似性。
非参数适用情况
（1）等级顺序资料。
（2）偏态资料。当观察资料呈偏态或极度偏态分布而有未经变量变换，或虽经变量变换但仍未达到正态或近似正态分布时，宜用非参数检验。
（3）未知分布型资料
（4）要比较的各组资料变异度相差较大，方差不齐，且不能变换达到齐性。
（5）初步分析。有些医学资料由于统计工作量过大，可采用非参数统计方法进行初步分析，挑选其中有意义者再进一步分析（包括参数统计内容）
（6）对于一些特殊情况，如从几个总体所获得的数据，往往难以对其原有总体分布作出估计，在这种情况下可用非参数统计方法。
（7）一段或两段无确定数据（比如一段是>50的开区间）
参数检验
正态总体均值的假设检验
检验1组数据样本的均值是否等于，大于或小于某个值，或者检验两组数据样本的均值的大小情况。其中的统计量Z一般服从t分布。
#单个总体情况（检验样本是否符合等于某个均值），样本资料服从正态分布
t.test(x,y=Null, #只提供x为单个正态总体均值检验,否则为两个总体均值检验
alternative=c(“two.side”,”less”,”greater”),#双边检验单边检验
mu=0,#原假设:uo=0,均值为某个具体数字
paired=FALSE,
var.equal=FALSE, #方差齐性选项
conf.level=.95)# 置信水平95%
#两个总体情况，根据方差齐次检验确定t检验和t’检验，也可以使用秩和检验。
#两个独立个体，需满足各个相互独立，且各取自正态分布的总体，在检验方差齐次情况。
t.test(x,y，var.equal=FALSE) #t或者t’检验
x <- c(24,26,29,34,43,58,63,72,87,101)
y <- c(82,87,97,121,164,208,213)
wilcox.test(x,y,alternative=”less”) #秩和检验，适合不服从正态&方差齐次条件下使用
#两个配对总体检验（检验两个总体数据是否一致），差值服从正态分布
t.test(X-Y,…..)

正态总体方差的假设检验
检验1组数据样本的方差是否等于，大于或小于某个值，或者检验两组数据样本的方差的大小情况。其中单样本检验的统计量X2一般服从卡方分布。双样本检测的统计量F一般服从F分布。
#单个总体情况（方差是否为某一值）
#小学生的身高
x <- c(136,144,143,157,137,159,135,158,147,165,158,142,159,150,156,152,140,149,148,155)
#计算p值的函数。 cdf为构造的分布，x为分布的参数，side=-1 备择假设less，0双侧检验，1备择假设greater
pValue <- function(cdf, x, paramet=numeric(0), side=0){
n <- length(paramet)
P <- switch(n+1,
cdf(x),
cdf(x, paramet),cdf(x, paramet[1], paramet[2]),
cdf(x, paramet[1], paramet[2], paramet[3])
)
if(side<0){
P
}else if(side>0){
1-P
}else{
if(P<1/2){
2P
}else{
2(1-P)
}
}
}
#单组方差检定
myVar.testP <- function(x, sigma2=1, mu=Inf, side=0){
n <- length(x)
if(mu S2 <- sum((x-mu)^2)/n; df=n
}else{
S2 <- var(x); df=n-1
}
chi2 <- df*S2/sigma2
P <- pValue(pchisq, chi2, paramet=df, side=side)
data.frame(var=S2, df=df, chisq2=chi2, P_value=P)
}
myVar.testP(x,sigma2=75)
myVar.testP(x,sigma2=75,mu=149)
#两个样本情况（两个样本方差是否相同）
var.test(x,y,ratio=1, #方差比原假设,默认为1
alternative=c(“two.side”,”less”,”greater”),
conf.level=.95)

二项分布总体的假设实验
非正态总体的假设检验有很多，二项分布总体的假设检验相对较为常用。常用于随机抽样实验的成功概率的检验。
#例：某蔬菜种子的发芽率为p=0.85. 现随机抽取500粒种子，
#用药水处理一下，然后测的发芽的种子数为445粒。
#请问药水有没有提高发芽率的作用。
#p值很小，接受对立假说，有好的作用
#95%的置信区间不包括0.85
binom.test(445,500,p=0.85,
alternative=”greater”)
binom.test(x,n,p=0.5, # x是成功次数,n是试验总数,p是原假设，默认概率为0.5
alternative=c(“two.side”,”less”,”greater”),
conf.level=.95)

非参数检验
单样本非参数检验
卡方检验
适配度检验
卡方检验，原假设是：将样本分组，样本的分布情况与某一理论分布情况并无差异。
卡方检验，属于一种吻合性检验，通常适用于对多项分类值得总体分布的分析。
#评估人们对五种啤酒的喜爱程度是否有差异
x = c(210,312,170,85,223)
chisq.test(x) #默认的检验是均匀分布，这里不注明
#31名学生的成绩，检验是否为正态分布
x <- c(25,45,50,54,55,61,64,68,72,75,75,78,79,81,83,84,84,84,85,
86,86,86,87,89,89,89,90,91,91,92,100)
A = table(cut(x,breaks=c(0,69,79,89,100))) #对样本数据进行分组
p = pnorm(c(70,80,90,100),mean(x),sd(x)) #获得理论分布概率值
p = c(p[1],p[2]-p[1],p[3]-p[2],1-p[3])
chisq.test(A,p=p)
#例：大麦杂交后关于芒性的比例应该是无芒：长芒：短芒=9:3:4 。
#我们的实际观测值是335：125：160 。请问观测值是否符合预期？
p <- c(9/16,3/16,4/16)
x <- c(335,125,160)
chisq.test(x,p=p)

注意：
1. 分组的时候每组的频数应该大于5。
2. 如果理论分布依赖于多个未知参数，则先用样本得到参数的估计值，然后构造统计量K。这个时候K的自由度减少未知参数的数量个数。
列联表独立性检验
chisq.test() 同样可以做列联表数据独立性检验，只要将数据写成矩阵的形式就可以了。
#根据列联表判断吸烟与致癌是否有关系
#行名为c(“吸烟”,”不吸烟”)，列名为c(“患癌症”,”没有患癌症”)，数据按列排为c(60,3,32,11)
#p值很小，拒绝无关系的假设，应该有关系
x = matrix(c(60,3,32,11),nrow=2)
chisq.test(x)
#如果一个单元格内的数据小于5，那么pearson检验无效。
#此时应做Fisher精确检验，其在2*2表格，小样本下效果好
fisher.test(x)

双样本分布关系
检验不同组数据之间的分布关系（是否是同一分布）。
ks检验
ks检验，原假设是：样本来自的总体分布与指定的理论分布（正态分布、均匀分布、指数分布、泊松分布）并无显著差异。
ks检验，可以利用样本数据，判断样本来自的总体是否服从某一分布，是一种拟合优度的检验方法，用于探索连续型随机变量的分布。
ks检验，理论上可以检验任何分布。
ks检验，既可以做当样本检验，也可以做双样本检验。
单样本，是否符合某一分布
#单样本检验
#记录一台设备无故障工作时常，并从小到大排序
#420 500 920 1380 1510 1650 1760 2100 2300 2350。
#问这些时间是否服从lambda=1/1500的指数分布？
x <- c(420,500,920,1380,1510,1650,1760,2100,2300,2350)
ks.test(x,”pexp”,1/1500)

双样本，检验是否为同一分布
这里，以变量的秩作为分析对象，并非变量本身。
#双样本检验
#有两个分布，分别抽样了一些数据，问他们是否服从相同的分布。
X<-scan()
Y<-scan()
x = runif(100)
y = runif(100)
ks.test(x,y)

ks检验，主要用于检验连续变量的分布。
卡方适配度检验，主要用于检验离散变量（分组变量）的分布情况以及列联表的相关性。
#卡方适配度检验，用来检验分组数据
#例：用这个函数检验其他分布。抽取31名学生的成绩，检验是否为正态分布。
#小于0.05,拒绝正态分布的假说
x <- c(25,45,50,54,55,61,64,68,72,75,75,78,79,81,83,84,84,84,85,
86,86,86,87,89,89,89,90,91,91,92,100)
A = table(cut(x,breaks=c(0,69,79,89,100))) #对样本数据进行分组
A
p = pnorm(c(70,80,90,100),mean(x),sd(x)) #获得理论分布概率值
p = c(p[1],p[2]-p[1],p[3]-p[2],1-p[3])
p
chisq.test(A,p=p)
#例：大麦杂交后关于芒性的比例应该是无芒：长芒：短芒=9:3:4 。
#我们的实际观测值是335：125：160 。请问观测值是否符合预期？
p <- c(9/16,3/16,4/16)
x <- c(335,125,160)
chisq.test(x,p=p)

二项分布检验
二项分布检验，原假设是：样本来自的总体与指定的二项分布并无显著差异。
二项分布检验，具体是：通过样本数据，检验样本来自的总体是否服从制定概论为p的二项分布。
#二项分布即为n重伯努利实验
#样本中含23个样品，合格20个，判断该产品的合格率是否超过90%
binom.test(20,23,alternative = “greater”,p = 0.9)

变量值随机性检验
变量值随机性检验通过对样本变量值的分析，实现对总体的变量值出现是否随机进行检验。
例如，在投硬币时，如果以1表示出现的是正面，以0表示出现的是反面，在进行了若干次投币后，将会得到一个以1，0组成的变量值序列。这时可能会分析“硬币出现正反面是否是随机的”这样的问题。
变量值随机性检验正是解决这类问题的一个有效方法。它的原假设是：总体变量值出现是随机的。
变量随机性检验的重要依据是游程。所谓游程是样本序列中连续出现相同的变量值的次数。可以直接理解，如果硬币的正反面出现是随机的，那么在数据序列中，许多个1或许多个0连续出现的可能性将不太大，同时，1和0频繁交叉出现的可能性也会较小。因此，游程数太大或太小都将表明变量值存在不随机的现象。
例：为检验某耐压设备在某段时间内工作是否持续正常，测试并记录下该时间段内各个时间点上的设备耐压的数据。现采用游程检验方法对这批数据进行分析。如果耐压数据的变动是随机的，可认为该设备工作一直正常，否则认为该设备有不能正常工作的现象。
两独立样本的非参数检验
两独立样本的非参数检验是在对总体分布不甚了解的情况下，通过对两组独立样本的分析来推断样本来自的两个总体的分布等是否存在显著差异的方法。
独立样本是指在一个总体中随机抽样对在另一个总体中随机抽样没有影响的情况下所获得的样本，不需要考虑同样的顺序性。
某工厂用甲乙两种不同的工艺生产同一种产品。如果希望检验两种工艺下产品的使用是否存在显著差异，可从两种工艺生产出的产品中随机抽样，得到各自的使用寿命数据。
甲工艺：675 682 692 679 669 661 693
乙工艺：662 649 672 663 650 651 646 652
曼-惠特尼U检验
两独立样本的曼-惠特尼U检验可用于对两总体分布的比例判断。
其原假设：两组独立样本来自的两总体分布无显著差异。曼-惠特尼U检验通过对两组样本平均秩的研究来实现判断。秩简单说就是变量值排序的名次，可以将数据按升序排列，每个变量值都会有一个在整个变量值序列中的位置或名次，这个位置或名次就是变量值的秩。
K-S检验
K-S检验不仅能够检验单个总体是否服从某一理论分布，还能够检验两总体分布是否存在显著差异。
其原假设是：两组独立样本来自的两总体的分布无显著差异。
这里是以变量值的秩作为分析对象，而非变量值本身。
游程检验
单样本游程检验是用来检验变量值的出现是否随机，而两独立变量的游程检验则是用来检验两独立样本来自的两总体的分布是否存在显著差异。其原假设是：两组独立样本来自的两总体的分布无显著差异。
两独立样本的游程检验与单样本游程检验的思想基本相同，不同的是计算游程数的方法。两独立样本的游程检验中，游程数依赖于变量的秩。
极端反应检验
极端反应检验从另一个角度检验两独立样本所来自的两总体分布是否存在显著差异。其原假设是：两独立样本来自的两总体的分布无显著差异。
基本思想是：将一组样本作为控制样本，另一组样本作为实验样本。以控制样本作为对照，检验实验样本相对于控制样本是否出现了极端反应。如果实验样本没有出现极端反应，则认为两总体分布无显著差异，相反则认为存在显著差异。
多独立样本的非参数检验
多独立样本的非参数检验是通过分析多组独立样本数据，推断样本来自的多个总体的中位数或分布是否存在显著差异。多组独立样本是指按独立抽样方式获得的多组样本。
例：希望对北京、上海、成都、广州四个城市的周岁儿童的身高进行比较分析。采用独立抽样方式获得四组独立样本。
中位数检验
中位数检验，假设为：多个独立样本来自的多个总体的中位数并无显著差异。
基本思想是：如果多个总体的中位数并无显著差异，或者说多个总体有共同的中位数，那么这个共同的中位数在各个样本中都应该处于中间位置。于是：每组样本中，大于小于中位数的样本数应该大致相同。
Kruskal-Wallis检验
Kruskal-Wallis检验实质是两独立样本的曼-惠特尼U检验在多个样本下的推广，也用于检验多个总体的分布是否存在显著差异。
其原假设是：多个独立样本来自的多个总体的分布无显著差异。
基本思想是：首先，将多组样本数据混合并按升序排序，求出各变量值的秩；然后，考察各组秩的均值是否存在显著差异。容易理解：如果各组秩的均值不存在显著差异，则是多组数据充分混合，数值相差不大的结果，可以认为多个总体的分布无显著差异；反之，如果各组秩的均值存在显著差异，则是多组数据无法混合，某些组的数值普遍偏大，另一些组的数值普遍偏小的结果，可以认为多个总体的分布有显著差异。
Jonckheere-Terpstra检验
Jonckheere-Terpstra检验也是用于检验多个独立样本来自的多个总体的分布是否存在显著差异的非参数检验方法，其原假设是：多个独立样本来自的多个总体的分布无显著差异。
基本思想与两独立样本的曼-惠特尼U检验类似，也是计算一组样本的观察值小于其他组样本的观察值的个数。
两配对样本的非参数检验
两配对样本的非参数检验，是对总体分布不了解的情况下，通过对两组配对样本的分析，推断两个样本来自的两个总体的分布是否存在显著差异。
配对样本的样本数相同，且样本值得前后顺序不能变。
例：要检验一种新的训练方法是否对提高跳远运动员的成绩有显著效果，可以收集一批跳远运动员在使用新训练方法前后的跳远最好成绩，这样的两组样本便是配对的。再例如，分析不同广告形式是否对商品的销售产生显著影响，可以比较几种不同商品在不同广告形式下的销售额数据（其他条件保持基本稳定）。这里不同广告形式下的若干组商品销售额样本便是配对样本。可见，配对样本的样本数是相同的，且各样本值的先后次序是不能随意更改的。
秩统计量
rank()

秩相关检验
检验X，Y是否相互独立，原假设：相互独立（不相关）。
Spearman秩相关检验
cor.test(x,y,
alternative=c(“two.side”,”less”,””greater),
method=”spearman”,conf.level=0.95)

kendall相关检验
cor.test(x,y,
alternative=c(“two.side”,”less”,” greater”),
method=”kendall”,conf.level=0.95)

McNemar检验
原假设是：两配对样本来自的总体分布并无显著差异。
在相同个体上的两次实验，属于变化显著性检验。
检验分析的变量必须是二值变量，有一定局限性。
Mcnemar.test(x,y=Null,correct=TRUE)#二维列表形式的矩阵或由因子构成的对象

符号检验
原假设是：两配对样本来自的总体分布并无显著差异。
侧重于分析变化的方向。
#统计两种饲料养猪的增重情况，判断是否有差异
#如果知道来源于正态分布，其实用均值更好
#没有明显差异
y <- c(19,32,21,19,25,31,31,26,30,25,28,31,25,25)
x <- c(25,30,28,23,27,35,30,28,32,29,30,30,31,16)
binom.test(sum(xvar.test(x,y) #方差相等
t.test(x,y,var.equal = T) #使用参数t检验，没有显著差异

注意：符号检验注重对变化方向的分析，未考虑变化的幅度大小，因此对数据的利用是不充分的。
Wilcoxon符号秩检验
原假设是：

一个总体符合中位数为某一数值的假设
两配对样本来自的总体分布并无显著差异
非配对样本来自的总体的中位数相同（非配对样本的秩和检验）

符号检验只考虑了符号，没有考虑要差异的大小。wilcoxon解决了这个问题。
假设：数据是连续分布的，数据是关于中位数对称的
#单样本检测
#某电池厂商生产的电池中位数为140.
#现从新生产的电池中抽取20个测试。请问电池是否合格
x <- c(137,140,138.3,139,144.3,139.1,141.7,137.3,133.5,
138.2,141.1,139.2,136.5,136.5,135.6,
138,140.9,140.6,136.3,134.1)
wilcox.test(x,mu=140,alternative = “less”,
exact=F,correct=F,confi.int=T)
#配对双样本检测。
#在农场中选择了10块农田，将每一块农田分成2小块，分别用不同的化肥种菜。
#请问化肥会不会提高蔬菜产量。
x <- c(459,367,303,392,310,342,421,446,430,412)
y <- c(414,306,321,443,281,301,353,391,405,390)
wilcox.test(x-y,alternative = “greater”)
#非配对双样本检测
#10名非铅工人和10名铅工人的血铅值是否存在显著差异
x <- c(24,26,29,34,43,58,63,72,87,101)
y <- c(82,87,97,121,164,208,213)
wilcox.test(x,y,alternative=”less”)

多配对样本的非参数性检验
多配对样本的非参数性检验，通过分析多组匹配样本数据，推断样本来自的多个总体的中位数或分布是否存在显著差异。
例如，收集乘客对多家航空公司是否满意的数据，分析航空公司的服务水平是否存在显著差异；再例如，收集不同促销形式下若干种商品的销售额数据，分析比较不同促销形式的效果，再如，收集多名评委对同一批歌手比赛打分的数据，分析评委的打分标准是否一致，等等。
Friedman检验
Friedman检验是利用秩实现对多个总体分布是否存在显著差异的非参数检验方法，其原假设是：多个配对样本来自的多个总体分布无显著差异。
SPSS将自动计算Friedman统计量和对应的概率P值。如果概率P值小于给定的显著性水平0.05，则拒绝原假设，认为各组样本的秩存在显著差异，多个配对样本来自的多个总体的分布有显著差异；反之，则不能拒绝原假设，可以认为各组样本的秩不存在显著性差异。
基于上述基本思路，多配对样本的Friedman检验时，首先以行为单位将数据按升序排序，并求得各变量值在各自行中的秩；然后，分别计算各组样本下的秩总和与平均秩。多配对样本的Friedman检验适于对定距型数据的分析。
Cochran Q检验
通过对多个配对样本的分析，推断样本来自的多个总体的分布是否存在显著差异。其原假设是：多个配对样本来自的多个总体的分布无显著差异。
Cochran Q检验适合对二值品质型数据的分析。如二分的评价：1代表满意，0代表不满意。
Kendall协同系数检验
它也是一种对多配对样本进行检验的非参数检验方法，与第一种检验方法向结合，可方便地实现对评判者的评判标准是否一致的分析。其原假设是：评判者的评判标准不一致。
有6名歌手参加比赛，4名评委进行评判打分，现在需要根据数据推断这4个评委的评判标准是否一致。（见下页具体分析）
如果将每个被评判者对象的分数看做来自多个总体的配对样本，那么该问题就能够转化为多配对样本的非参数检验问题，仍可采用Friedman检验，于是相应的原假设便转化为：多个配对样本来自的多个总体的分布无显著差异。但对该问题的分析是需要继续延伸的，并非站在对6名歌手的演唱水平是否存在显著差异的角度进行分析，而是在认定他们存在差异的前提下继续判断4个评委的打分标准是否一致。
如果利用Friedman检验出各总体的分布不存在显著差异，即各个歌手的秩不存在显著差异，则意味着评委的打分存在随意性，评分标准不一致。原因在于：如果各个评委的评判标准是一致的，那么对于某个歌手来说将获得一致的分数，也就是说，评委给出的若干个评分的秩应完全相同，这就必然会导致各歌手评分的秩有较大的差异