R统计2_t检验

概念

t检验,亦称student t检验(Student’s t test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。 t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。

适用条件

t检验的前提是要求样本服从正态分布或近似正态分布,不然可以利用一些变换(取对数、开根号、倒数等等)试图将其转化为服从正态分布是数据,如若还是不满足正态分布,只能利用非参数检验方法。不过当样本量大于30的时候,可以认为数据近似正态分布。

t检验最常见的四个用途

  1. 单样本均值检验(One-sample t-test)
    用于检验 总体方差未知、正态数据或近似正态的 单样本的均值 是否与 已知的总体均值相等
  2. 两独立样本均值检验(Independent two-sample t-test)
    用于检验 两对独立的 正态数据或近似正态的 样本的均值 是否相等,这里可根据总体方差是否相等分类讨论
  3. 配对样本均值检验(Dependent t-test for paired samples)
    用于检验 一对配对样本的均值的差 是否等于某一个值
  4. 回归系数的显著性检验(t-test for regression coefficient significance)
    用于检验 回归模型的解释变量对被解释变量是否有显著影响

t检验与R语言

1.六种t检验方法

  • 结果解释:t检验的零假设为两组数据均值相等,p-valuep>0.5,不拒绝H0,服从正态分布。

p-valuep<0.5,拒绝H0,不服从正态分布。

  • 不同的t检验方法,结果不同时,可以少数服从多数,或者选择权威的方法
  • t.test(x, y = NULL,
    alternative = c(“two.sided”, “less”, “greater”),
    mu = 0, paired = FALSE, var.equal = FALSE,
    conf.level = 0.95, …)
    y可省,双侧检验alternative = “two.sided”,配对则paired = T,方差齐则var.equal = T,执行区间conf.level = 0.9。
  1. > d1 <- sample(1:200,50)
  2. > shapiro.test(d1) #p<0.5,拒绝H0,不服从正态分布 方法一
  3. Shapiro-Wilk normality test
  4. data: d1
  5. W = 0.93832, p-value = 0.01157
  6. > library(nortest) #不同的t检验方法,可以少数服从多数,或者选择权威的方法
  7. > lillie.test(d1) #方法二
  8. Lilliefors (Kolmogorov-Smirnov) normality test
  9. data: d1
  10. D = 0.099835, p-value = 0.2438
  11. > ad.test(d1) #方法三
  12. Anderson-Darling normality test
  13. data: d1
  14. A = 0.82317, p-value = 0.0312
  15. > cvm.test(d1) #方法四
  16. Cramer-von Mises normality test
  17. data: d1
  18. W = 0.1133, p-value = 0.0714
  19. > pearson.test(d1) #方法五
  20. Pearson chi-square normality test
  21. data: d1
  22. P = 5.6, p-value = 0.5872
  23. > sf.test(d1) #方法六
  24. Shapiro-Francia normality test
  25. data: d1
  26. W = 0.95149, p-value = 0.03981
  27. t.test(x, y = NULL,
  28. alternative = c("two.sided", "less", "greater"),
  29. mu = 0, paired = FALSE, var.equal = FALSE,
  30. conf.level = 0.95, ...)
  31. # y可省,双侧检验alternative = "two.sided",配对则paired = T,方差齐则var.equal = T,执行区间conf.level = 0.9

2.单样本均值检验(One-sample t-test)

  • 目的:检验单样本的均值是否和已知总体的均值相等。
  • 要求:
  1. 总体方差未知,否则就可以利用R统计2_t检验 - 图1检验(也叫R统计2_t检验 - 图2检验,就是正态检验)
  2. 正态数据或近似正态
  • H0:样本均值与总体均值相等
  1. > d3 <- rnorm(200,3,5) #rnorm的参数分别为数据量,均值,标准差
  2. > d4 <- rnorm(200,4,5)
  3. > shapiro.test(d3) #p值大于0.5 服从正态分布
  4. Shapiro-Wilk normality test
  5. data: d3
  6. W = 0.9927, p-value = 0.4221
  7. > shapiro.test(d4)
  8. Shapiro-Wilk normality test
  9. data: d4
  10. W = 0.99524, p-value = 0.7847
  11. > t.test(d3,mu = 3.2) #样本均数与总体均数的比较,d3为样本均数,mu为总体均数
  12. One Sample t-test
  13. data: d3
  14. t = -0.67298, df = 199, p-value = 0.5017
  15. alternative hypothesis: true mean is not equal to 3.2
  16. 95 percent confidence interval:
  17. 2.251942 3.665607
  18. sample estimates:
  19. mean of x
  20. 2.958775
  21. #p>0.5 表示没有差异

3.两独立样本均值检验(Independent two-sample t-test)

  • 目的:检验两独立样本的均值是否相等。
  • 要求:两样本独立,服从正态分布或近似正态,方差齐。
  • H0:要检验两总体均值相等(双侧检验,或者单侧检验,一个大于或小于另一个)
  • 方法:先用var.test(d3,d4)检测两个样本是否方差齐, p-value >0.5则方差齐,var.equal值需通过var.test()方差齐性检验得出,p>0.5则方差齐则var.equal=T,反之亦然,默认ar.equal=F。若var.equal = F,默认的t.test就是改良的t.test
  1. > var.test(d3,d4) #方差齐性检验,p>0.5则方差齐
  2. F test to compare two variances
  3. data: d3 and d4
  4. F = 1.0861, num df = 199, denom df = 199, p-value =
  5. 0.5607
  6. alternative hypothesis: true ratio of variances is not equal to 1
  7. 95 percent confidence interval:
  8. 0.8219591 1.4351700
  9. sample estimates:
  10. ratio of variances
  11. 1.086117
  12. > t.test(d3,d4,mu = 3.2,var.equal = T) #p<0.5 有显著性差异
  13. Two Sample t-test
  14. data: d3 and d4
  15. t = -8.7659, df = 398, p-value < 2.2e-16
  16. alternative hypothesis: true difference in means is not equal to 3.2
  17. 95 percent confidence interval:
  18. -2.1311882 -0.1779695
  19. sample estimates:
  20. mean of x mean of y
  21. 2.958775 4.113353

3.配对样本均值检验(Dependent t-test for paired samples)

  • 目的:用于检验 一对配对样本的均值的差 是否等于某一个值
  • 要求:
  1. 总体方差相等
  2. 正态数据或近似正态
  • H0: 配对样本的均值差值为0(双侧检验,或者单侧检验)
  1. > t.test(d3,d4,paired = T) #p-value = 0.02885 <0.5 有统计学差异
  2. Paired t-test
  3. data: d3 and d4
  4. t = -2.2016, df = 199, p-value = 0.02885
  5. alternative hypothesis: true difference in means is not equal to 0
  6. 95 percent confidence interval: #95%置信区间
  7. -2.1887424 -0.1204153
  8. sample estimates:
  9. mean of the differences #均值
  10. -1.154579