相比一维数据的自己跟自己过不去,二维数据,就是自己跟其他数据过不去。

这里我们先介绍的是,二个数据间的差异。

差异检验

两组比较

  • 正态分布数据, t 检验

6. 二维数据:差异 - 图1

默认下使用的是Welch Two Sample t-test,不需要满足方差齐性:

  1. > t.test(a2,a3, var.equal=T)
  2. Two Sample t-test
  3. data: a2 and a3
  4. t = 3.746, df = 198, p-value = 0.0002356
  5. alternative hypothesis: true difference in means is not equal to 0
  6. 95 percent confidence interval:
  7. 1.592921 5.134473
  8. sample estimates:
  9. mean of x mean of y
  10. 34.64285 31.27916

可以修改。

还可以通过指定信息,获得可能出现二型错误(假阴性)的可能:

6. 二维数据:差异 - 图2

多组比较

单纯的通过多组在两两比较来实现多组比较,有以下坏处:

  • 容易增大错误发生的可能性
  • 繁琐且麻烦

参数检验、方差齐性

  • anova(ANalysis Of VAriance)

6. 二维数据:差异 - 图3

我们并不能直接通过anova 获得组别的差异信息:

6. 二维数据:差异 - 图4

但可以通过anova 得到结果后,再通过其他检测进一步验证(比如箱线图)。

6. 二维数据:差异 - 图5

三个前提:

6. 二维数据:差异 - 图6

下面几个方法可以验证anova 中显著差异的分组:

  • 配对t 检验

6. 二维数据:差异 - 图7

  • tukey HSD test

6. 二维数据:差异 - 图8

  • post hoc test

6. 二维数据:差异 - 图9

参数、方差非齐性

6. 二维数据:差异 - 图10

非参数方法

  • kruskal.test

6. 二维数据:差异 - 图11

验证方法也有所不同,使用非参数的配对秩和检验:

6. 二维数据:差异 - 图12

dunn.test:

6. 二维数据:差异 - 图13

方差齐性检验

  • F 检验

6. 二维数据:差异 - 图14

  1. > var.test(a$a1, a$a2)
  2. F test to compare two variances
  3. data: a$a1 and a$a2
  4. F = 0.21446, num df = 19, denom df = 19, p-value = 0.00153
  5. alternative hypothesis: true ratio of variances is not equal to 1
  6. 95 percent confidence interval:
  7. 0.08488522 0.54181849
  8. sample estimates:
  9. ratio of variances
  10. 0.2144583
  • sign test
  • 多组比较bartlett.test:
  1. > bartlett.test(bb~aa, data=a1)
  2. Bartlett test of homogeneity of variances
  3. data: bb by aa
  4. Bartlett's K-squared = 0.11603, df = 2, p-value = 0.9436
  • 非参数方法Fligner-Killeen test:

6. 二维数据:差异 - 图15

效应估计

分别对应参数模型与非参数模型:

6. 二维数据:差异 - 图16

此外,还有计算差异系数的(有点类似变异系数的计算):

6. 二维数据:差异 - 图17

此外,还有anova 的估计方法:

6. 二维数据:差异 - 图18

总结

6. 二维数据:差异 - 图19

步骤:

  • 数据结构和类型是否规范、是否有缺失值、是否有非法数据
  • 箱线图绘图
  • 正态性检验、方差齐性检验
  • 差异检验
  • 效应检验
  • 具体配对检验(post hoc test)