比较检验 - 交叉验证t检验 - 《机器学习笔记》

对两个学习器A和B，各使用k折交叉验证分别得到k个测试错误率，即和。使用k折交叉验证成对t检验（paired t-tests）来进行比较检验。

对于这两组k个测试错误率，计算两组之间的每一对的差，即，从而得到k个。我们可以计算的均值和方差，定义统计量t：

可以看到，和前面的t检验相比，这里的分子没有被减项，其实是省略了。因为我们假设两个模型的泛化错误率相同，实际上是假设，这个 0 被省略了。

类似地，这个统计量服从自由度 k-1 的t分布。我们设定好显著度，查表获取临界值范围，如果计算出的t统计量落在在范围内，就能以的把握认为假设成立，即两个模型的泛化性能无显著差别，否则认为平均测试错误率较低的模型更胜一筹。