对两个学习器A和B,各使用k折交叉验证分别得到k个测试错误率,即和。使用k折交叉验证成对t检验(paired t-tests)来进行比较检验。

    对于这两组k个测试错误率,计算两组之间的每一对的差,即,从而得到k个 。我们可以计算 的均值 和方差,定义统计量t:



    可以看到,和前面的t检验相比,这里的分子没有被减项,其实是省略了。因为我们假设两个模型的泛化错误率相同,实际上是假设 ,这个 0 被省略了。

    类似地,这个统计量服从自由度 k-1 的t分布。我们设定好显著度,查表获取临界值范围,如果计算出的t统计量落在在范围内,就能以的把握认为假设成立,即两个模型的泛化性能无显著差别,否则认为平均测试错误率较低的模型更胜一筹。