整体的思路是利用killNum和pcs对测试用例进行排序后分层,之前的方法是选择每层中的第一个样本,现在利用类别信息在层内进行采样。
    关于单类精度的优化
    在利用变异模型提取信息时,能够得到test case在原模型和变异模型上预测结果的变化(a -> b)

    1. (仅仅使用b的信息)构造一个10维的向量,表示test case在变异模型上的标签的分布情况(普遍规律:正确样本的分布比较集中,因为在大部分变异模型上的预测结果都和原模型相同;而错误样本的分布比较松散)
    • 没选择下一个测试用例时,尽量选择与已选择的测试用例的向量v差异较大的(这个差异可以用距离,也可以用交叉熵来衡量)
    1. (仅仅使用a的信息)在选择过程中利用原模型对test case的预测结果尽量控制各类样本的个数相同

    结果:上述的方法只能使得最后整体选择出的test case中各类样本的个数比较均匀,对于单类精度的改善没有起到作用,甚至会降低整体精度的预估效果。