正确样本和错误样本本身的特点其实很难被挖掘出来,之所以我们的方法能够起作用,是因为它们的pcs值或者gini纯度的分布相关性很高,我们通过变异获得测试用例的特征表示向量,再聚类再抽样,一方面是单纯靠一个pcs值或者gini纯度来作为样本和样本是否相似的依据太过粗糙,,另一方面聚类再抽样其实就是更精细化的分层抽样。

    为什么pcs值高或者gini纯度高的正确样本和错误样本能够被分到一类中去?
    pcs值高或者gini纯度高意味着最后预测出的那个类的置信度就很高,有的样本的pcs值甚至能达到接近1,那么可能如果对模型的扰动比较小或者没有扰动到关键的神经元那么模型就不会被杀死!!!相应地如果pcs值比较低,那么轻微的扰动就能改变模型预测的结果。(但不意味着pcs值最低的测试用例就能杀死最多的变异模型)