实验一

随机挑选一部分样本,将选出的样本的标签依次统一更改至某个标签,只训练20个epoch,保存最后一代的模型
对于mnist_lenet5,正确样本本身所受的影响就比较小,所以随机挑选一部分样本进行修改的效果不如对全部样本进行修改的效果

实验二

在对每一对标签进行转换的时候例如1和2,将那些标签为2但次标签为1(且两者的置信度差值小于某个阈值)的样本的标签改为1进行重训练❗️❗️❗️注:修改标签的这些样本的groudtruth有可能是1,也有可能是2

实验三

在使用finetune模型的基础上将现在使用的onehot向量改为衡量测试用例的预测置信度在变异模型和原模型上的cos相似度
onehot向量:比较测试用例在变异模型和原始模型上的预测结果(label),相同则为0,不同则为1
cos相似度:计算测试用例在变异模型上和原始模型上的预测置信度(两个possibility的向量)的cos相似度
cos相似度相较于onehot向量性能不升反降

实验四

不使用KMeans算法,把现有的特征表示向量降维到一定程度使用HDBSCAN算法并且利用MMD-critic算法挑选出测试用例(效果远不如pace)
受极端情况影响,绝大多数的样本都被分到同一类中(降维并不能解决这一问题)