1. 变异模型生成
    2. 聚类
    • 如果使用HDBCSAN等其他不需要提前确定聚类类别数的算法,较新的算法如Mean-shift、AffinityPropagation等都有多个参数需要指定且聚类效果堪忧😔
    • 如果继续使用kmeans,需要自行确定聚类参数k(k=2时,按照killnum采样的话效果会受到簇的大小的限制)
    1. 采样

    对于测试用例选择任务,其实不需要执着于总是从一个簇中只选择错误样本或只选择出错误样本,而且要选择每个簇中有代表性的样本,测试用例选择任务的目标是选择出一定数量的正确样本和错误样本来拟合整个测试集的准确率。

    • 在簇内使用mmd-critic原型采样方法进行采样(❌❌❌)
    • 在簇内利用CES中拟合分布的方法进行采样
    • 令k=3,在数量最多的簇内即几乎都是正确样本的簇内依据killnum尽量只选正确样本

      1. 在错误样本最集中的簇内依据killnum尽量之选错误样本<br /> 在“第三簇”内,按照mmd-critic或者距离选择最有代表性的部分样本