样本不平衡问题的定义
类别不平衡(class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况。
对模型训练和模型评估的危害
传统机器学习使用分类准确度 ACC 作为评价指标,而ACC 对所有的样本一视同仁,分类器在多数类的分类精度较高而在少数类的分类精度很低。
**
解决办法
数据层面
采样方法
1)分治 ensemble:将大类中样本聚类到 L 个聚类中,然后训练 L 个分类器;每个分类器使用大类中的一个簇与所有的小类样本进行训练得到;最后对这 L 个分类器采取少数服从多数对未知类别数据进行分类,如果是连续值(预测),那么采用平均值。
2)分层级 ensemble:使用原始数据集训练第一个学习器 L1;将 L1 错分的数据集作为新的数据集训练 L2;将 L1 和 L2 分类结果不一致的数据作为数据集训练 L3;最后测试集上将三个分类器的结果汇总(结合这三个分类器,采用投票的方式来决定分类结果,因此只有当 L2 与 L3 都分类为 false 时,最终结果才为 false,否则 true。)
算法层面
选择那些对类别不平衡数据集影响不大的模型/算法
决策树往往在类别不均衡数据上表现不错。它使用基于类变量的划分规则去创建分类树,因此可以强制地将不同类别的样本分开。
SVM、决策树往往在类别不均衡数据上表现不错,类别不平衡数据训练集对这 2 类算法的训练结果表现影响不大。