1、解决正负样本不均衡的问题
https://zhuanlan.zhihu.com/p/455529171
①数据集层面:
1)对数量少的类别过采样:增加数量,直接复制粘贴、或者加噪声、加扰动或者采取数据增强方法(传统数据增强、GAN增强、风格迁移等),可能会出现过拟合;
2)对数量多的类别进行欠采样:减少数量,欠采样会出现一些问题,可能会把一些重要的特征信心丢失掉,类别特征表达能力不够强,可能会出现欠拟合。
②损失函数层面
对不同数量类别的对应的样本设置不同的class_weight(权重),数量少的权重大,数量大的权重小。
③模型层面
1)集成学习,通过对数量多的类别进行bagging采样,可以构建多个数据集来训练多个模型;
④评价指标层面
1)由于precision、recall、PR曲线、F1都容易受到样本不均衡影响,因此一般不采用,如果非要用,则需要对分类阈值进行调整,比如说类别为0的样本多,则模型偏好于类别0,分类阈值设置小一些;
2)AUC曲线不容易受到类别不均衡影响,AUC指的是ROC曲线下面的面积,代表的含义是随机给定正负样本,正样本得分比负样本高的概率。
