1、解决正负样本不均衡的问题

1、解决正负样本不均衡的问题

https://zhuanlan.zhihu.com/p/455529171
①数据集层面：
1）对数量少的类别过采样：增加数量，直接复制粘贴、或者加噪声、加扰动或者采取数据增强方法（传统数据增强、GAN增强、风格迁移等），可能会出现过拟合；
2）对数量多的类别进行欠采样：减少数量，欠采样会出现一些问题，可能会把一些重要的特征信心丢失掉，类别特征表达能力不够强，可能会出现欠拟合。
②损失函数层面
对不同数量类别的对应的样本设置不同的class_weight（权重），数量少的权重大，数量大的权重小。
③模型层面
1）集成学习，通过对数量多的类别进行bagging采样，可以构建多个数据集来训练多个模型；
④评价指标层面
1）由于precision、recall、PR曲线、F1都容易受到样本不均衡影响，因此一般不采用，如果非要用，则需要对分类阈值进行调整，比如说类别为0的样本多，则模型偏好于类别0，分类阈值设置小一些；
2）AUC曲线不容易受到类别不均衡影响，AUC指的是ROC曲线下面的面积，代表的含义是随机给定正负样本，正样本得分比负样本高的概率。

牛客机器学习面经答案总结（钟明通）

机器学习

1、解决正负样本不均衡的问题