产生原因
- 样本选择偏差
- 环境不平稳(时间和空间差别)
主要体现在:
- 协变量偏移
- 先验概率偏移
- 概念偏移
判断方法
- KDE分布图
- KS检验
- 对抗验证
解决方法
- 构造合适的验证集
- 人工划分验证集
- 选择和测试集最相似的样本作为验证集
- 有权重的交叉验证
- 删除分布不一致的特征
- 修正分布不一致的特征输入
- 修正分布不一致的预测输出
- 伪标签
参考文献
- 浅谈训练集和测试集分布不一致
- Dataset Shift in Classification: Approaches and Problems - Francisco Herrera, PPT:
- 2021“AI Earth”人工智能创新挑战赛 - 阿里天池, 比赛:
- Kernel Distribution - MathWorks, 文档:
- seaborn.kdeplot(), 文档:
- KS-检验(Kolmogorov-Smirnov test)— 检验数据是否符合某种分布 - Arkenstone, 博客:
- scipy.stats.ks_2samp(), 文档:
- Adversarial_Validation - Qiuyuan918, 代码:
- lightgbm.Dataset(), 文档:
- 蚂蚁金服ATEC风险大脑-支付风险识别—TOP2方案 - 吊车尾学院-E哥, 文章:
- 工业大数据之注塑成型虚拟量测Top5分享 - 公众号: Coggle数据科学
- 数据敏感度:以AI earth为栗子 - 公众号: YueTan
- 伪标签(Pseudo-Labelling)——锋利的匕首 - TripleLift, 文章:
- 训练集和测试集的分布差距太大有好的处理方法吗?- 知乎, 文章: