特征选择的优点
- 减少特征冗余
- 减少噪声
- 去除标注性强的特征
- 特征数少,有利于解释模型
- 可能提升模型的性能
过滤法
- 单变量
- 缺失百分比
- 方差
- 频数
- 多变量
- 连续性vs连续性
- 皮尔逊相关系数
- 斯皮尔曼相关系数
- 连续性vs类别性
- 方差分析
- 肯德尔等级相关系数
- 类别型vs类别型
- 卡方检验
- 互信息
- 连续性vs连续性
包裹法
- 完全搜索
- 启发式搜索
- 向前搜索
- 向后搜索
- 递归特征消除
- 随机搜索
- 随机特征子集
- NULL Importance
嵌入法
- L1正则化
参考文献
- 特征选择方法总结
- 《阿里云天池大赛赛题解析—机器学习篇》- 天池平台
- Introduction to Feature Selection methods with an example (or how to select the right variables? - Saurav Kaushik, 文章链接:
- Feature selection - wikipedia, 百科链接:
- 《机器学习》- 周志华
- 关于多重共线性 - my breath
- 如何理解皮尔逊相关系数(Pearson Correlation Coefficient)?- 知乎
- 对方差分析(ANOVA)的直观解释及计算 - 知乎
- 什么是ANOVA? - 知乎
- 互信息 - 搜狗百科
- 【特征选择】包裹式特征选择法 - wanglei5205
- Feature Selection with Null Importances - Olivier
- sklearn.feature_selection.SelectFromModel - scikit-learn