特征选择的优点

  1. 减少特征冗余
  2. 减少噪声
  3. 去除标注性强的特征
  4. 特征数少,有利于解释模型
  5. 可能提升模型的性能

过滤法

  1. 单变量
    1. 缺失百分比
    2. 方差
    3. 频数
  2. 多变量
    1. 连续性vs连续性
      1. 皮尔逊相关系数
      2. 斯皮尔曼相关系数
    2. 连续性vs类别性
      1. 方差分析
      2. 肯德尔等级相关系数
    3. 类别型vs类别型
      1. 卡方检验
      2. 互信息

包裹法

  1. 完全搜索
  2. 启发式搜索
    1. 向前搜索
    2. 向后搜索
    3. 递归特征消除
  3. 随机搜索
    1. 随机特征子集
    2. NULL Importance

嵌入法

  1. L1正则化

参考文献

  1. 特征选择方法总结
  2. 《阿里云天池大赛赛题解析—机器学习篇》- 天池平台
  3. Introduction to Feature Selection methods with an example (or how to select the right variables? - Saurav Kaushik, 文章链接:
  4. Feature selection - wikipedia, 百科链接:
  5. 《机器学习》- 周志华
  6. 关于多重共线性 - my breath
  7. 如何理解皮尔逊相关系数(Pearson Correlation Coefficient)?- 知乎
  8. 对方差分析(ANOVA)的直观解释及计算 - 知乎
  9. 什么是ANOVA? - 知乎
  10. 互信息 - 搜狗百科
  11. 【特征选择】包裹式特征选择法 - wanglei5205
  12. Feature Selection with Null Importances - Olivier
  13. sklearn.feature_selection.SelectFromModel - scikit-learn