1、Filter(过滤法)
2、Wrapper(包裹型)
- 2.1、递归特征消除法
3、Embedded(嵌入型)
- 3.1、基于惩罚项的特征选择法
- 3.2、基于树模型的特征选择法

特征选择的目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。另一方面，选取出真正相关的特征简化模型，协助理解数据产生的过程。本质上可以认为是降维的过程。
.本文是按评价准则分类

1、Filter(过滤法)

这种方法计算每一个特征与类别的相关度，并获得一个得分。得分高的特征表明其与类别的关系越强。最后将所有特征按得分高低排序，选择得分高的特征。
Filter类的特征选择只需做简单的统计，计算复杂度低。但这种方法的问题是没有考虑特征之间的组合关系，有可能某一个特征的分类能力很差，但是它和某些其它特征组合起来会得到不错的效果。

1.1、方差选择法

使用方差选择法，先要计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征。

1.2、相关系数法

使用相关系数法，先要计算各个特征对目标值的相关系数以及相关系数的P值。

1.3、卡方检验

经典的卡方检验是检验定性自变量对定性因变量的相关性。假设自变量有N种取值，因变量有M种取值，考虑自变量等于i且因变量等于j的样本频数的观察值与期望的差距，构建统计量：
5、特征选择 - 图1

2、Wrapper(包裹型)

假如有p个特征，那么就会有2p种特征组合，每种组合对应了一个模型。Wrapper类方法的思想是枚举出所有可能的情况，从中选取最好的特征组合。
这种方式的问题是：由于每种特征组合都需要训练一次模型，而训练模型的代价实际上是很大的，如果p非常大，那么上述方式显然不具有可操作性。

2.1、递归特征消除法

递归消除特征法使用一个基模型来进行多轮训练，每轮训练后，消除若干权值系数的特征，再基于新的特征集进行下一轮训练。
比如用逻辑回归，怎么做这个事情呢？
①  用全量特征跑一个模型
②  根据线性模型的系数(体现相关性)，删掉5-10%的弱特征，观察准确率/auc的变化
③  逐步进行，直至准确率/auc出现大的下滑停止

3、Embedded(嵌入型)

3.1、基于惩罚项的特征选择法

使用带惩罚项的基模型，除了筛选出特征外，同时也进行了降维。使用feature_selection库的SelectFromModel类结合带L1惩罚项的逻辑回归模型，来选择特征的代码如下：

3.2、基于树模型的特征选择法

树模型中GBDT也可用来作为基模型进行特征选择，使用feature_selection库的SelectFromModel类结合GBDT模型，来选择特征的代码如下