数据和特征决定了机器学习算法的上限，而模型和算法只是不断逼近这个上限。

1.特征提取

复杂的模型在一定程度上减少了特征工程需要做的工作
1 理解业务数据和业务逻辑，特征提取的目标是对业务进行精确，全面的描述
2 理解模型和算法，什么样的特征输入才能有较精确的预测结果

1.1探索性数据分析（EDA）

当没有足够专业领域知识的情况下，通过探索性数据分析往往能够发现不错的特征。

主要考虑他们的大小和分布，对特征进行变换以满足模型的假设。

离散化

单变量过滤：不需要考虑特征之间的相互关系。按照特征变量和目标变量之间的相关性对特征进行排序，过滤掉最不相关的特征变量。计算效率高，不易过拟合，但是可能选择出冗余的特征。

多变量过滤：考虑特征变量之间的相互关系

覆盖率：10000个样本，某个特征只出现了5次，覆盖率很小，剔除
皮尔森相关系数：度量两个变量X,Y之间的线性相关性
Fisher得分：对于分类问题，好的特征应该是在同一类别中的取值比较相似，而在不同类别之间之间的取值差异比较大
假设检验：假设特征变量和目标变量之间相互独立，将其作为H0假设，选择适当检验方法计算统计量，然后根据统计量确定P值做出统计推断。（对于特征变量为类别变量，目标变量为连续数值变量时，可以使用方差分析ANOVA；对于特征变量和目标变量都为连续数值变量时，可以使用皮尔斯卡方检验）
互信息：度量两个随机变量之间共享的信息，即相关性
最小冗余最大相关性(mRMR)：跟已选择特征的相关性较高的冗余特征进行惩罚。mRMR方法可以使用多种相关性的度量指标
相关特征选择(CFS)：

2.2 封装方法

过滤方法与具体的机器学习算法相互独立，因此过滤方法没有考虑选择的特征在具体机器学习算法上的效果。而封装方法直接使用机器学习算法评估特征子集的效果，它可以检测出两个或者多个特征之间的交互关系，而且选择的特征子集让模型的效果达到最优。

缺点：样本不够充分的情况下容易过拟合；特征变量较多时计算复杂度高

嵌入方法将特征选择嵌入到模型的构建过程中，具有封装方法与机器学习算法相结合的有点，而且具有过滤方法计算效率高的优点。是实际应用中最常见的方法。