- 学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法
学习特征交互、编码、选择的相应方法

实践操作:
怎么填充缺失值
可以用0值,平均数,众数。然而使用哪种方法会对结果有什么影响还不知道。

时间类型的特征需要处理为数值
类别特征处理(get_dummies方法)

特征分箱
几种分箱方法:floor
qcut
特征交互。
是什么意思
特征编码
用LabelEncoder编码类别特征。这一步应该风放到上面类别特征处理处更合适些。
特征选择:
以下是摘抄:
特征选择的方法:- 1 Filter
- 方差选择法
- 相关系数法(pearson 相关系数)
- 卡方检验
- 互信息法
- 2 Wrapper (RFE)
- 递归特征消除法
- 3 Embedded
- 基于惩罚项的特征选择法
- 基于树模型的特征选择

问题:
使用不同的方法处理缺失值会对结果有什么影响
数据分桶的用途还不完全理解
WOE变换
qcut分箱是什么意思

特征交互是什么意思
总结:
大致的过程:
1、预处理数据,目的是填充缺失值,把时间格式的特征转化为数值;
fillna填充缺失值
get_dummys方法把类别特征转为编码格式
2、处理异常值
3、特征分箱
4、特征交互;这部分还没完全理解- 1 Filter
