Task03 特征工程

浏览 64 扫码分享 2023-11-22 00:22:08

教材：
https://github.com/datawhalechina/team-learning-data-mining/blob/master/FinancialRiskControl/Task3%20%E7%89%B9%E5%BE%81%E5%B7%A5%E7%A8%8B.md

目的：

学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法
学习特征交互、编码、选择的相应方法

实践操作：
怎么填充缺失值
可以用0值，平均数，众数。然而使用哪种方法会对结果有什么影响还不知道。

时间类型的特征需要处理为数值
类别特征处理（get_dummies方法）

特征分箱

几种分箱方法：
floor
qcut

特征交互。
是什么意思

特征编码
用LabelEncoder编码类别特征。这一步应该风放到上面类别特征处理处更合适些。

特征选择：
以下是摘抄：
特征选择的方法：
- 1 Filter
  - 方差选择法
  - 相关系数法（pearson 相关系数）
  - 卡方检验
  - 互信息法
- 2 Wrapper （RFE）
  - 递归特征消除法
- 3 Embedded
  - 基于惩罚项的特征选择法
  - 基于树模型的特征选择
问题：
使用不同的方法处理缺失值会对结果有什么影响
数据分桶的用途还不完全理解
WOE变换
qcut分箱是什么意思

特征交互是什么意思

总结：
大致的过程：
1、预处理数据，目的是填充缺失值，把时间格式的特征转化为数值；
fillna填充缺失值
get_dummys方法把类别特征转为编码格式
2、处理异常值
3、特征分箱
4、特征交互；这部分还没完全理解

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录