教材:
    https://github.com/datawhalechina/team-learning-data-mining/blob/master/FinancialRiskControl/Task3%20%E7%89%B9%E5%BE%81%E5%B7%A5%E7%A8%8B.md


    目的:

    • 学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法
    • 学习特征交互、编码、选择的相应方法


      image.png

      实践操作:
      怎么填充缺失值
      可以用0值,平均数,众数。然而使用哪种方法会对结果有什么影响还不知道。

      image.png
      时间类型的特征需要处理为数值
      类别特征处理(get_dummies方法)
      image.png

      image.png

      特征分箱
      image.png

      几种分箱方法:

    • floor

    • qcut


      特征交互。
      是什么意思

      特征编码
      用LabelEncoder编码类别特征。这一步应该风放到上面类别特征处理处更合适些。

      特征选择:
      以下是摘抄:
      特征选择的方法:

      • 1 Filter
        • 方差选择法
        • 相关系数法(pearson 相关系数)
        • 卡方检验
        • 互信息法
      • 2 Wrapper (RFE)
        • 递归特征消除法
      • 3 Embedded
        • 基于惩罚项的特征选择法
        • 基于树模型的特征选择



      image.png

      问题:
      使用不同的方法处理缺失值会对结果有什么影响
      数据分桶的用途还不完全理解
      WOE变换
      qcut分箱是什么意思

      image.png
      特征交互是什么意思

      总结:
      大致的过程:
      1、预处理数据,目的是填充缺失值,把时间格式的特征转化为数值;
      fillna填充缺失值
      get_dummys方法把类别特征转为编码格式
      2、处理异常值
      3、特征分箱
      4、特征交互;这部分还没完全理解