比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction
    教材:
    https://github.com/datawhalechina/team-learning-data-mining/blob/master/FinancialRiskControl/Task2%20%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90.md


    Todo:

    • 目的是什么
    • [x] 跟着指导实践



      目的:
      了解怎们对数据集整体基本情况做分析
      了解变量间的相关性

      image.png

      实践:
      通过info查看数据类型
      image.png
      有缺失的列:

      image.png

      这种写法貌似是等价的
      image.png
      用plot可以直接绘制分布图
      image.png

      对连续变量的分析,这一步报错了
      image.png

      9月22日,anaconda里更新到python3.8,重新安装后,上面的错误解决了,不再纠结
      image.png

    问题:

    • 对于有缺失的特征,然后怎么办?什么时候选择去除整个列,什么时候选择填充
    • 因为没用系统的学习pandas、numpy的用法,一些用法不能很好的理解:missing = missing[missing > 0]
    • 特征分箱?WOE编码?



      总结:

    • pandas:

    isnull获取缺失值
    nunique获取单一值的特征

    • 分析的过程:

    1、基本的数据类型、数量、范围
    2、查看缺失的列数据、行数据,进一步决定早怎么处理缺失值
    3、查看哪些变量是数值变量:
    进一步:哪些是离散变量,哪些是连续变量。分别做可视化观察分布情况

    • 对非数值型变量做分析
    • 查看变量在不同的y值上的分布