比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction
教材:
https://github.com/datawhalechina/team-learning-data-mining/blob/master/FinancialRiskControl/Task2%20%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90.md
Todo:
- 目的是什么
[x] 跟着指导实践
目的:
了解怎们对数据集整体基本情况做分析
了解变量间的相关性

实践:
通过info查看数据类型
有缺失的列:

这种写法貌似是等价的
用plot可以直接绘制分布图
对连续变量的分析,这一步报错了
9月22日,anaconda里更新到python3.8,重新安装后,上面的错误解决了,不再纠结
问题:
- 对于有缺失的特征,然后怎么办?什么时候选择去除整个列,什么时候选择填充
- 因为没用系统的学习pandas、numpy的用法,一些用法不能很好的理解:missing = missing[missing > 0]
特征分箱?WOE编码?
总结:pandas:
isnull获取缺失值
nunique获取单一值的特征
- 分析的过程:
1、基本的数据类型、数量、范围
2、查看缺失的列数据、行数据,进一步决定早怎么处理缺失值
3、查看哪些变量是数值变量:
进一步:哪些是离散变量,哪些是连续变量。分别做可视化观察分布情况
- 对非数值型变量做分析
- 查看变量在不同的y值上的分布
