在数据分析的时候,我们得到的数据会有很多的认证,之前在保险公式分析车险终极赔付率的时候,用到的特征数量可能有上千个,然而并不是特征越多越好,我们导出的数据只是记录了样本的属性,但是并不是所有的属性都对我们的任务(预测标签数据)有用,比如有一些特征有太多的缺失值,我们即使对其进行填充,还是会导致这个特征有太多的信息丢失,会我们的模型准确率照成不利的影响,这个时候就需要进行特征选择
df.drop('enrollee_id', axis=1, inplace=True)
删去不用的列,inplace=True
表示直接在原数据上进行修改- 对于测试集或者预测集如果有缺失值,直接舍弃也可以 ```python cat_data = [] num_data = []
for i,c in enumerate(df.dtypes): if c == object: cat_data.append(df.iloc[:, i]) else: num_data.append(df.iloc[:, i]) ```
- 在代码中我们定义了两个空列表,一个是用来存放数值,一个用来存放文本