特征工程 - 特征选择 - 《数据分析》

在数据分析的时候，我们得到的数据会有很多的认证，之前在保险公式分析车险终极赔付率的时候，用到的特征数量可能有上千个，然而并不是特征越多越好，我们导出的数据只是记录了样本的属性，但是并不是所有的属性都对我们的任务（预测标签数据）有用，比如有一些特征有太多的缺失值，我们即使对其进行填充，还是会导致这个特征有太多的信息丢失，会我们的模型准确率照成不利的影响，这个时候就需要进行特征选择

df.drop('enrollee_id', axis=1, inplace=True)删去不用的列，inplace=True表示直接在原数据上进行修改
对于测试集或者预测集如果有缺失值，直接舍弃也可以 ```python cat_data = [] num_data = []

for i,c in enumerate(df.dtypes): if c == object: cat_data.append(df.iloc[:, i]) else: num_data.append(df.iloc[:, i]) ```

在代码中我们定义了两个空列表，一个是用来存放数值，一个用来存放文本