数据源预处理线性回归逻辑回归测试集随机森林瓶颈特征重要性分析集成分类器 数据源 泰坦尼克号的船员信息是否获救为给定标签特征:舱位,性别、年龄、兄弟姐妹数、长辈孩子数、票号、票价 预处理 describe看一下每个特征的统计信息存在数据缺失值填充缺失值,使用平均值填充 存在不同数据类型的数将字符类型映射为数值类型 离散型数据的缺失值使用众数填充 线性回归使用机器学习开发包 设置交叉验证 对预测结果加标签在训练集中验证算法 逻辑回归 测试集 随机森林 当不知道使用什么样的模型的时候首先推荐使用随机森林,效果更好 控制树的高度效果不是很好,参数调节 改用50个树预测 瓶颈当发现修改了模型和参数后还是没有更好的效果 可以回到数据本身研究特征含义这里添加了特征 家庭规模,名字长度 考虑名字中的职称 特征重要性分析 集成分类器