数据源

  • 泰坦尼克号的船员信息
  • 是否获救为给定标签
  • 特征:舱位,性别、年龄、兄弟姐妹数、长辈孩子数、票号、票价

image.png

预处理

image.png

  • describe看一下每个特征的统计信息
  • 存在数据缺失值
  • 填充缺失值,使用平均值填充

image.png

  • 存在不同数据类型的数
  • 将字符类型映射为数值类型

image.png
image.png

  • 离散型数据的缺失值使用众数填充

    线性回归

  • 使用机器学习开发包

  • 设置交叉验证

image.png
image.png

  • 对预测结果加标签
  • 在训练集中验证算法

image.png

逻辑回归

image.png

测试集

image.png

随机森林

  • 当不知道使用什么样的模型的时候首先推荐使用随机森林,效果更好

image.png

  • 控制树的高度
  • 效果不是很好,参数调节

image.png

  • 改用50个树预测

    瓶颈

  • 当发现修改了模型和参数后还是没有更好的效果

  • 可以回到数据本身研究特征含义
  • 这里添加了特征

image.png

  • 家庭规模,名字长度

image.png

  • 考虑名字中的职称

    特征重要性分析

    image.png
    image.png

    集成分类器

    image.png
    image.png