决策树-工程优化 - 图1只有一个样本,则不予划分,在上一层结束划分(即上层叶子表有混杂) 青年女博士

先按哪个字段划分 信息熵

决策树,以及很多算法都内置了优化

集合算法思想

决策树-工程优化 - 图2模型不好时使用的办法

正向激励 带有权重的决策树 为样本随机分配初始权重

找到符合条件的预测样本时这,平均时 考虑权重

那一侧不准,就把他的权重放大 那就得到了第二棵决策树

这就是正向激励,宁可将已经很准的调整不准,也要把不准的做准

模型都是成熟的,调不好很可能是样本自身的问题,让人工试试

将预测错的单独都拿出来,人工看看是不是好预测

就是青年女博士,工资差很多,实时如此,确实无法预测准,虽然特征完全一样

考虑是否有其他特征没有预测到

决策树-工程优化 - 图3 搞400棵树

特征重要性和

决策树-工程优化 - 图4决策树-工程优化 - 图5

但凡是 _ 结尾的属性,都是训练得到的副产品

决策树-工程优化 - 图6

有重要性为0 的

正向激励兼顾了所有特征

用柱状图表示重要性

决策树-工程优化 - 图7

arg 开头的函数,返回值都是索引

用新的索引作为掩码,与其他数组运算

决策树-工程优化 - 图8 使得原本数组元素从大到小排列的索引顺序 构成的数组

决策树-工程优化 - 图9 用掩码对原有数组 排序

决策树-工程优化 - 图10 同样对名称数组排序

x 已经排过,因此x位置上的name 字符也要排 这里纯粹为了显示方便

决策树-工程优化 - 图11

决策树-工程优化 - 图12

自主聚合 另一种集合算法

决策树-工程优化 - 图13

个别的强势样本 不一定是错误样本,不一定删除

有些精度,即使删掉,也提不上去 精度提不上去就罢了

没有长api 可用,自己循环抽取 建模,但随机森林可以完全替代之

决策树-工程优化 - 图14

列数和行数都被随机了,因此所有的树之间形体差异很大

决策树-工程优化 - 图15

如果只有两个元素,则不予以拆分 决策树-工程优化 - 图16

怎么随机的,我们不关心

案例: 共享单车需求和投放

特征工程: 我们要在这里整理样本

已经做好了均值移除,范围缩放

日期不要,对预测无帮助,只有人口之类算累计量才会用到年份等

整理 x y

pandas readcdv 或者只with open 读进来拆行

决策树-工程优化 - 图17每行字符串结尾的换行去掉, 并转为列表中 最后得到二维列表

决策树-工程优化 - 图18

列表的切割比数组限制大,可以先找转为数组 (最好先切)

切割数据时,期望得到数据部分的2/13 列

决策树-工程优化 - 图19 这样更好

切了也是字符串,转为 float

决策树-工程优化 - 图20

迁移学习: 别人训练好了 我拿来用

决策树-工程优化 - 图21

那么多特征,又是离散又是连续

决策树-工程优化 - 图22

有无数学公式让他们建立联系? 多数离散,就选决策树等基于概率的模型

只是做区分的特征(离散),不应该让他们带入函数中

用公式就很别扭,有一个最初的模型选择的思路

对算法很了解,也选不对,因为样本的认知更加重要

我们这里的岭回归,是基于多个特征,

多项式回归只是一元的 ,是在整体某个特征不符合线性时,对其扩展的

决策树-工程优化 - 图23