决策树-工程优化

浏览 344 扫码分享 2025-01-08 08:54:41

集合算法思想

决策树-工程优化 - 图1 只有一个样本，则不予划分，在上一层结束划分（即上层叶子表有混杂）青年女博士

先按哪个字段划分 信息熵

决策树，以及很多算法都内置了优化

集合算法思想

决策树-工程优化 - 图2 模型不好时使用的办法

正向激励带有权重的决策树为样本随机分配初始权重

找到符合条件的预测样本时这，平均时考虑权重

那一侧不准，就把他的权重放大那就得到了第二棵决策树

这就是正向激励，宁可将已经很准的调整不准，也要把不准的做准

模型都是成熟的，调不好很可能是样本自身的问题，让人工试试

将预测错的单独都拿出来，人工看看是不是好预测

就是青年女博士，工资差很多，实时如此，确实无法预测准，虽然特征完全一样

考虑是否有其他特征没有预测到

决策树-工程优化 - 图3 搞400棵树

特征重要性和

决策树-工程优化 - 图4 决策树-工程优化 - 图5

但凡是 _ 结尾的属性，都是训练得到的副产品

决策树-工程优化 - 图6

有重要性为0 的

正向激励兼顾了所有特征

用柱状图表示重要性

决策树-工程优化 - 图7

arg 开头的函数，返回值都是索引

用新的索引作为掩码，与其他数组运算

决策树-工程优化 - 图8 使得原本数组元素从大到小排列的索引顺序构成的数组

决策树-工程优化 - 图9 用掩码对原有数组排序

决策树-工程优化 - 图10 同样对名称数组排序

x 已经排过，因此x位置上的name 字符也要排这里纯粹为了显示方便

决策树-工程优化 - 图11

决策树-工程优化 - 图12

自主聚合另一种集合算法

决策树-工程优化 - 图13

个别的强势样本不一定是错误样本，不一定删除

有些精度，即使删掉，也提不上去精度提不上去就罢了

没有长api 可用，自己循环抽取建模，但随机森林可以完全替代之

决策树-工程优化 - 图14

列数和行数都被随机了，因此所有的树之间形体差异很大

决策树-工程优化 - 图15

如果只有两个元素，则不予以拆分决策树-工程优化 - 图16

怎么随机的，我们不关心

案例：共享单车需求和投放

特征工程：我们要在这里整理样本

已经做好了均值移除，范围缩放

日期不要，对预测无帮助，只有人口之类算累计量才会用到年份等

整理 x y

pandas readcdv 或者只with open 读进来拆行

决策树-工程优化 - 图17 每行字符串结尾的换行去掉，并转为列表中最后得到二维列表

决策树-工程优化 - 图18

列表的切割比数组限制大，可以先找转为数组（最好先切）

切割数据时，期望得到数据部分的2/13 列

决策树-工程优化 - 图19 这样更好

切了也是字符串，转为 float

决策树-工程优化 - 图20

迁移学习：别人训练好了我拿来用

决策树-工程优化 - 图21

那么多特征，又是离散又是连续

决策树-工程优化 - 图22

有无数学公式让他们建立联系？多数离散，就选决策树等基于概率的模型

只是做区分的特征（离散），不应该让他们带入函数中

用公式就很别扭，有一个最初的模型选择的思路

对算法很了解，也选不对，因为样本的认知更加重要

我们这里的岭回归，是基于多个特征，

多项式回归只是一元的，是在整体某个特征不符合线性时，对其扩展的

决策树-工程优化 - 图23

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录