核心思想: 相似的输入,必然有相似的输出

    这种算法的实现: 查找数据库,找到所有相似的,做个平均

    决策的问题: 没有某个特征的样本,丢掉特征,层层选取

    可以回归,可以分类下 为连续数据设置阈值

    几个特征拆几层

    决策树 - 图1

    训练模型时,就要把树做好

    没有微积分,纯粹概率的模型

    调整层数: 设值最大深度

    决策树 - 图2

    一眼看不出用任何公式的业务,使用树

    决策树 - 图3

    决策树 - 图4 13 个展特征与506 个样本

    随机种子: 每次打乱都一样

    决策树 - 图5画图看不到: 图层覆盖问题,用zorder 设置大图层

    分类不能使用R2

    用训练集和测试集的各自得分,判断过拟合

    决策树分类器 决策树回归器: 是按预测结果分的,而不是特征

    对于连续的年龄,决策树内部有自动的划分,26岁预测可能被划分到25-35 之间。不会对连续特征每个表现都产生一个分支

    自己整理数据才最麻烦,可能你要公司就给你,也可能要自己查数据库,自己整理: 特征工程