回归树12.8 - 《机器学习》

回归树

回归树

常用的决策树有 ID3、C4.5、CART 等，其中 CART 就可以用来做回归问题，CART 全称就是 Classification And Regression Tree（分类和回归树）
回归树（regression tree），顾名思义，就是用树模型做回归问题，每一片叶子都输出一个预测值。预测值一般是该片叶子所含训练集元素输出的均值，即 cm=ave(yi|xi∈leafm)cm=ave(yi|xi∈leafm)。
CART 在分类问题和回归问题中的相同和差异：

相同：
- 在分类问题和回归问题中，CART 都是一棵二叉树，除叶子节点外的所有节点都有且仅有两个子节点；
- 所有落在同一片叶子中的输入都有同样的输出。
差异：
- 在分类问题中，CART 使用基尼指数（Gini index）作为选择特征（feature）和划分（split）的依据；在回归问题中，CART 使用 mse（mean square error）或者 mae（mean absolute error）作为选择 feature 和 split 的 criteria。
- 在分类问题中，CART 的每一片叶子都代表的是一个 class；在回归问题中，CART 的每一片叶子表示的是一个预测值，取值是连续的。

原理
决策树最直观的理解其实就是，输入特征空间(R n R^nR__n)，然后对特征空间做划分，每一个划分属于同一类或者对于一个输出的预测值。那么这个算法需要解决的问题是1. 如何决策边界(划分点)？2. 尽可能少的比较次数(决策树的形状)
连续型数据,
先找到第一个特征,遍历第一个特征所有点.找到最优的一个点

整体的误差平方和越小越好
特征1最优切分点:
切分每个点,通过划分点划分C1,C2俩部分子集,计算误差和平方,越小越好.最小的误差和就是最好的划分点.
最优特征:
找最优切分点和最优特征, 特征1最优切分点,损失算出误差的平均值.把每个特征的最优点找到,在找特征里最优的特征

1.很多次误差平方和找最优特征和最优切分点:,

2.最终的预测值:叶子节点的平均值
3.在计算损失,很多次的误差平方和

回归误差:真实值减去预测均值