scikit-learn中有两类决策树，它们均采用优化的CART决策树算法。

回归决策树

from sklearn.tree import DecisionTreeRegressor
DecisionTreeRegressor(criterion="mse",
                        splitter="best",
                        max_depth=None,
                        min_samples_split=2,
                        min_samples_leaf=1,
                        min_weight_fraction_leaf=0.,
                        max_features=None,
                        random_state=None,
                        max_leaf_nodes=None,
                        min_impurity_decrease=0.,
                        min_impurity_split=None,
                        presort=False)

参数含义

1.criterion：string, optional (default=”mse”）
它指定了切分质量的评价准则。默认为’mse’(mean squared error)。

2.splitter：string, optional (default=”best”)
它指定了在每个节点切分的策略。有两种切分策咯：
(1).splitter=’best’:表示选择最优的切分特征和切分点。
(2).splitter=’random’:表示随机切分。

3.max_depth：int or None, optional (default=None)
指定树的最大深度。如果为None，则表示树的深度不限，直到
每个叶子都是纯净的，即叶节点中所有样本都属于同一个类别，
或者叶子节点中包含小于min_samples_split个样本。

4.min_samples_split：int, float, optional (default=2)
整数或者浮点数，默认为2。它指定了分裂一个内部节点(非叶子节点)
需要的最小样本数。如果为浮点数(0到1之间)，最少样本分割数为ceil(min_samples_split * n_samples)

5.min_samples_leaf：int, float, optional (default=1)
整数或者浮点数，默认为1。它指定了每个叶子节点包含的最少样本数。
如果为浮点数(0到1之间)，每个叶子节点包含的最少样本数为ceil(min_samples_leaf * n_samples)

6.min_weight_fraction_leaf：float, optional (default=0.)
它指定了叶子节点中样本的最小权重系数。默认情况下样本有相同的权重。

7.max_feature：int, float, string or None, optional (default=None)
可以是整数，浮点数，字符串或者None。默认为None。
(1).如果是整数，则每次节点分裂只考虑max_feature个特征。
(2).如果是浮点数(0到1之间)，则每次分裂节点的时候只考虑int(max_features * n_features)个特征。
(3).如果是字符串’auto’,max_features=n_features。
(4).如果是字符串’sqrt’,max_features=sqrt(n_features)。
(5).如果是字符串’log2’,max_features=log2(n_features)。
(6).如果是None，max_feature=n_feature。

8.random_state：int, RandomState instance or None, optional (default=None)
(1).如果为整数，则它指定了随机数生成器的种子。
(2).如果为RandomState实例，则指定了随机数生成器。
(3).如果为None，则使用默认的随机数生成器。

9.max_leaf_nodes：int or None, optional (default=None)
(1).如果为None，则叶子节点数量不限。
(2).如果不为None，则max_depth被忽略。

10.min_impurity_decrease:float, optional (default=0.)
如果节点的分裂导致不纯度的减少(分裂后样本比分裂前更加纯净)大于或等于min_impurity_decrease，则分裂该节点。
个人理解这个参数应该是针对分类问题时才有意义。这里的不纯度应该是指基尼指数。
回归生成树采用的是平方误差最小化策略。分类生成树采用的是基尼指数最小化策略。
加权不纯度的减少量计算公式为：
min_impurity_decrease=N_t / N (impurity - N_t_R / N_t right_impurity- N_t_L / N_t * left_impurity)

其中N是样本的总数，N_t是当前节点的样本数，N_t_L是分裂后左子节点的样本数，
N_t_R是分裂后右子节点的样本数。impurity指当前节点的基尼指数，right_impurity指
分裂后右子节点的基尼指数。left_impurity指分裂后左子节点的基尼指数。

11.min_impurity_split:float
树生长过程中早停止的阈值。如果当前节点的不纯度高于阈值，节点将分裂，否则它是叶子节点。
这个参数已经被弃用。用min_impurity_decrease代替了min_impurity_split。

12.presort： bool, optional (default=False)
指定是否需要提前排序数据从而加速寻找最优切分的过程。设置为True时，对于大数据集
会减慢总体的训练过程；但是对于一个小数据集或者设定了最大深度的情况下，会加速训练过程。

属性

1.featureimportances : array of shape = [n_features]
特征重要性。该值越高，该特征越重要。
特征的重要性为该特征导致的评价准则的（标准化的）总减少量。它也被称为基尼的重要性

2.maxfeature:int
max_features推断值。

3.nfeatures：int
执行fit的时候，特征的数量。

4.noutputs : int
执行fit的时候，输出的数量。

5.tree_ : 底层的Tree对象。

Notes

控制树大小的参数的默认值（例如max_depth，min_samples_leaf等）导致完全成长和未剪枝的树，
这些树在某些数据集上可能表现很好。为减少内存消耗，应通过设置这些参数值来控制树的复杂度和大小。

方法

1.fit(X,y)：训练模型。
2.predict(X)：预测。

机器学习

回归决策树DecisionTreeRegressor

回归决策树

参数含义

属性

Notes

方法