1.概述


1.1 决策树是如何工作的

决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规
则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。
我们来简单了解一下决策树是如何工作的。决策树算法的本质是一种图结构,我们只需要问一系列问题就可以对数据进行分类了。比如说,来看看下面这组数据集,这是一系列已知物种以及所属类别的数据:
image.png
我们现在的目标是,将动物们分为哺乳类和非哺乳类。那根据已经收集到的数据,决策树算法为我们算出了下面的这棵决策树:
image.png

假如我们现在发现了一种新物种Python,它是冷血动物,体表带鳞片,并且不是胎生,我们就可以通过这棵决策树来判断它的所属类别。
可以看出,在这个决策过程中,我们一直在对记录的特征进行提问。最初的问题所在的地方叫做根节点,在得到结论前的每一个问题都是中间节点,而得到的每一个结论(动物的类别)都叫做叶子节点
image.png
决策树算法的核心是要解决两个问题:

  • 如何从数据表中找出最佳节点和最佳分枝?
  • 如何让决策树停止生长,防止过拟合?

几乎所有决策树有关的模型调整方法,都围绕这两个问题展开。这两个问题背后的原理十分复杂,我们会在讲解模型参数和属性的时候为大家简单解释涉及到的部分。在这门课中,我会尽量避免让大家太过深入到决策树复杂的原理和数学公式中(尽管决策树的原理相比其他高级的算法来说是非常简单了),这门课会专注于实践和应用。如果大家希望理解更深入的细节,建议大家在听这门课之前还是先去阅读和学习一下决策树的原理。

1.2 sklearn中的决策树

  • 模块sklearn.tree

sklearn中决策树的类都在”tree“这个模块之下。这个模块总共包含五个类:
image.png
我们会主要讲解分类树和回归树,并用图像呈现给大家。

  • sklearn的基本建模流程

在那之前,我们先来了解一下sklearn建模的基本流程。
image.png
在这个流程下,分类树对应的代码是:

  1. from sklearn import tree #导入需要的模块
  2. clf = tree.DecisionTreeClassifier() #实例化
  3. clf = clf.fit(X_train,y_train) #用训练集数据训练模型
  4. result = clf.score(X_test,y_test) #导入测试集,从接口中调用需要的信息

2.分类树与红酒数据集

class _sklearn.tree.DecisionTreeClassifier (_criterion=’gini’, splitter=’best’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None,random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None,class_weight=None, presort=False)

2.1 分类树的重要参数

2.1.1 criterion

为了要将表格转化为一棵树,决策树需要找出最佳节点和最佳的分枝方法,对分类树来说,衡量这个“最佳”的指标叫做“不纯度”。通常来说,不纯度越低,决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心大多是围绕在对某个不纯度相关指标的最优化上。
不纯度基于节点来计算,树中的每个节点都会有一个不纯度,并且子节点的不纯度一定是低于父节点的,也就是说,在同一棵决策树上,叶子节点的不纯度一定是最低的。
Criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择:

  1. 输入”entropy“,使用信息熵(Entropy)
  2. 输入”gini“,使用基尼系数(Gini Impurity)

    1. ![](https://cdn.nlark.com/yuque/__latex/dadd57e963cb2d8547b96e02214c1876.svg#card=math&code=Entropy%28t%29%20%3D%20-%20%5Csum_%7Bi%3D0%7D%5E%7Bc-1%7Dp%28i%7Ct%29log_%7B2%7D%7Bp%28i%7Ct%29%7D&height=53&id=hFUYr)<br /> ![](https://cdn.nlark.com/yuque/__latex/6b83fb7bac6af599ec590fdcc43730a4.svg#card=math&code=Gini%28t%29%20%3D%201-%5Csum_%7Bi%3D0%7D%5E%7Bc-1%7Dp%28i%7Ct%29%5E&height=53&id=gjOxC)

其中t代表给定的节点,i代表标签的任意分类, 02_决策树 - 图6代表标签分类i在节点t上所占的比例。注意,当使用信息熵时,sklearn实际计算的是基于信息熵的信息增益(Information Gain),即父节点的信息熵和子节点的信息熵之差。
比起基尼系数,信息熵对不纯度更加敏感,对不纯度的惩罚最强。但是在实际使用中,信息熵和基尼系数的效果基本相同。信息熵的计算比基尼系数缓慢一些,因为基尼系数的计算不涉及对数。另外,因为信息熵对不纯度更加敏感,所以信息熵作为指标时,决策树的生长会更加“精细”,因此对于高维数据或者噪音很多的数据,信息熵很容易过拟合,基尼系数在这种情况下效果往往比较好。当模型拟合程度不足的时候,即当模型在训练集和测试集上都表现不太好的时候,使用信息熵。当然,这些不是绝对的。
image.png
到这里,决策树的基本流程其实可以简单概括如下:
image.png

直到没有更多的特征可用,或整体的不纯度指标已经最优,决策树就会停止生长

  • 建立一棵树
  1. # 1. 导入需要的算法库和模块
  2. from sklearn import tree
  3. from sklearn.datasets import load_wine
  4. from sklearn.model_selection import train_test_split
  5. import pandas as pd
  6. # 2. 探索数据
  7. wine = load_wine()
  8. wine.data.shap
  9. wine.target
  10. # 2. 如果wine是一张表,应该长这样:
  11. pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1)
  12. wine.feature_names
  13. wine.target_names
  14. # 3. 分训练集和测试集
  15. Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data,wine.target,test_size=0.3)
  16. Xtrain.shape
  17. Xtest.shape
  18. # 4. 建立模型
  19. clf = tree.DecisionTreeClassifier(criterion="entropy")
  20. clf = clf.fit(Xtrain, Ytrain)
  21. score = clf.score(Xtest, Ytest) #返回预测的准确度
  22. score
  23. # 5. 画出一棵树
  24. feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜
  25. 色强度','色调','od280/od315稀释葡萄酒','脯氨酸']
  26. import graphviz
  27. dot_data = tree.export_graphviz(clf
  28. ,out_file = None
  29. ,feature_names= feature_name
  30. ,class_names=["琴酒","雪莉","贝尔摩德"]
  31. ,filled=True
  32. ,rounded=True
  33. )
  34. graph = graphviz.Source(dot_data)
  35. graph
  36. # 6. 探索决策树
  37. #特征重要性
  38. clf.feature_importances_
  39. [*zip(feature_name,clf.feature_importances_)]

我们已经在只了解一个参数的情况下,建立了一棵完整的决策树。但是回到步骤4建立模型,score会在某个值附近波动,引起步骤5中画出来的每一棵树都不一样。它为什么会不稳定呢?如果使用其他数据集,它还会不稳定吗?我们之前提到过,无论决策树模型如何进化,在分枝上的本质都还是追求某个不纯度相关的指标的优化,而正如我们提到的,不纯度是基于节点来计算的,也就是说,决策树在建树时,是靠优化节点来追求一棵优化的树,但最优的节点能够保证最优的树吗?集成算法被用来解决这个问题:sklearn表示,既然一棵树不能保证最优,那就建更多的不同的树,然后从中取最好的。怎样从一组数据集中建不同的树?在每次分枝时,不从使用全部特征,而是随机选取一部分特征,从中选取不纯度相关指标最优的作为分枝用的节点。这样,每次生成的树也就不同了。

  1. clf = tree.DecisionTreeClassifier(criterion="entropy",random_state=30)
  2. clf = clf.fit(Xtrain, Ytrain)
  3. score = clf.score(Xtest, Ytest) #返回预测的准确度
  4. score

2.1.2 random_state & splitter

randomstate用来设置分枝中的随机模式的参数,默认None,在高维度时随机性会表现更明显,低维度的数据(比如鸢尾花数据集),随机性几乎不会显现。输入任意整数,会一直长出同一棵树,让模型稳定下来。splitter也是用来控制决策树中的随机选项的,有两种输入值,输入”best”,决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝(重要性可以通过属性feature_importances查看),输入“random”,决策树在分枝时会更加随机,树会因为含有更多的不必要信息而更深更大,并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。当你预测到你的模型会过拟合,用这两个参数来帮助你降低树建成之后过拟合的可能性。当然,树一旦建成,我们依然是使用剪枝参数来防止过拟合。

  1. clf = tree.DecisionTreeClassifier(criterion="entropy"
  2. ,random_state=30
  3. ,splitter="random"
  4. )
  5. clf = clf.fit(Xtrain, Ytrain)
  6. score = clf.score(Xtest, Ytest)
  7. score
  8. import graphviz
  9. dot_data = tree.export_graphviz(clf
  10. ,feature_names= feature_name
  11. ,class_names=["琴酒","雪莉","贝尔摩德"]
  12. ,filled=True
  13. ,rounded=True
  14. )
  15. graph = graphviz.Source(dot_data)
  16. graph

2.1.3 剪枝参数

在不加限制的情况下,一棵决策树会生长到衡量不纯度的指标最优,或者没有更多的特征可用为止。这样的决策树往往会过拟合,这就是说,它会在训练集上表现很好,在测试集上却表现糟糕。我们收集的样本数据不可能和整体的状况完全一致,因此当一棵决策树对训练数据有了过于优秀的解释性,它找出的规则必然包含了训练样本中的噪声,并使它对未知数据的拟合程度不足。

  1. #我们的树对训练集的拟合程度如何?
  2. score_train = clf.score(Xtrain, Ytrain)
  3. score_train

为了让决策树有更好的泛化性,我们要对决策树进行剪枝。剪枝策略对决策树的影响巨大,正确的剪枝策略是优化决策树算法的核心。sklearn为我们提供了不同的剪枝策略:

1. max_depth

限制树的最大深度,超过设定深度的树枝全部剪掉这是用得最广泛的剪枝参数,在高维度低样本量时非常有效。决策树多生长一层,对样本量的需求会增加一倍,所以限制树深度能够有效地限制过拟合。在集成算法中也非常实用。实际使用时,建议从=3开始尝试,看看拟合的效果再决定是否增加设定深度。

2. min_samples_leaf & min_samples_split

min_samples_leaf限定,一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本,否则分枝就不会发生,或者,分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生一般搭配max_depth使用,在回归树中有神奇的效果,可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合,设置得太大就会阻止模型学习数据。一般来说,建议从=5开始使用。如果叶节点中含有的样本量变化很大,建议输入浮点数作为样本量的百分比来使用。同时,这个参数可以保证每个叶子的最小尺寸,可以在回归问题中避免低方差,过拟合的叶子节点出现。对于类别不多的分类问题,=1通常就是最佳选择。
min_samples_split限定,一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分枝,否则分枝就不会发生。

  1. clf = tree.DecisionTreeClassifier(criterion="entropy"
  2. ,random_state=30
  3. ,splitter="random"
  4. ,max_depth=3
  5. ,min_samples_leaf=10
  6. ,min_samples_split=10
  7. )
  8. clf = clf.fit(Xtrain, Ytrain)
  9. dot_data = tree.export_graphviz(clf
  10. ,feature_names= feature_name
  11. ,class_names=["琴酒","雪莉","贝尔摩德"]
  12. ,filled=True
  13. ,rounded=True
  14. )
  15. graph = graphviz.Source(dot_data)
  16. graph
  17. clf.score(Xtrain,Ytrain)
  18. clf.score(Xtest,Ytest)

3. max_features & min_impurity_decrease

一般max_depth使用,用作树的”精修“
max_features限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃。和max_depth异曲同工,
max_features是用来限制高维度数据的过拟合的剪枝参数,但其方法比较暴力,是直接限制可以使用的特征数量而强行使决策树停下的参数,在不知道决策树中的各个特征的重要性的情况下,强行设定这个参数可能会导致模型学习不足。如果希望通过降维的方式防止过拟合,建议使用PCA,ICA或者特征选择模块中的降维算法。
min_impurity_decrease限制信息增益的大小,信息增益小于设定数值的分枝不会发生。这是在0.19版本中更新的
功能,在0.19版本之前时使用min_impurity_split。

4. 确认最优的剪枝参数

那具体怎么来确定每个参数填写什么值呢?这时候,我们就要使用确定超参数的曲线来进行判断了,继续使用我们已经训练好的决策树模型clf。超参数的学习曲线,是一条以超参数的取值为横坐标,模型的度量指标为纵坐标的曲线,它是用来衡量不同超参数取值下模型的表现的线。在我们建好的决策树里,我们的模型度量指标就是score。