悲观剪枝

C4.5决策树的后剪枝策略计算复杂度很高,在大数据量的情况下,一般不会使用。悲观剪枝的计算复杂度就很低,并且只需要使用训练集进行判断,因此常常使用悲观剪枝。
PEP的核心思想是:对误判率进行了改进,增加了一个惩罚项;当该子树的误判率大于该子树替换成叶子结点的误判率一个方差时,进行剪枝。
对于样本误判率可以假设服从伯努利分布或者高斯分布,求取参数,然后计算方差和均值。样本的误判率可以通过统计的方法求出了。

参考文献

  1. 决策树后剪枝——悲观剪枝(PEP)