决策树 - 《Notes》

决策树最核心的一步是选择最优划分属性, general来说, 最优的标准应该符合:
我们希望每次选择的属性可以让划分后的分支数据更有区分性，使各个分支的数据分类纯度更高，最好是每个分支的样本数据尽可能属于同一类别。决策树 - 图1 属性划分的标准是让每个分支纯度更高，最好是每个分支的数据尽可能属于同一类别，其实就是尽可能增加分类的确定性。而熵表示了事件的不确定性，消除熵可以增加事件的确定性，所以只需计算划分前后熵的变化就可以了。

划分之前计算事件的熵：Ent(X)
按照属性 A 划分后再次计算事件的熵：Ent(X|A)
则 Ent(X) - Ent(X|A) 就是划分之后熵被消除了多少。