1 决策树1.1 信息熵1.2 信息增益1.3 基尼指数 1 决策树 1.1 信息熵信息熵是用来度量不确定性的一种指标,熵就是信息期望值,不确定性越大,熵值越大。均匀分布,是确定性最低的分布。 1.2 信息增益信息增益,表示得知特征X的信息后,使得Y的不确定性减少的程度;一个属性的信息增益越大,该属性对样本的熵减少的能力越强,将结果由不确定性变为确定性的能力越强。 1.3 基尼指数反映了随机取样的两个样本不一致的概率,越小越纯,也就是分类效果越好。