1 决策树

1.1 信息熵

信息熵是用来度量不确定性的一种指标,熵就是信息期望值,不确定性越大,熵值越大。均匀分布,是确定性最低的分布。

1.2 信息增益

信息增益,表示得知特征X的信息后,使得Y的不确定性减少的程度;一个属性的信息增益越大,该属性对样本的熵减少的能力越强,将结果由不确定性变为确定性的能力越强。

1.3 基尼指数

反映了随机取样的两个样本不一致的概率,越小越纯,也就是分类效果越好。