熵 - 信息增益 - 《机器学习》

我们刚说完信息熵，下面就让我们来看一下什么是信息增益。
我们假设某个离散属性的取值为：
信息增益 - 图1
信息增益 - 图2 代表所有样本在属性信息增益 - 图3 上取值为信息增益 - 图4 的样本集合。
那么以属性信息增益 - 图5 对数据集信息增益 - 图6 进行划分，所得到的信息增益为：
信息增益 - 图7
其中代表按照属性信息增益 - 图8 划分之前的信息熵，信息增益 - 图9 代表属性信息增益 - 图10 取值为信息增益 - 图11 时在所有样本中所占的权重，样本越多代表当前属性的这个取值越重要。一般而言，信息增益越大，则意味着使用属性来进行划分所获得的“纯度提升”越大。
我们还是用之前西瓜的那个例子来说明，假设我们以色泽属性进行分割，那么就对应着三个数据子集：