我们刚说完信息熵,下面就让我们来看一下什么是信息增益。
    我们假设某个离散属性的取值为:
    信息增益 - 图1
    信息增益 - 图2代表所有样本在属性信息增益 - 图3上取值为信息增益 - 图4的样本集合。
    那么以属性信息增益 - 图5对数据集信息增益 - 图6进行划分,所得到的信息增益为:
    信息增益 - 图7
    其中代表按照属性信息增益 - 图8划分之前的信息熵,信息增益 - 图9代表属性信息增益 - 图10取值为信息增益 - 图11时在所有样本中所占的权重,样本越多代表当前属性的这个取值越重要。一般而言,信息增益越大,则意味着使用属性信息增益 - 图12来进行划分所获得的“纯度提升”越大。
    我们还是用之前西瓜的那个例子来说明,假设我们以色泽属性进行分割,那么就对应着三个数据子集:

    • 信息增益 - 图13代表青绿色,对应的数据编号为信息增益 - 图14,共有6个样本,其中正例3个,负例3个。
    • 信息增益 - 图15代表乌黑色,对应的数据编号为信息增益 - 图16,共有6个样本,其中正例4个,负例2个。
    • 信息增益 - 图17代表浅白色,对应的数据编号为信息增益 - 图18,共有5个样本,其中正例1个,负例4个。

    正例仍代表好瓜与负例仍代表坏瓜。
    则按照色泽进行划分之后的到的信息熵分别为:
    信息增益 - 图19
    则根据属性色泽划分之后的信息增益为:
    信息增益 - 图20