我们刚说完信息熵,下面就让我们来看一下什么是信息增益。
我们假设某个离散属性的取值为:代表所有样本在属性
上取值为
的样本集合。
那么以属性对数据集
进行划分,所得到的信息增益为:
其中代表按照属性划分之前的信息熵,
代表属性
取值为
时在所有样本中所占的权重,样本越多代表当前属性的这个取值越重要。一般而言,信息增益越大,则意味着使用属性
来进行划分所获得的“纯度提升”越大。
我们还是用之前西瓜的那个例子来说明,假设我们以色泽属性进行分割,那么就对应着三个数据子集:
代表青绿色,对应的数据编号为
,共有6个样本,其中正例3个,负例3个。
代表乌黑色,对应的数据编号为
,共有6个样本,其中正例4个,负例2个。
代表浅白色,对应的数据编号为
,共有5个样本,其中正例1个,负例4个。
正例仍代表好瓜与负例仍代表坏瓜。
则按照色泽进行划分之后的到的信息熵分别为:
则根据属性色泽划分之后的信息增益为:
