算法描述

image.png

背景知识

信息熵

信息熵用来描述不确定度,参照单位是抛硬币的不确定度。1bit的信息熵相当于抛一个硬币的不确定度,也就是有两种不确定情况。设不确定情况为ID3算法 - 图2,则信息熵=ID3算法 - 图3。如果用概率来表示,每一种不确定情况发生的概率为ID3算法 - 图4,那么宏观的信息熵就是每种情况发生的概率,乘以各自的信息熵,即是
image.png

条件熵

image.png

信息增益

信息增益的意义:引入属性A后,原来数据集D的不确定性减少了多少。相当于带来多少信息量

计算例子

按照年龄划分经验熵

image.png

按照年龄划分的条件经验熵

image.png

计算信息增益

image.png