富信息属性选择是常用的建模技术之一——树形归纳——的基础。树形归纳可以递归地找出数据子集中的富信息属性,同时把其实例空间划分为相似的区域。这样的划分之所以被称为“有监督的”,是因为它所尝试找出的分组,可以为要预测的量(即目标变量)提供越来越精确的信息。

选择富信息属性本身是一个数据挖掘的过程,衡量属性信息量的基本指标是信息增益,它基于一个被称作熵的纯度指标,另一个指标则是方差缩减。

熵公式

富信息 - 图1

信息增益公式

富信息 - 图2