连续值的处理

CART和C4.5算法是采用二分法对缺失值进行处理。

缺失值的处理

对于有缺失值的数据,应该解决两个问题:

  1. 切分属性应该怎么选择?
  2. 遇到缺失值的样本应该怎么处理?

C4.5算法处理缺失值的办法是:首先使用权重改造了增益函数,也就该改变了切分属性的选择;对于样本x在切分属性下未知情况,会把x划分到所有的子结点,且对样本的权值进行了调整,便于后续的结点分裂。
权重是基于划分属性没有缺失值的样本数与所有样本数的比值进行选择。

Surrogate Splits处理缺失值

Surrogate Splits是CART决策树算法处理缺失值的办法。当该特征缺失的时候,使用与该特征相似的特征进行分支判断和选择。相似特征的判断依据是:如果替代的特征与原分割特征的切分方式和结果类似,则为相似特征。