大规模稀疏特征特征在树模型

高维稀疏特征用在树模型中,一个是树模型在每次分裂的时候,只会选择1个特征,所以高维稀疏特征对树模型来说,1是计算量太大,2是有大量的特征其实在分裂是没有用到,如果需要考虑所有的特征,那么就需要树特别深,那就容易过拟合。另外,前面基本是只说了高维的问题,稀疏的问题在于,如果一个特征是稀疏的,那么在树分裂的时候,在计算信息增益或者Gini系数等一些衡量指标时,一般竞争不过不那么稀疏的特征,所以很多稀疏的特征,是永远也永不上的。

为什么LR适用于大规模离散特征?

最重要的感觉还是:

  1. LR简单,所以大规模的离散特征对LR来说,计算能力不是太大问题
  2. LR是加权,这种计算形式,相比于树模型,本身就更适用于大规模特征
  3. one-hot和特征交叉,增加了LR的非线性表达能力
  4. 大规模的离散特征工程,有利于团队内部合作,也有利于自己迭代,每次新增特征对模型的计算和改动影响都不大,可以保证线上环境的稳定性

参考: