应用场景

image.png

分箱

WOE、IV

逻辑回归

如果我们使用等频或者等距的分箱模式,过拟合概率将会大大降低。众所周知,分布不合理的情况下用等距会导致过拟合,分箱过多的时候会导致过拟合,这个都可以避免。但是这两种分箱模式都有缺点,等距受分布影响,等频对离散值不友好。分箱多过拟合,分箱少太稀疏,所以现在很多分箱的算法都会引入目标变量,通过计算互信息等方式来指导分箱。看上去用了目标变量,但是其实这个和集成学习的思想是一致的。所谓集成学习就是把第一层多模型的结果做为第二层模型的输入,两层模型都是以目标变量为目标的。只不过这里第一层模型很简单,只是一个分箱而已。
说到这里就很好理解了,其实就是这个基于目标变量的分箱导致了过拟合,因为分箱算法基本上就是追求woe的最大化。所以实际做模型的时候一定要限制分箱的条件,比如每个分箱样本数量范围,woe的单调性等,做有约束条件下的最优化。其实很多时候,分箱结果还需要人工调整,以符合业务语义。

人工调整一般是为了符合客观逻辑。一般来说,woe要求单调递增或者递减。但是实际情况下或者客观逻辑不一定满足,所以一般会允许存在一个拐点,也就是u型或者倒u型。比如说信贷风险和年龄一般就是一个u型,年龄偏大或偏小风险都比较高。此外还要调整的就是一些分箱样本比例之类的,比如说每个分箱的样本数量大致均匀,不超过20%-30%,不少于5%。

作者:数据无关因果
链接:https://www.zhihu.com/question/314935444/answer/624924570
来源:知乎
着作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

引用