算法 - 评分卡 - 《机器学习》

应用场景
分箱
WOE、IV
逻辑回归
引用

应用场景

分箱

WOE、IV

逻辑回归

如果我们使用等频或者等距的分箱模式，过拟合概率将会大大降低。众所周知，分布不合理的情况下用等距会导致过拟合，分箱过多的时候会导致过拟合，这个都可以避免。但是这两种分箱模式都有缺点，等距受分布影响，等频对离散值不友好。分箱多过拟合，分箱少太稀疏，所以现在很多分箱的算法都会引入目标变量，通过计算互信息等方式来指导分箱。看上去用了目标变量，但是其实这个和集成学习的思想是一致的。所谓集成学习就是把第一层多模型的结果做为第二层模型的输入，两层模型都是以目标变量为目标的。只不过这里第一层模型很简单，只是一个分箱而已。
说到这里就很好理解了，其实就是这个基于目标变量的分箱导致了过拟合，因为分箱算法基本上就是追求woe的最大化。所以实际做模型的时候一定要限制分箱的条件，比如每个分箱样本数量范围，woe的单调性等，做有约束条件下的最优化。其实很多时候，分箱结果还需要人工调整，以符合业务语义。

人工调整一般是为了符合客观逻辑。一般来说，woe要求单调递增或者递减。但是实际情况下或者客观逻辑不一定满足，所以一般会允许存在一个拐点，也就是u型或者倒u型。比如说信贷风险和年龄一般就是一个u型，年龄偏大或偏小风险都比较高。此外还要调整的就是一些分箱样本比例之类的，比如说每个分箱的样本数量大致均匀，不超过20%-30%，不少于5%。

作者：数据无关因果
链接：https://www.zhihu.com/question/314935444/answer/624924570
来源：知乎
着作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

评分卡

应用场景

分箱

WOE、IV

逻辑回归

引用