来源:https://zhuanlan.zhihu.com/p/349106110
评分策略根据模型的结果制定cutoff值,根据不同的分数走不同的审批策略,或者使用不同的额度策略。cutoff值的确定可以从违约率、通过率、ks值、盈利分析等角度进行量化分析。本文基于工作中切实存在的业务痛点,从盈利分析的角度分析如何调整模型的cutoff值。
目录
1.模型cutoff值确定方法介绍
2.最大化利润下的cutoff值计算
2.1 不同分数段坏账率预估
2.2 不同分数段催收成本预估
3.计算方法
4.总结
一、模型cutoff值确定方法
最常用的确定cutoff的方法是根据通过率或者违约率的值来制定。一般情况下,业务方对通过率或者坏账率有一定要求,因此模型的cutoff值是在通过率与坏账率之间取一个平衡。
上图列出了不同分数段下样本的比例、坏样本占比、累计样本占比等统计指标,从而可以得到每一个分数段下对应的通过率以及坏样本率。以第10个bucket作切分为例,当模型的cutoff定在560.22分时,低于560.22分的客户将被拒绝或者进入人工审核,此时的通过率为50%,违约率为9.97%。通过率越高,相应的违约率也就越高(上图中倒数第1、3列为通过率与违约率)。
通过KS最大值所在的箱选定cutoff也是一种做法。如图,bucket为15时对应的累计好样本比率27.97%,累计坏样本比率60.89%,KS为32.92%。即误杀27.97%好客户的情况下可以识别60.89%的坏客户。KS最大值截断点说明在误杀好客户与识别坏客户之间取到了最优,因此可以根据此来进行模型策略的制定。
上图是根据盈利导向制定cutoff值的结果图,需要计算出每一层分数段客户的收益。这样做的原理是,即使某一分段的客户坏账率较高,但是这部分客户整体是能够产生收益的,即其产生的利润可以覆盖相应的坏账,那么这部分客群也是可以通过的。
一般情况下,在业务初期使用通过率、违约率制定cutoff较多,因为业务早期更多是风险导向;业务后期由于对风险有了认知与把控的手段,会逐渐转向以盈利最大化制定cutoff,此时更多的是利润导向,风险偏好发生了变化。因此,利润导向制定策略的前提便是计算出各分数段下的实际收益,也就是单体利润。
二、最大化利润下的cutoff值计算
一个信贷金融产品的利润来源于剔除各项成本之后的净利息收入。其中资金成本、数据成本较为固定,不确定的因素为坏账成本与催收成本,这两个因素也是高度相关的。风控做得好坏与否,直接决定了产品的单体收益有多少。因此,后面需要计算的就是各分数段下的坏账以及对应的催收成本。
2.1 不同分数段坏账率预估
首先,为了简化计算,本文将M4+即视为坏账,正常情况下需要将M7+视为坏账。观察M4+的vintage曲线,发现M4+金额的vintage曲线在12-13期左右出现走平的趋势。前面提到使用此种方法进行cutoff制定时,一般是业务进入成熟期,因此已经有一定的数据积累。所以目的便是计算各个分数段下M4+vintage金额最终拐平的点。
可以看到低分段的M4+vintage比高分段的M4+vintage要高。这也是为什么A卡中常用的Y定义的方法,要通过vintage和迁徙率来定义。因为此种方法就是以预测产品最终的损失率为目的,根据这种方法建模,各分数段的坏样本率即代表坏账率,不需要对已有表现客户的评分做坏账率的回溯。
还有一种实操中的方法,也是拿分数对历史客户进行回溯,不过回溯的标的不一定。上面是回溯各分数段每一期的M4+金额,另外一种方法是回溯各分数段每一期的M4个数,除以放款个数,再用每一期对应的余额乘以这个比例并求和。大致思路如下:
对上图中的值再进行相乘求和,得到最终的坏账率,这种方法的前提假设是发生M4逾期之后不会回收。其实两种方法本质上是一模一样的。在第4期变成M4的客户,在第5期会变成M5,而M4与M5的余额是一样的,所以最后相加之后依然是在求M4+的余额,这种方法通过算个数的vintage再结合剩余本金占比最后得出坏账金额,绕了一个圈子,终点和直接预估vintage走平后的M4+余额是相同的。
2.2 不同分数段催收成本预估
为了简化计算,仍然将M4+视为坏账,这样催收成本只需计算M1-M3的,M4+回收的金额算作利润,无催收成本。计算的原理同坏账一样,对各分数段的历史样本进行回溯,计算其每一期的M1、M2、M3个数,换算成催收成本后即可得到催收成本占比。如果催收计价是按坐席制或者费率制,可以通过对产能安排以及回收率换算成单价,即每产生一个M1/M2/M3逾期需要付出的催收成本,这样便将难以量化的催收成本量化到了每一个订单上。
首先,计算每个分数段每一期对应的M1、M2、M3个数。
根据每产生一个M1/M2/M3逾期需付出的成本,计算各分数段产生的催收成本,除以各分数段的放款额,就得到了各分数段的催收成本占比。
可以看到每一期的催收成本并不完全相同,第2、3、4期由于逾期较多产生的成本也较多,越往后每一期花费的催收成本在逐渐递减。如果已有第8期时每一期的催收成本,则可假设后面每一期的催收成本与第8期一样,进而预估周期末该分数段的催收成本。
上表列出了各分数段下的成本以及利润率,因此可以根据该分数段是否盈利作为cutoff的制定依据,实现利润最大化。
三、计算方法
上述过程的实现方法比较简单,只需要app_id、分数、mob、逾期状态、余额、本金几个字段,然后做数据透视就可以实现。以各分数段的M4+余额为例:
# 对分数进行分组
df[‘bucket’]=pd.cut(df[‘score’],10)
用pandas进行数据透视
pd.pivot_table(df[df.逾期状态>=4],index=’bucket’,columns=’mob’,values=’unreceived_principal’,aggfunc=’sum’)
四、总结
实际实施过程中,坏账率可以根据每月最新数据对结果进行更新,催收成本中可加入策略影响的因素,结合上一篇文章中的最佳比例,如此便达到了较为精准的预估。
【作者】:Labryant
【原创公众号】:风控猎人
【简介】:做一个有规划的长期主义者。
【转载说明】:转载请说明出处,谢谢合作!~