结构化标签体系
这类标签可以直接从人口属性、物品信息等基本信息中直接得到,有明确的层级关系、例如省市、视频分类、商品分类等,比如亚马逊的商品标签,就是结构化层级展示;但是这类标签往往粒度不够细,无法充分衡量用户的兴趣,比如用户在新闻类APP中阅读关于某明星的娱乐新闻,其实无法推断他对所有娱乐新闻感兴趣,也不一定只对该明星情有独钟。
非结构化标签体系
就是各个标签各自反应用户兴趣,彼此之间并无层级关系。典型的非结构化的标签,比如搜索逛广告系统中的关键词,文档主题模型,再比如新闻类APP中,往往会构建大规模的主题模型,主题包含星座、食物、体育活动、电视剧等,这些分类之间没有明显的层级关系。
标签体系的建设,必须便于使用,也要有明显的区分度。结合具体的产品来说,就是在不同的场景下,对这两点的核心要求会发生变化;因为选择哪些标签是没有明确依据的,还是要充分了解到底是什么因素在驱动用户使用产品,一个好的标签体系,能够告诉我们用户决定买什么,不买什么的背后逻辑与依据。
实际案例
知道了大数据风控画像体系那我们应该如何构建用户画像模型呢,下面我讲讲大数据风控画像的构建维度。
整体上画像的开发分以下几个步骤,1.业务理解,这是整个画像的开发前提,只有理解核心业务诉求才能开发出有用的画像;2. 数据准备,好的数据质量以及细致的数据预处理,决定了画像开发质量的上限,这部分同时也是耗时最长的部分;3,画像开发技术,包含统计技术、专家打分技术、机器学习技术,这部分具体将在后面展开4,画像评估,没有评估则没有优化,画像评估直接决定了业务上是否可用,以及画像的优化方向5,画像监控,任何开发都需要监控,画像也不例外,不同的是监控的指标和粒度不同,下面我们一一展开来讲。
1. 业务理解
正如前面所讲,业务理解是画像开发的关键,提升信用风险的评估效果是个人信贷场景下用户画像开发的核心诉求。整体上我们可以从以下五个部分进行理解业务,分别获客,推荐,贷前,贷中,贷后,每一个环节关注点不同。在获客环节关注如何找到风险表现良好的优质客群,推荐环节:什么时间以什么方式推荐什么样的产品来满足客户需求。贷前环节客户来了判断客户是否有资格开通(准入),以及给多少钱初始额度(定额)、定多少息费。
贷中环节,根据客户的表现来增加还是减少额度,以及发生欺诈情况时及时止损等情况,贷后环节客户的预期风险过高时进行预警、已经预期的客户通过催收来保全资产,理解了这些业务才能开发一套业务上行之有效的画像;
2. 数据准备
对任何数据驱动的行业来说,数据准备永远是核心环节,俗话说 垃圾进垃圾出,做好数据质量评估是关键,对风险来说数据的合规性是重点,有些变量如民族这些引起不公平讨论的变量是不能用于风控的;在数据预处理上,脏数据如何去除,缺失值如何填充,异常值如何处理,如何做数据变换是log、开平方变换,以及如何做数据规整,都是保证数据质量的关键;
在实际的开发过程中,一个比较有意思的问题是,多数据源,多场景的数据该如何组织,可以简单以这样一个框架进行梳理,首先明确一下实体概念,这是业务开展最基本的单位,可能是一个账号、一个手机号、设备号,这些实体是自然人在不同场景下的代表。那么数据其实就是不同的实体在不同的场景下通过扮演不同的角色遗留下信息;我们通过将这些信息汇总到自然人上得到了我们的画像特征;比如说在京东商城场景一个账号实体作为消费者和商户两种角色其基本信息和行为方式是显著不同的,但在做画像的时候要归结到自然人到在进行开发;
3.画像开发技术
整体来看,整个画像技术体系非常丰富。简单总结下来,有统计技术、专家打分技术、机器学习技术,可以形象的比喻为程咬金的三板斧,虽然简单但却行之有效。第一板斧,统计技术,比如近一年夜间购买次数,购买金额等事实性标签,通过SQL、HIVE、Spark等工具进行提取即可;第二板斧,专家打分技术比如高净值人群,商旅人群等这些不同的业务定义不同,和业务耦合较深的标签,可以通过AHP/熵值法这些常用的专家打分技术开发。第3板斧机器学习技术,比如用户对平台、品牌的忠诚度、有房可能性预测、收入预测等标签,可以通过聚类、分类、回归等机器学习模型进行预测;以上介绍的技术相对比较丰富,不了解的朋友们可以学习下,这里不做展开讲解;
4. 画像评估
无法衡量就无法优化,对于风险场景的用户画像,整个画像评估是风险画像开发重要环节,核心关注覆盖度/准确性/区分性/稳定性;总的来说,覆盖度越高越好;其次准确性,除了前面介绍的抽样调查方法,也可以通过线上ABTest方式进行衡量,比如通过画像分群后,制定不同的初始额度,观察额度使用情况,来确定画像的准确度;其次,针对画像的区分能力,可以基于存量用户的风险情况进行度量,具体方法可以选择某一观察时间点,保证这部分用户有一定的风险表现,一般取一个月激活用户,观察该用户激活前画像表现和激活后风险表现情况来判断,具体可以用KS、IV等指标来进行衡量,KS、IV等指标用于区分预测正负样本分隔程度的评价指标价,这里不展开讲了,有兴趣的可以自己研究下;最后,画像的稳定性,直接决定了画像的可用性,只有稳定性好的画像才能使用,那如何评价呢,这里可以线下用群体稳定性指数PSI进行衡量,PSI主要测量的训练样本和近期样本分布之前的差异。
一般认为PSI小于0.1稳定性就可以;如图上所示我们主要观察不同月份PSI的变化;对于线上,可以观察不同策略的Vintage表现来度量,这里Vintage表现,类似于同期群分析,是观察不同账龄的客群随时间的预期情况变化;
5. 画像监控
为什么要做监控,不做监控的画像就好像闭着眼睛开车,随时可能掉到沟里去。那么如何做监控呢,这里我们分三个层次进行监控1.原始数据2.重要特征,3.画像结果,监控指标上主要从覆盖度、有效性、缺失值、异常值、稳定性几个方面进行监控,观察整体量级,客群覆盖度随时间的变化,及时发现问题,及时进行解决;举例来看,画像结果的覆盖度,PSI变化,如图所示查看月的变化趋势,3月和4月相比波动较大,这里要去看下是什么原因,可能是画像结果不太稳定,或是重要特征发生了偏移,如果这些都不是可能市场环境发生了变化,一般环比2%以上时就需要及时进行检测;
好了讲了这么多,大家对大数据风控画像开发流程有了初步的了解。相信大家要迫不及待的进行开发了~
及待的进行开发了


