来源:https://blog.csdn.net/fengguang54/article/details/119083685

image.png
来源:交易风险监控反欺诈解决方案_2015_42114

背景

互联网黑产攻击行为通常具有以下4个典型特点:

1.团伙化:黑产已经从单打独斗发展成了有组织的团伙,通过合理分工协同工作。
2.专业化:黑产上下游之间分工明确,相互协作,拥有大量的作案资源(身份证、银行卡、手机号、手机设备、IP等资源),并且部分从业者具有非常高的技术睡哦,精通各种自动化脚本编写,逆向破解等,甚至涉及和使用机器学习等技术。
3.强对抗性:黑产熟悉主流的风控技术手段,会根据业务实际情况不断试探、挑战和绕过现有的防护体系。
4.跨行业:黑产会在电商、广告、支付、旅行等多个平台流窜作案。

为了对抗黑产猖獗的攻击,保障业务的健康发展,我们需要创建覆盖客户业务全流程的防控体系,形成“终端风险识别+服务端风险决策+AI模型”的一体化反欺诈解决方案;
image.png

基于历史项目经验,我们需要建立一套贯穿事前、事中、事后的动态反欺诈风控体系产品和解决方案;

事前:前端风险识别能力;

事中:建立基于账号、设备和黑产信息的风险识别模型和决策机制,防止欺诈交易;

事后:溯源打击,案件沉淀

在终端设备上,通过设备指纹体系进行设备信息采集、终端智能计算和服务端风险分析,为每个用户的设备生成风险标签供业务决策使用。

在用户操作业务过程中,通过决策引擎为每一笔交易计算风险等级。为了保证决策引擎策略的丰富度和高效率,可以通过时序数据库、Flink等实时计算模块做指标计算,决策引擎可以通过各类指标快速完成全局策略的计算。

当欺诈案件发生时,我们会形成完整的分析结论并整理到案件库,同时对相关证据做溯源和存证,用户后续可能的追责流程。

整个防控体系建立后,还需要有相应的运营流程驱动它正在地运转和不断的进化;在系统运转过程中,会通过态势感知系统为整体防控效果做监控,当业务指标发生非预期波动时立即预警。

防控体系构建

通过项目的实践和客户的需求,反欺诈系统需要构建三层的防控体系,包含终端风控层,分析决策层和用户画像层,其结构如下图所示:
image.png

终端风控层主要由设备指纹、生物探针和智能验证码构成,其中最重要的一环就是设备指纹。

设备指纹的核心能力有以下几点:

1)采集设备硬件信息,为每一台移动设备生成唯一ID,这个ID生成后,不会因为用户对设备的日常使用而改变;

2)为每一台移动设备生成风险标签,标记这个设备潜在的业务风险,供分析决策使用;

生物探针通过采集终端的操作行为,传感器信息等数据综合建模,通过机器学习区分出操作的业务是自然人还是自动化工具。智能验证码则是一种常见的风控工具,本质上也是区分操作业务的是否为自然人。生物探针和智能验证码虽然能大体一致,但是使用的常见有所不同,潜质适用于全业务场景检测是否为机器操作,后者适用于特定场景对抗机器批量操作行为,需要用户进行拖动,点击等交互操作;

决策分析层是各种数据、规则和模型汇总计算的中心。当一次业务请求被发送到决策引擎时,系统将业务数据、终端层采集的数据及生产的设备风险标签、系统风险数据标签等进行规则判断和模型运算,在极短的时间内判断是否阻断该次业务请求。对于一些可以事后判断的业务风险场景来说,后续由离线的风险决策系统进行事后判断。风险分析层的时序质变计算为决策引擎的决策速度提供了重要的支撑。时序指标计算系统会根据决策引擎的策略配置情况,做大量复杂运算;

风险态势感知系统侧重于宏观的统计分析,利用业务核心数据、设备信息及风险决策结果等各类数据,通过预制的分析算法模型进行实时、H+1、T+1多周期组合的分析计算;核心功能是感知、展示和预测整个业务体系的风险事件变化趋势,还可以对黑产工具事件做预警;

数据画像层包括黑产攻击事件、黑手机号明单、IP画像、设备画像。黑产使用的手机号、IP、手机设备等资源是相对有限的,会重复于针对各个不同互联网平台的攻击活动。沉淀黑产风险数据形成画像体系是一个非常有效的“联防联控”技术手段。

设备指纹
人类的指纹具有唯一性,两个人的指纹必然不相同,和人类的指纹一样,我们也可以为每一台设备生成一个唯一且稳定的标识,称为设备ID。

风控行业对设备的定义是指用户和业务系统交互的载体,可以是一个浏览器、一部手机,也可以是一个微信小程序。生成设备ID的产品和技术,行业内称为设备指纹(Device fingerprint)。在通常情况下,设备指纹生成的设备ID不会因为用户对设备的使用而发生变化,两台不同的设备拥有的涉笔ID也完全不相同。

生物探针
生物探针通过采集用户使用智能终端设备(如:手机、电脑等)时的传感器数据和屏幕轨迹数据,然后通过特征工程、机器学习,为每一位用户建立多维度的生物行为特征模型,生成用户专属画像进行人机识别,本人识别。移动设备可采集的传感器如设备仰角或状态、点击位置、手指滑动、键盘输入、持机手势或状态、手指触面、按压力度、左右手持机;生产用户画像使用的是非敏感生物学特征(不采集人脸、声纹等敏户建立多维度的生物行为特征模型,生成用户专属画像进行人机识别,本人识别。移动设备可采集的传感器如设备仰角或状态、点击位置、手指滑动、键盘输入、持机手势或状态、手指触面、按压力度、左右手持机;生产用户画像使用的是非敏感生物学特征(不采集人脸、声纹等敏感信息和隐私数据),通过算法模型确保唯一性,并且能够对抗伪造和复制;

设备探针
设备探针跟生物探针一样,是运行在用户终端设备的SDK程序,能够采集用户安装应用列表,通讯录、短信、设备信息、使用记录等信息发送到服务端,通过特征工程、机器学习为每部终端设备打上不同的风险等级标签,用于各类场景反欺诈风险等级判定;例如:用户移动设备里安装过多互联网贷款的APP并且操作频繁,那么在线上贷款申请反欺诈场景中,因为这个信息的识别,风控系统预判用户十分缺钱或者存在恶意贷款行为,网贷系统很可能降低贷款申请额度或者拒绝贷款;

验证码
验证码是历史悠久的风控产品。验证码的作用在于区分人和机器,防止被暴力破解,提高破解密码的难度。从风控的角度分析,验证码是抵御攻击的第一道防线;对攻击者来说,在对业务系统进行批量的自动化攻击之前,需要先解决这道防线,因此针对验证码的攻击防御从未停止过;智能验证码,无感验证集设备指纹、行为校验、操作校验、地理位置校验等多项功能与一身,能够实时判断注册登录账户的是否为真人,有效防范程序化的批量注册、黑客恶意登录等欺诈风险。

决策引擎系统

决策引擎是整个风控体系的核心枢纽,它是面向风控运营人员设计的,以规则编辑和规则执行为主要任务的计算平台,通常还包括灰度测试,数据统计分析等功能。作为风控体系中的枢纽,决策引擎会对接终端风控系统、时序指标计算系统、风控数据画像、机器学习和模型平台等风控子系统,集中进行风险决策。

决策引擎系统具有以下特点:

1)灵活性:决策引擎面向范业务场景设计,可以灵活支持注册、登录、交易等场景,只要为不同场景编辑不同的规则即可。

2)易用性:决策引擎面向风控运营人员设计,使用者不需要任何的编程基础,只需要通过鼠标点击和拖拽,简单的键盘输入,即可完成场景

的规则设计和数据引用;

3)实时性:决策引擎的实时性包含两个层面,第一个层面是规则的时效性,即任何的规则修改,线上决策群的多台机器可以秒级生效;第二个层面是规则执行的实时性,即在不包含数据获取的情况下,大量规则(几百条或者上千条以上)的执行时间可以控制住几十毫秒以内。

image.png

规则引擎
规则引擎是决策引擎的核心,模块主要包括规则管理,规则推送、规则执行等;规则引擎是一种集成在应用程序中的组件,使用预先定义的语言进行编写,使业务规则和程序代码分离;

规则引擎的应用场景主要包括以下特点:

1)流程分支非常复杂,条件判断非常多,常规的编码难以实现,维护成本高;

2)不确定需求非常多,频率非常高,随时可能发生业务变更;

3)业务规则变更要求实时生效;

4)业务变更不依赖开发人员,可以由相关业务人员直接进行业务变更;

反欺诈场景的业务需求,基本上和规则引擎的以上特点完全吻合。规则引擎的开发,需要选择核心的规则表达语言和规则执行引擎。客户风控团队面向业务的规则引擎开发,可以基于Apache Groovy等脚本引擎开发;也可以基于自身业务需求在开源规则引擎上进行二次开发,例如:Drools;

实时指标计算
在对业务事件的实时风险决策判断中,无论是基于专家规则还是风控模型,都要依赖一类对时间范围数据进行回溯加工的变量,这些变量在模型中成为时序特征,规则中称之为时序指标;例如规则”一天内设备上登录的账户数过多”,就需要回溯24小时的历史数据,计算出该设备上从型中成为时序特征,规则中称之为时序指标;例如规则”一天内设备上登录的账户数过多”,就需要回溯24小时的历史数据,计算出该设备上从事件发生的时刻,倒推24小时内,登录的账户个数,然后和配置的阈值进行比较判断;时序指标不仅仅包含关联个数的求和统计,账号某段时间范围内活跃的天数等,某段时间内转账的次数等。在风控反欺诈业务中,专家规则和模型需要使用到大量的指标,常见如下表:
image.png

在风控反欺诈业务中,为了能够及时阻断新发现的黑产行为,以上的时序类的业务指标计算一般还需要随时上线,事件窗口和计算维度组合均不确定。如果针对每个时序指标单独进行编码开发,那么开发工作量非常大,线上时序指标要依赖发布,不能满足反欺诈风控快速响应的要求。时序数据库等相关产品,天然的满足风控类场景需求,但是会过度依赖,会十分的消耗内存,消耗大量的硬件资源,因此Lambda架构诞生;

Lambda架构

在反欺诈风控场景中,部分时序指标是跨小时和跨天计算的,但是有些时序指标需要回溯1个月、2个月、3个月进行计算。如果全部使用时序数据库方案进行计算,那么时间窗口很长,会给系统带来很大的压力和消耗内存资源;为了提升效率和对内存空间的占用,可以对长窗口时序指标数据使用跑批计算,对短窗口时序指标数据使用时序数据库进行计算,最后综合计算结果。通过这种方式,我们把一个时间跨度较长的实时指标计算转化为一个“较短时间窗口的时序指标” + “历史长窗口数据的离线指标” 的聚合结果,这就是Lambda架构。

Lambda架构分为以下三个层次:

1)批量层:对历史数据进行批量处理,形成批量结果数据;

2)服务聚合层:聚合批量结果数据和增量实时数据,返回给查询业务;

3)实时层:对实时增量数据进行流处理,形成增量实时数据;

使用了Lambda架构后,我们对于跨时间窗口比较长的指标,可以综合批计算和流计算的优点,快速高效,成本较低的完成时序指标的计算。

image.png

风险态势感知

通过风控系统,我们可以综合利用风险数据名单,专家规则和机器学习模型等方法,对已知的风险类型进行防控。但是该系统仍然面临挑战:

1)专家水平差异性:大部分场景中,策略专家的水平不足、认知的广度和深度不足,经常导致设置的规则不能覆盖业务风险,给黑产和不法分子留下可乘之机。这就需要风控系统能够及时发现遗漏的风险,驱动专家对规则进行不断优化;

2)黑产攻击手法多变:黑产攻击手法呈现出高对抗性和变异性,总会不断的变换方法,试图绕过现有的风控策略。黑产的快速变异性,导致规则效果不断呈现下降趋势。这就要求风控系统能及时发现新的攻击类型。

3)运营人员操作风险:在日常的防控过程中,风控策略不断被动态的新增和更改,这些新增和更改都是由策略运营人员触发的。每次更改及时有严格的review机制、审批机制、灰度机制,仍然有可能存在操作失误导致规则的错误或失效。这就需要系统具备感知其不正常变换的能力,及时发现策运营人员的错误操作导致的风险。

4)产品和系统bug:反欺诈体系依赖设备指纹、数据画像、模型评分、名单库、对接渠道系统等多个核心子系统,这些系统日常的更新迭代,都不可避免的会引入Bug。从子系统的质量控制出发是一个思路,另一个思路是从风控系统的整体的效果出发,反向发现子系统的缺陷,进而促进整个风控系统的健康发展。

综上所述,可以看出风控体系建设中的风险预警和监控的重要性,我们引入态势感知系统来解决这个问题,态势感知系统主要基于统计分析、无监督聚类等方法,但这些方法有以下几个前提:

1)正常的业务具有连续性和稳定性,异常事件具有波动性;

2)正常用户总是表现出分布离散性,而黑产总是表现出聚集性;

计算出各类指标后,可以通过预警系统配置预警,预警条件触发如:同比、环比、均值、最大值、最小值、方差、均方差等可以通过短信、邮件、微信的方式发出。预警产生后,需要运营人员及时跟进处理,对于误杀要及时止损,对于漏杀要进行数据分析并新增规则防控,对于抖动等误报要进行标注。

风险数据名单
第一代风控系统基于名单,第二代风控系统基于规则,第三代风控基于机器学习,先不说这种观点的重要性,至少说明了风险数据名单确实是一种有效的风险控制手段,而且实践证明风险数据名单过滤也是最基础,最直接的风控手段。曾经做反欺诈机器学习项目,黑商户、黑卡等名单数据构建的特征,也是最有效对AUC贡献最多的特征;名单数据往往是性价比最高,是整个风控体系中占据十分重要的位置。

这里说的名单是指:白名单、灰名单、黑名单,其中黑名单往往表示高风险特征,业务最为重视,例如:在转账环节使用电信诈骗的黑名单的过滤,可以在一定程度上阻止其他用户继续收到伤害;灰名单存储的一般是风险不高或者与风险不直接相关的数据。白名单是重点保护的用户,例如:风控系统中,业务常常把自己公司内高管的账号加白,防止各类策略误杀。

欺诈情报
欺诈情报就是通过各种方式快速且精确的掌握黑产团伙在用何种资源(IP、手机号等)、何种技术手段(作弊攻击、众包等)对业务进行何种攻击(薅羊毛、虚假注册等),为风控团队提供快速决策依据和止损策略。欺诈情报体系的效果取决于运营和数据分析能力,通过运营打入黑产团伙内部获取更多的情报来源,通过数据分析快速挖掘、判断高价值情报,两者缺一不可。

智能风控架构:
image.png

[

](https://blog.csdn.net/fengguang54/article/details/119083685)