全书总共分为四个部分,第一部分介绍黑产欺诈团伙的运作套路和攻击手段;第二部分是作者总结其在构建反欺诈技术体系过程中沉淀的实践经验;第三部分则为与黑产对抗的实战案例,以及机器学习算法的综合运用;第四部分介绍其对物联网、内容安全、隐私合规等方面的实践和对海外厂商的观察,这更像是一种对风控未来的展望。
在书中的第一部分内容中,又划分为黑产发展态势与黑产武器库概览两章节,其中,黑产发展态势介绍黑色产链的结构与演变,而黑产武器库概览则是介绍主要的欺诈方式与工具,包括虚假号码、代理IP、设备伪造工具。
在黑产发展态势中,重点介绍了目前市场上主要的反欺诈词典术语,包括,垃圾注册、薅羊毛、众包、黄牛/刷单、刷单、套利、空包等,其中有几个术语单从字面上没看懂是怎么一回事,如垃圾注册、空包与众包。
垃圾注册,通俗地理解,如常见的微博买粉、公众号刷阅读刷点赞刷评论,这些都是通过脚本或者其他方式来大批量恶意注册账户实现的,这种行为即为垃圾注册;空包即虚假发送快递、发送空快递或者包裹,用以达到给商家刷单的效果。比较难理解的可能是众包,众包的意思,是由多个独立的个体共同自愿参与完成一项任务,注意一点,共同与自愿是该模式的核心。它属于一种广撒网意义上的外包,与传统外包相比,都是将任务分发到组织之外的人员手里完成,但众包更侧重于开源与自愿上的外包,它面向所有大众,讲究自愿合作共创价值,可以是有偿也可能是无偿,也就是说,一般而言不存在以合同为约束的劳资关系。而传统外包最明显特征是花钱雇佣人员来提供服务,是一种雇佣的劳资关系。
书中拿众包薅羊毛案例来表述该术语:在某微信群中,羊头和羊毛党配合,羊头负责收集线报并同步到微信群内。羊毛党参与活动,他们低价购买商品,直接转售给羊头,羊头借此囤积大量的低价商品,再通过其他线下渠道转售出去。
众包这一模式被作者用在薅羊毛欺诈行为当中来表述,容易给人造成一种错觉,即众包模式与空包、垃圾注册、薅羊毛一样,都是一种恶意行为,实际上并非如此。
众包这一概念,源于对企业模式的一种反思,通俗的说,这是一种有可能颠覆传统企业的创新模式。传统的企业模式,都是以雇佣关系来维持员工与企业的关系。但在众包概念里,更有一种区块链里去中心化的味道,不存在上下级,不存在雇佣关系,更多是一种自愿合作,而合作,讲究的是并肩前行,但前提是,需要有利益驱使,这种利益驱使则体现在多做多得的基础之上。
值得注意的是,众包模式已经出现很多实际落地案例,最常见的如美团骑手、滴滴接单、货拉拉搬家等,它们都有一个相似的地方,即任务由平台发出去,个人通过注册平台app可去领取任务,完成,拿钱。可能很多人并没有意识到,我们平常所点的外卖派送,其背后就存在众包这一创新概念。
我为什么要花那么多笔墨阐述众包这一概念?
因为当把黑产链整体结构了解完之后,会发现众包这一概念在整条产业链里充当极其重要的角色,如书中提到的打码平台——其落地理念就是众包模式:平台上聚集大量想在网上赚钱的劳工,当攻击者在拿到验证码的图片后,就上传给打码平台,打码平台会把图片下发给这些劳工,由他们随机领取任务来解答,然后把正确答案返回。
可以说,这一创新模式,某种意义上很值得研究学习。
关于黑产方面的描述,作者更多是站在羊毛党这类团伙欺诈手段上来详细展开,比较遗憾的是,其他如电信欺诈黑产,则简单地一笔带过,但作者在文中却这样写道:“在现实世界中还有一类更加凶残的黑产团伙——电信诈骗团伙。这类黑产团伙的危害远远超过上文所说的羊毛党类黑产。”
至于如何危害以及有哪些手段,作者没有详细探讨。或许就像水墨画里的留白手法一般,只指明一个方向,但点到为止,剩下的,就靠读者慢慢在实践当中探索与总结。
书中用一组数据反映出这条成熟黑产链背后的成员年龄分布,其中在18岁至24岁的参与者占比竟超过50%。这个年龄段的人,可以说都是互联网的原住民,他们大多都很有想法,也更加了解互联网世界。但就是这样一群人,在金钱的驱动下,其分工已经变得越来越细,专业化程度不断提升。他们同样广泛地使用大数据分析、深度学习以及人工智能等新技术,这时,技术就变成一把双刃剑,意味着,道高一尺可能魔高一丈。黑产在精细化的同时,也将逼着风控向精细化方向发展,但究竟如何发展?这是一个暂无明确答案的问题。
第一部分的内容,作者以一句“不少看似正规的互联网企业为了获得极速的成长,甚至会主动引入黑产生态的流量”当做最后结尾。这是很值得玩味的一段话。拿一个简单案例来说明,即一新兴的电商app,可能为了提高流量,故意给羊毛党开一个口,主动引来羊毛党,这样一来,平台用户量就一下子上来了,进而用户活跃数据报表就丰满好看了。
只是这样的做法是好或坏,我无法去做评判。
前面主要都是第一部分的内容阅读思考,若要以一种读到无字的地方要比有字的地方多的理念去深入研究,大概是可以扯出更多读后理解,但没有必要,因为整本书的核心干货在第二部分与第三部分。这两部分内容更多是作者的一种经验总结,它提供给我最大价值在于,是把以前实际做过的但不知道其业务作用的地方都有一个较好的领悟。通俗地打个比喻,就是在制作一个药物的过程,我负责的只是其中一个很小的环节,可能只是负责是把药植物碾碎,虽身在其中,但不知道所参与制作的药物成型之后究竟有何作用,直到有一天,突然看到相关的药物说明书,才恍然明白,原来当初参与制作的药物,是通过这样的方式用来治疗感冒的。
在第二部分的反欺诈体系建设章节中,作者根据经验与教训提出一套贯穿事前、事中、事后的动态防控理念。事前是针对前端风险的识别,事中是建立基于账号、设备和黑产情报的三维立体风险模型与智能决策机制来防控欺诈交易,事后则是沉淀案件与溯源。针对这一套动态防控理念,作者总结出一个三层的反欺诈防控体系,包含终端风控层、分析决策层和数据画像层,其中,还有一个威胁情报体系贯穿这三层。根据其提供的插图可知,其实这三层就是事前、事中、事后这三块的具体技术实现。
这套三层反欺诈防控体系可以说是书中第二部分的总纲领,就像是小说创作里常说的大纲,而后面的内容则是在大纲的基础上,分门别类地去细化完善。第二部分内容除去反欺诈体系建设一章外,另有八个章节,其中设备指纹、生物探针、智能验证码这三章节属于防控体系当中的终端风控层,其中最重要一环是设备指纹;决策引擎系统、实时指标计算、风险态势感知属于分析决策层,这是各种数据、规则和模型汇总计算的中心;最后名单体系属于数据画像层,包括黑产攻击事件、黑手机号名单、IP画像、设备画像等;欺诈情报体则属于贯穿三层的威胁情报体系的内容。
这部分的业务知识点,除了生物探针、智能验证码,其余都或多或少在实际工作当中有所接触或者听闻过。
接下来,把书中提到的三层反欺诈体系当做读书笔记梳理总结下。
一、终端风控层
- 设备指纹书中对设备指纹的步骤阐述主要有两步,一是采集设备硬件信息,即使每台移动设备成为唯一ID,这个ID生成后不会因用户设备的日常使用而改变;二是为每一台移动设备生成风险标签,标记该设备潜在的业务风险,供分析决策使用。书中提到了相关生成原理,可以简单概述为:通过手机操作系统和浏览器厂商预留的客户端设备API,可收集到设备当中非用户隐私范围的特征属性并将其加密上传到云端,然后通过后台的算法分析为每台设备生成唯一设备ID来标识这台设备。作者用一张流程图描绘了该生成原理的流程,如图所示:
这些特征属性参数在不同的操作系统上有所差异,书中主要概述了Android设备指纹参数、iOS设备指纹参数、Web设备指纹参数这三种,参数图示如下:
图-Android 系统中比较稳定的设备参数
图-iOS 系统中比较稳定的设备参数
图-浏览器比较稳定的设备参数
基于用户行为的生物探针:采集智能终端设备(如手机、电脑等)的屏幕操作轨迹数据、传感器信息等数据综合建模,再通过机器学习、特征模型,区分出操作业务是自然人还是自动化工具。例如用在登录场景,采集到用户在终端设备的行为数据,如按压力度、手持设备仰角、手指触面、屏幕滑动和鼠标轨迹等日常使用习惯,可以生存专属的用户画像,相当于这一系列行为,可以生成一个专属用户的唯一生物ID。简而言之,就是基于用户习惯的一项技术。只是,让我存疑的地方是,既然是习惯,难免都可能有所改变,毕竟,对于自律很强的人而言,养成一个习惯或者改变一个习惯,都比较容易,那么,这样的用户画像,如何能在变化中保持唯一呢?
智能验证码:验证码的本质其实是一系列绝大部分人类能够解答,但机器无法解答的问题。在我们日常登录软件平台过程中,验证码已经是基本必需的,但阅读本书之后,我才了解到,原来那种普通填写字母数字的验证码,早已经很落后了,甚至可被黑产轻易破解。现阶段衍生出很多新型的智能验证码,包括音频、视频、图文理解、语义理解、空间(2D/3D)旋转、逻辑推理、智能无感验证码等。拿12306分流抢票系统中根据文字提示点击对应实物图片的验证,就算是图文理解里一种,另外还有滑动图片到某个位置的,都算是新型的智能验证码。书中提到黑产破解验证码的一些方式,其中有一个很关键的黑产解码平台,即前文提到过的打码平台,就是专门用来破解验证码的。
作者在书中给出几种对抗黑产破解验证的方案,这些方法难以被打码平台和AI破解,值得参考了解:
新的验证类型;
- 使用GAN(对抗生成网络技术)来无限生成各自色彩斑斓的鸟,验证的问题可以是“这个鸟的某个部分是什么颜色”。
- 空间(2D/3D)旋转验证的方式,设计需要拖动及旋转到XX角度才出现正确答案的逻辑。
- reCaptcha第二代验证码
基于用户行为的生物探针技术;
多维度赋能;
该方法是在攻击者获取验证图片步骤前,增加检测手段,如检测用户的设备环境是否存在异常、是否为模拟器、有无安装作弊工具,除此之外,还给验证码加入其他防控维度,包括归属地、是否设备黑名单、IP画像等等。
在如何设计一款优秀的验证码方面,作者给出了一些参考意见,智能验证码类型包括滑块验证、图文点选、空间旋转、空间推理等,在实际设计中都遵从三个原则:对人容易、对机器难、有趣好玩。
总而言之,就是在有效防护的同时具备良好的用户体验,最理想的状态是,对正常用户无感,对异常用户弹框验证。
针对该原则,作者阐述了一款智能验证码的设计原理:通过持续对用户的终端设备、网络环境和生物行为等非敏感特征进行风险检测、关联分析,并引入行为生物识别算法,实时判断当前用户是否存在风险、对应的风险程度,根据用户配置的策略进行风险决策。智能验证码提供自动智能预判处理机制,例如,用户无风险一键通过,用户有风险则根据不同风险等级弹出不同难度的验证码进行挑战。同时,用户可以根据实际情况需要选择不同的验证类型、验证素材、验证语言、验证策略等。
以上就是终端风控层的内容,主要核心就是事前进行前端风险识别,提高防控能力。
二、分析决策层
- 决策引擎系统
整本书我最想吐槽的,应该就是决策引擎系统这一章了。
决策引擎系统应该反欺诈的灵魂所在,但很遗憾,本书中关于决策引擎方面的内容,略过于精简,没能给稍有经验的读者带来较好新鲜干货,但仍存在一点参考价值。
这块内容主要阐述决策引擎系统的特点,其核心是规则引擎,而规则引擎又包括规则可视化管理、规则推送、规则执行等模块。
决策引擎规则管理界面的创建和管理同样是具备可视化界面,根据书中插图可以看出,其规则管理是居于策略下的,如下图所示,该批量规则属于“异常登录_安卓”该策略下,而策略是否又在策略集底下,书中没有明确说明,根据插图,可看出,其策略底下包含了规则管理与指标定义两个tab类型。
书中给出了三种不同规则引擎的实现方案,包括以Apache Groovy 为代表的脚本引擎,以Drools规则语言为代表的开源规则引擎,以ILOG 为代表的商业规则引擎,相应的介绍图示如:
- 实时指标计算在对业务事件的实时风险决策判断中,无论是基于专家规则还是风控模型,都需要依赖这类对一定时间范围数据进行回溯加工的变量,这些变量称为指标。把实时返回计算结果过程称为实时指标计算。这里的低延迟包含两个维度:一个维度是最新的事件被指标统计在内的延迟,另一个维度是计算结果的响应时间延迟。在反欺诈业务中,作者列举了一些常用的指标类型,如:
这些指标计算都可以统一抽象出几个固有特征:时间窗口、事件、主属性、副属性、计算逻辑的组合。
因此,以上的常用指标可以抽象出如下图所示:
- 风险态势感知
风险态势感知系统主要起到风险预警的作用,主要用于快速发现现有风控系统的防御盲区,预警线上逐渐失效的防控策略,根据实际对抗效果不断对风控系统进行完善。实现该感知系统主要有三种方案:
- 基于统计分析的方法;
主要分为对核心风险事件数据分析与核心业务数据分析。其中,核心风险事件数据是风控系统运行过程产生的数据,如日调用量、拒绝率、拒绝变化率、审核率、字段获取率等,简单点的说,这些都算日常反欺诈调用统计报表里的数据。先前我曾参与过白骑士反欺诈调用统计报表相关的开发,虽知道如何实现其统计逻辑,但这些数据背后具体能分析出些什么风险信息来,我是不甚了解的。这次阅读书中这块有关统计分析的内容,在一定程度上,算是给我扫了一下数据分析的盲区。如调用量的分析,若其突然大幅度波动时,往往意味着,虚假黑产流量的增加;风控数据字段的获取情况,则能从侧面反映出当前系统有无发生风险等,其余举一反三,都可从一个数据当中,分析其背后暗含的信息量。另外,核心业务数据分析,则是指业务自身的核心数据,如电商、直播过程产生的业务数据,以电商业务为例,预警业务数据包括可收货地址分布、店铺分布、商品类目分布、IP分布等,简单打个比方,如收货地址都分布密集在一个范围很小的地域,那么,这数据背后就有可能是团伙欺诈作案。
- 基于无监督学习的方法;
主要有特征抽取,建立连通图,群组聚类。
- 基于欺诈情报的方法;
三、数据画像层
该层主要以风险数据名单体系建设为主。名单,包括白名单、灰名单和黑名单。名单的价值在于把业务系统中曾经出现过、较高风险的数据按照一定分类进行存储,提供给不同场景中的业务团队做风险参考,每一条名单数据都表示它曾参与过某次风险行为,因此,具有较高的准确性。
作者在书中总结出名单体系的设计思路:
- 明确哪些数据可用于建立名单,确定名单数据的主键;
在互联网反欺诈业务中,常见的几种名单主键是:手机号、身份证、银行卡、IP和各类设备标识。
- 需要明确标签的类别;
标签可以指向一种明确的风险,如建立一个“刷单的手机号黑名单”,这样的标签直接指向一种特定类别的风险(如刷单这种具体的风险)。标签也可以指向一种风险相关的特征,还是以手机号为例,如果建立的是“虚假号码”的手机号名单,则不直接指向具体风险结果,而是表示和特定类型的风险(如刷单、薅羊毛)相关性非常高。
- 名单体系的生命周期;
绝大部分名单数据都有时效性,如果不能及时更新维护,其价值在一个特定时间点之后会迅速衰减。另外,数据自身特性或数据背后的某些因素发生了改变,也可能会导致该名单数据快速失效。关于名单体系的生命周期维护,书中提出一种比较有意思的参考方案,即从名单数据命中率变化来确定其生命周期,据作者表述,这是一种成本较低的方式。主要有两种分析命中率从而确定名单生命周期的方法:一是选定一批虚假号码作为样本,持续观察这批数据在决策中命中率是如何变化的。找到较为合适的一个时间跨度,作为虚假号码名单数据的有效期;二是从近一年的事件中,提取所有的手机号数据,和全量的已知虚假号码进行比对,然后追溯命中部分名单数据的入库时间和最后更新时间,进而计算出虚假号码的命中率情况。两种区别主要在于,前者需要较长的时间周期才能得出结论,后者在短期内就能给出结论。
- 名单体系质量管理;
名单数据一般用在注册、登录和体现等相对重要的业务环节,这样就意味着,若造成误杀往往会引发比较严重的影响。反过来思考,若想提高名单体系的质量管理,其实质就是降低名单的误杀。然而如作者在书中所言,误杀率评估相对比较难做,且不同数据情况不同。作者使用的误杀评估方法,是收集策略效果情况、客户投诉等多方面因素综合量化评估其变化趋势。这个方法比较抽象难懂,我暂时也没有理解里面涉及的原理。
四、威胁情报体系
该体系通俗理解,就类似一个间谍,打入到黑产团伙当中,去收集分析黑产团伙使用哪些资源和技术手段,包括但不限于获取“刷单”、“薅羊毛”等黑产攻击事件细节、黑产新型的作弊工具及黑产使用的各类资源信息,简而言之,就是知己知彼,最后经过情报分析,再有的放矢地做出应对措施。
作者根据自身经验总结了欺诈情报体系的建设思路:
- 情报采集;
通过卧底黑产网络、监控黑产论坛等方式进行情报采集,主要包括数据情报、技术情报和事件情报采集。数据情报主要是手机号、IP、设备及邮箱账户等数据采集,沉淀出相应的黑名单数据;技术情报是获取某种欺诈技术的详细信息,包括原理、用途、危害等;事件情报则是捕获某些即将发生、正在发生或者已经发生过的欺诈事件信息。
- 情报分析;
将各个渠道收集的原始数据信息,包括文本、图片、音视频文件甚至代码片段等,通过自动化或者人工运营的方式进行分析。其中,作者表述其公司已基本实现文本类情报的自动化分析,同时,给出了相关的分析思路:第一步,先进行智能分析,即在提炼过程中,运用分词算法、关系抽取、词性标注、实体识别等方式,对目标实体词汇进行识别、关联、清洗,最后提炼出目标风险信息;第二步,是进行风险预警,即将提炼出的风险信息,再进一步完善风险的描述(如识别语句中的黑化,还原欺诈方式,掌握黑灰产的破解思路如何绕过平台,预估参与本次活动的人数,造成的损失等)。最终向用户输出结构化的完整预警信息,便于用户进行快速决策。
以上,就是作者总结出的反欺诈风控系统的构建思路,阅读的过程当中,结合先前的一些实际经验,可对这部分内容重新做一遍梳理理解,更好地了解到,工作当中业务相关的原理。
第三部分内容主要是实战案例,分为机器学习算法使用与互联网反欺诈实战。机器学习算法章节包括了特征工程、模型选择、模型训练以及工程化和业务落地。这部分内容比较抽象难懂,我只是简单地过了一下。在阅读过程中,有一个地方让我比较有印象,就特征工程里的特征维度,我原以为在机器学习中,获取到的特征应是越多越好,然而,作者在书中指出,实际操作中并非特征维度是越多越好,因此,特征维度较多的数据样本,通常需要先进行降维处理。通俗的理解,应该就是剔除非主要特征,保留主要的特征,就有点类似二八原则的感觉。
特征工程的降维方法,书中提到了两种,一是经验直觉法,也就是依赖个人经验来剔除样本的冗余特征;二是统计分析法,是一种从统计分析学角度考虑的方法,包括缺失值剔除、低方差滤波、高相关滤波等方法。缺失值剔除可以简单理解为,在一堆样本当中,若大部分样本是没有该维度数据的,那么该维度的特征是可以被剔除;低方差滤波可以理解,若某一特征维度几乎没有变化,即一直保持近乎同样的状态,那这样的特征维度也是不必要的,可以被剔除忽略;高相关滤波则是存在高度相同的特征维度时,只取其中一个特征作为验证即可。
在书中,提到了几种降维算法,包括PCA、KPCA、PCR。
模型选择包括决策树、随机森林、K-Means、神经网络、卷积神经网络、递归神经网络和图计算,作者在书中用一种图来概括表达:
本部分内容另外一章是互联网反欺诈实战,作者在书中提到了几种反欺诈实战案例,包括垃圾注册风险识别、批量登录风险识别、“薅羊毛”风险识别、裂变拉新作弊风险识别、“任务”作弊风险识别、恶意退单风险识别。这些内容都具备一定的参考意义,可从中收获一些规则策略的设计与部署以及运营监控实现思路。当然,这些都只是作者个人的经验总结,不可能都通用,当做学习参考即可。
书中的第四部分,取名“新的战场”,应是作者对未来风控的一个展望与关注。这部分内容主要包括物联网时代的风控、内容安全与合规、风控与数据合规使用与海外风控公司介绍。
内容与数据安全方面,更多是从数据规范化方面阐述,整体比较枯燥,可以理解成,风控领域已经从野蛮生长进入到一个合法合规的时代,在这样一种大环境下,更需要注重法律规范。
物联网风控方面的阐述,作者似乎在预测着风控时代一个更大市场规模的出现,物联网打通虚拟和现实世界,这就意味着,黑产的攻击不再局限于虚拟网络,其攻击可能会影响到终端用户人身安全,甚至社会稳定,这就意味着,物联网时代的风控,任重而道远。
作者在书中提到,物联网面临的安全注意在“云、管、端”层面,即物联网的云端平台、网络通信和终端设备。针对这些层面可能面临的威胁,作者提出了一套物联网安全风险控制体系建设思路,同时,就类似反欺诈体系一样,物联网安全体系中同样需具备一套安全风险态势感知系统。物联网风控相关内容与实际工作的金融风控有较多差异,且暂未有成熟和广泛的落地实际,故可做了解即可。
在本书中,最后一块内容是海外风控公司的介绍。这部分内容看似无关紧要,其实同样存在一些值得探索的东西在里面。因为我们所在的这个世界存在各种各样的信息差,而信息差的获取,在某种程度而言,就是一种优势,很多人就是靠着信息差大发横财。书中提到的海外风控公司,是否存在一些与国内不一样的东西,同样是值得去了解下的。
读完这本书,或多或少是有所收获的,但这样的收获其实还是浮于表面,若要有更加深入的理解,还需在漫长的实践当中,不断积累与反思,才可能有更加深刻的理解与掌握。
毕竟,冰冻三尺非一日之寒。
引言
表1 典型的黑产攻击事件
黑产在互联网领域的横行无忌,从反面推动了互联网业务安全反欺诈领域的快速发展。互联网业务模式的不断创新决定了风险的复杂多变,如今业务安全行业的技术、产品和解决方案,已经覆盖了几乎所有的互联网业务常规场景,并且和传统安全领域也发生了深度的交集和融合。
下面是常见的风控场景举例:
· 注册和登录场景的风控:如何对抗黑产注册虚假账号、养号的行为,如何对抗黑产暴力破解账户密码,如何对抗“撞库”攻击。黑产手中掌握了大量的手机号卡、公民信息和数以亿计的已泄露的互联网账号密码,这对任何一个互联网平台都是致命的威胁。
· 营销活动风控保护:营销活动发放的红包、游戏点券或其他奖励如何才能够不被黑产团伙“薅羊毛”。这类事件层出不穷,互联网上也常有报道。
· APP 渠道推广保护:推广APP 装机量投入巨额费用后,如何衡量真实效果。用户每安装激活一个APP,平台需要支付10元甚至20元,黑产通过“手机农场”虚假安装已经是广告行业顽疾。
· 交易和支付场景风控:盗号支付如何解决、非法聚合支付如何解决、洗钱如何解决,这些合规性问题关乎支付平台和相关业务的生死。
· 接口安全保护:短信发送接口被坏人用于制作“短信炸弹”是大家都遇到过的场景。
· 内容安全:内容安全既包括“入”也包括“出”,“入”是检测用户发布到平台的内容是否包含“色情、反动、赌博和暴恐”等违规信息,“出”则是对抗专业爬虫大量获取网站内容信息。在这些场景中,黑产具备哪些资源、是如何实施攻击的,互联网企业如何从数据、工具和算法等多个维度展开对抗,我们将在后续章节进行详细的讲解。
第一部分 洞察黑产
第1章 黑产发展态势
1.1 黑产组织结构
中国互联网络信息中心在2019年8月发布的《第44次中国互联网络发展状况统计报告》,截至2019年6月,我国网民规模已达8.54亿,手机网民规模已达8.47亿。
· 垃圾注册:在注册环节中,使用虚假、不稳定的身份信息,如虚假号码、通信小号、临时邮箱、虚假邮箱注册,或者使用脚本、注册机进行批量注册的行为,称为垃圾注册。注册完的垃圾账号,在直播视频行业中被用于关注、点赞、观看视频量、批量评论等,在电商行业被用于刷店铺访问量、关注量等。此类账号在账号命名上也有所特征,常见的有不规则英文组合、古诗词句截取等。
· 薅羊毛:使用虚假身份信息或自动化工具参与各类营销活动的行为,营销活动包括但不限于折扣、返现、抽奖、满减等形式,并且不能给平台带来实际的活跃用户或订单交易。执行薅羊毛行为的人称为羊毛党。
· 黄牛/刷单:在合法销售途径以外,垄断、销售限量参与权或商品,并以此牟利的中介人称为黄牛。从业务安全的视角上看,黄牛和刷单在行为上相似度极高,都发生在交易场景中,并且具有爆发性,会大量使用自动化工具。黄牛和刷单的区别在于,刷单过程中买到的产品,即使加价出售,也比商品原来的价格要低。而黄牛在倒卖的时候,价格会远高于商品原本的价格。还有区别在于价格和目标商品类目上,在刷单过程中刷手需提前确认收货好评垫付商品金额,为了控制刷单成本一般选择低价商品。但黄牛的目标多为热门稀缺的热点商品,便于后期加价出售获利。如某热门手机,某海外热门歌手演唱会门票每年必遭黄牛哄抢,单价商品倒卖价格已达上万元。在智能风控引擎中,这两种欺诈行为的表现几乎是一致的,不做详细区分
· 众包:由多个独立的个体共同参与完成的一项任务被称为众包。有羊头发起,众多羊毛党在线参与的薅羊毛行为称为众包薅羊毛。一个典型的案例,在某微信群中,羊头和羊毛党配合,羊头负责收集线报并同步到微信群内,一般是商品折扣或满减形式。同时,羊头在群内收购商品,羊毛党参与活动,低价购买了商品,可以直接转售给羊头,羊头支付商品成本和手工费用。羊头借此囤积了大量的低价商品,再通过其他线下渠道转售出去。所有参与此次薅羊毛行为的用户都是独立的真实用户。
· 炒信:通过各种途径和手段进行虚假交易,快速提升商户交易量、信用等级的行为统称为炒信。
· 套利:由商户端发起的薅羊毛行为被定义为套利。例如,在银联活动中,某家银行的活动形式是,用户到指定门店消费,消费满100元返50元,同时商户也可以获得50元奖励。活动期间出现了商家和羊毛党联合欺诈,羊毛党到店扫码支付,商家会退回支付的钱,没有发生任何实质上的交易,但是羊毛党和商家都能够获得奖励,以此骗取奖励。
· 空包:虚假发送快递,发送空的快递或包裹。在电商场景中,订单提交后,商家将商品打包,通过快递方式发送给用户。在套利或炒信时,商家必须给平台提交物流单号完成发货动作,买家签收后钱款打入卖家账号,一笔交易才算完成。此时,如果商户选择发送空的快递,或者提交已经完成的、其他平台的快递单号,则可以节约成本。市面上也有很多打着代发快递名头的空包网站,代发一单快递的售价为0.6元~0.8元,并且可以提供真实的物流信息来规避甲方平台的风控策略。
1.2 黑产成员分布
1.3 黑产专业化分工
2017年,浙江省绍兴市警方破获了“快啊答题”打码平台非法获取贩卖公民信息案。该团伙利用人工智能进行晒密撞库、分销数据、冒充诈骗、洗钱,构成了一条完整的黑色产业链。该案件受害人遍布全国20多个省、5个自治区、4个直辖市,涉案金额高达2000多万元。在该案中,黑产团伙中的技术人员基于主流人工智能深度学习Caffe框架,使用vgg16卷积核神经网络模型,研发了一套非常先进的验证码自动识别平台,总累计破解验证码约1200亿次。
1.4 黑产攻击规模
从不同业务场景来看,注册登录场景中的风险占比是最高的,可以高达40%。因为对于绝大部分的业务流程来说,注册登录是所有后续业务的门槛。黑产必须迈过这个门槛,才能执行交易、支付等行为。因此,如果能够在注册登录场景中做好风控,把绝大部分的黑产拒之门外,在后续的其他环节中,风险就会降低很多。
1.5 电信欺诈黑产
在现实世界中还有一类更加凶残的黑产团伙——电信诈骗团伙。这类黑产团伙的危害远远超过上文所说的羊毛党类黑产。他们通常通过暗网等渠道购买大量公民隐私数据,通过分析后选定欺诈目标,编写特定的剧本实施诈骗。其剧本编写的针对性非常强,往往会击中目标受害用户的心理脆弱点,所以欺诈成功率非常高。我们曾多次协助银行客户进行电信诈骗案件的分析和对抗,持续追踪了一个藏匿在境外的大型电信诈骗团伙。该团伙冒充司法机关对大量境内网民进行定向诈骗,在3个月内成功欺诈了近7000人,诈骗金额高达近2亿元(见图1.8)。其洗钱的渠道和网络赌博团伙类似,往往会经过“水房”(在行业里指专业的洗钱渠道)出境。
“水房”一般要交纳“保证金”(数十万元)才能成为“代理商”
“水房”——利用“卡农”或“中介”提供的资金流转“服务”,与产业上游的电信诈骗团伙单线联系,开展“洗钱”活动的犯罪组织或个人,根据资金流水总额,按一定的比例抽取佣金。通过“水房”,犯罪分子大量涉案资金的流转需求得以实现。
第2章 黑产武器库概览
2.1 虚假号码
2.1.1 猫池
使用过ADSL 宽带的读者应该都还记得,装完宽带以后,我们需要使用一个设备来进行信号转换,才能在电脑或路由器上拨号。这个设备一般叫作“猫”,英文名为Modem。如图2.1所示,其设备叫作Modem Pool,是一种用于控制和管理SIM 卡的设备,英文名字面翻译成中文是“猫池”。
猫池其实是由多个Modem 模块组合而成的,从图2.2中可以清晰地看到多个模块。每个模块等同于一台简单通信功能的手机,附带有SIM 卡槽、基带芯片、射频芯片、手机天线。每个Modem 模块都可以独立控制,收发短信和拨打电话。
猫池可以用AT 指令进行控制,例如。· 电话呼叫1398888:ATD+1398888\r\n。· 挂断电话:ATH\r\n。· 读取短信列表:AT+CMG\r\n。
使用AT 指令不是很方便,于是市面上就出现了一系列配套的猫池管理软件。其中比较常见的就是“酷卡”和“嘻唰唰”。这些软件具备了非常完整的猫池管理功能,以图形界面的方式对猫池进行操作,底层依然通过AT 指令来控制,但黑产操作已经十分方便了,如图2.3所示为酷卡软件的运行界面。
图2.3 酷卡软件运行界面
接码平台会给卡商提供“卡商端”程序,用于读取和上传猫池中的短信数据,其原理就是读取“酷卡”和“嘻唰唰”两款猫池管理软件中的数据库文件。
2.1.2 短信验证码
短信验证码本身具有随机性,一般为4~6位的数字,有效期很短。短信验证码通过短信方式发送到用户端,它是一种相对安全的通道。之所以说相对安全,是因为GSM 网络短信是不加密的,能够被无线电装置嗅探。(用探针-距离要够近几十米范围等 可以去获取这个验证码)一般在注册场景中,用户必须有一个手机号可以接收短信验证码,并且该手机没有在该平台上使用过,才能完成整个注册新账号流程。
一般的短信验证码,通过猫池和管理软件配合就能够自动读取出来,实现注册登录的自动化操作。为了对抗猫池,很多平台逐渐演变出了新型的验证码形式,例如语音验证码或要求用户向指定号码发送一条验证码短信。
部分猫池是支持语音功能的,可以将通话过程中的语音内容保存为音频文件,进一步通过其他手段把验证码识别出来,比较常见的一种手段是“人工听码”。
2.1.3 接码平台
图2.5 接码平台后台界面
在2017年以前,接码平台会从卡商手中低价收购大量手机卡,使用猫池进行管理,再开发管理系统和API,给黑产提供付费服务。2017年,国内规模较大的“爱码平台”被温州公安机关查处,公安机关从工作室中搜出了超过200万张已经用过的手机卡。
此后,接码平台的角色发生了一些变化,基本上只扮演一个中间商人的角色,连接上游的卡商和下游黑产。接码平台不持有任何手机卡,但是会提供一个“卡商端”程序给上游卡商。上游卡商自行管理所有手机卡,而这个程序会把所有手机卡接收到的短信上传到接码平台。该接码平台只负责短信内容的匹配、抽取、分发和结账。
2.1.4 空号注册
上文介绍的虚假号码都是有实体卡的,可以认为是运营商已经投放到市场的号码资源,被黑产非法利用。而该公司提供给黑产使用的手机号,还没有被运营商投放到市场使用,但是已经被用于大量接收短信验证码。事后查明,这家公司与运营商的内部人员进行了合作,通过非法渠道使用空号来接收短信验证码,以单条短信0.6元的价格在黑色产业链中提供服务。这一类的虚假号码在行业中一般称为空号,目前已经比较少见。
2.1.5 流量卡和物联网卡
运营商在提供移动物联网能力的同时,会把大部分权限开放给物联网企业。其中包括分配每张卡的套餐、设置每张卡的功能和权限。某些企业在申请到物联网能力之后,会调整流量资源,把无法消耗的流量资源分配到一批物联网卡上,然后以较低价格转卖。这些物联网卡由于其价格优势,同时部分物联网卡不需要实名登记,所以一度也成为黑产的“香饽饽”。
2.1.6 手机rom 后门
老人机团伙”拥有自己开发的手机rom 系统,这些系统基于早期的MTK 平台。他们在rom 中预植入了后门逻辑,然后通过与很多公司合作生产出各种品牌的“老人机”。这些手机只提供了电话和短信功能,他们会以较低的价格投放市场售卖,并通过一些渠道销售到很多贫困地区。
当一些老人以较低的价格买到这些手机插入手机卡后,rom中的后门就会通过短信的方式上报对应的手机号到黑产预埋的手机号中。黑产团伙使用这些手机号注册各类网络平台账号,当验证码发到老人手机上时会被后门再次转发到黑产手中。由于rom 的后门有对应的屏蔽短信规则,使用者自己根本看不到这些短信,所以也无法觉察自己的手机号被黑产使用了,只能从运营商的短信详单里发现端倪。
这种规模的黑产手机号,一度有超过1000万的量级。互联网厂商也无法验证这些手机号为黑号。因为即使打电话过去,对面也是有人能够接听的。
2.2 代理IP
根据代理在访问链路中的方向和意图,可以分为正向代理和反向代理。
· 正向代理:可以屏蔽访问者的IP,对于服务端来说,所有通过正向代理访问的用户,其IP 都是同一个。
反向代理:在企业中会大量使用反向代理。我们访问了一个网站,该网站可能有上百个功能,上百万个页面,这些资源分散在数量众多的应用服务器中。用户可以访问所有的资源,但是对于用户而言,所有资源都集中在一个域名下面。
c是客户端,client,n. [经] 客户;顾客;委托人
s是服务器,server,n. 服伺者;服勤者;计算机网络服务器;计算器主机;
代理的本质,就是”中介”,主要是要搞懂,这个中介在代替client,还是代替server
“替真正的client”,向server申请服务的是正向代理 正向代理是client的行为,目的是为了伪造出”client身份”
“替真正的server”,给client提供服务的是反向代理 反向代理是server方的行为,目标是伪造出”server身份”
[
](https://blog.csdn.net/weixin_44404384/article/details/114675894)
我们曾经监控到一个非常强大的黑产组织,他们通过技术手段让网民获取违规的互联网信息,诱导网民安装相应的客户端软件(这个软件通常是色情视频播放or赌博平台软件)。用户的电脑因此被这个工具做成网络代理节点。经过一定时间的积累,该黑产组织将数十万个家庭IP 变成他们的代理节点,通过API、Chrome 插件甚至SDK 的形式提供服务进行盈利。
2.3 设备伪造工具
业务风控方除通过手机号、IP 资源部署风控策略外,还会结合设备维度定制更加强有效的防控策略,因此黑产会通过各种方式和工具伪造移动设备信息。改机工具、模拟器和各种hook 框架都是黑产常用的作案工具。
2.3.1 改机工具
设备掌握在用户自己手中,互联网平台可以获取设备上的各种信息用来做风控。设备数据的维度是相当丰富的,设备类策略规则运用得当能够起到非常好的防护作用。为了对抗设备端的风控技术,黑产也在不断地创新各种技术,改机工具就是其中值得注意的一类。
互联网业务平台的营销活动,一般都有以下类似的客户条款。
· 每个注册账号仅限参与一次。
· 每个手机号仅限参与一次。
· 每台设备仅限参与一次。
如图2.6所示为008神器改机工具的介绍,如果在风控系统中使用诸如手机号、MAC 地址信息来进行简单防控策略,基本上都会被这款改机工具绕过。如果应用程序没有足够的终端对抗能力,黑产就轻而易举地伪造出各种虚假的设备信息,用一台手机生成无限多个设备指纹。当然改机工具也不是万能的,设备指纹还是能够通过技术手段识别出来的,这是攻防对抗的博弈。根据对改机工具的逆向分析研究,一些高级的改机工具已经有了针对设备指纹的对抗。
2.3.2 多开工具
如果你希望在不root 的情况下同时开启多个相同的应用程序,就可以使用多开工具。多开的工具在Android 应用市场上架非常多,如LBE 平行空间、360分身大师、多开分身等(见图2.7)。多开工具一般自带修改系统参数功能,甚至有个别多开工具还针对设备指纹厂商进行了特殊处理。
多开工具按照技术原理,大致可以分为三大类:基于virtualAPP 开源框架、基于DroidPlugin 开源框架和重打包。也有开发者将virtualAPP 和Xposed 结合,开发出一套virtualXposed 框架,能够在多开环境下灵活使用Xposed插件。多开工具因为不需要root就能改机,倍受“小白”黑产欢迎。
2.3.3 Root/越狱工具
root 和越狱并不意味着设备一定是黑设备,只是可能性较高。
2.3.12 自动化脚本
selenium、plantomJS、nightmareJS、puppeteer 都是Web 应用程序的自动化框架,它们利用浏览器驱动实现自动化操作网页,支持无界面模式(headless)。如图2.17所示,使用者通过编写简单的脚本即可操作浏览器,任意更改浏览器属性。这种作弊方式不同于协议破解和JS 引擎模拟执行,因为它是在真实浏览器环境下的操作,原有的JS 代码会被完整执行,因此更难检测。并且headless 模式在内存消耗、运行时间、CPU 占用上都有一定的优势。
在移动端也有很多自动化脚本工具,如按键精灵、触动精灵等。其原理分为两类:一类是通过Android 操作系统的辅助功能服务,不需要root;另一类是通过root 权限直接注入事件。在一般情况下,自动化脚本工具会配合群控和改机工具配套使用。
2.4 其他工具
2.4.1 位置伪造工具
想要修改手机GPS 定位,可以使用改机工具修改GPSLocation,也可以使用业余无线电设备发送虚假的GPS 信号。
plantomGPS,被称为全球最强大的iOS 免越狱地球位置修改专家,支持iOS 10-13。它最方便之处在于和U 盘一样便携,无须连接电脑。配合配套软件,可以设置起始点、规划路径、模拟步行或驾车,功能强大。
2.4.2 群控
“设备农场”也被称为“群控系统”,是指通过技术手段远程控制大量移动设备的系统。这项技术在很多领域都有成熟的应用,如云测平台、自动化测试。黑产在自动化测试框架基础上增加了改机功能,用于批量操作真机注册、养号、机器人等。
早期的群控系统功能围绕微信营销展开,主要为微商服务。如图2.21所示,通路云群控系统提供了模拟定位、站街、摇一摇、批量导入通讯录等功能,来大量添加微信好友,再通过朋友圈发布、消息群发等功能进行定向的消息推送。某些群控中还加入了图灵机器人,可以和用户聊天,模拟产生真实的聊天记录。此前媒体报道过的微信红包诈骗机器人也是群控系统的产物。
2018年,群控技术进入成熟期。如图2.22所示的群控系统稳定、功能完善,兼容大部分品牌、型号手机,允许开发自定义脚本,并且提供完整的API 文档。此外,群控还衍生出了一些附带的产业链,如专门面向群控设备的代理、群控设备专用的改机工具等。
如图2.24所示,一千台设备的群控系统可以同时注册一千个账号。配合改机工具,每台设备执行完一次脚本之后,一个新机又成为一个新的设备,继续注册新的账号。假设每个脚本的执行时间是5分钟,一天可以产生20多万个账号。假设每个账号拉新活动可以获取1元奖励,一天的收益可以超过20万元。
群控系统可以通过操作大量真实设备完成欺诈。设备越多,欺诈的规模也就越大,黑产的利润就越高。但是由于设备的成本问题,大部分黑产使用的群控,设备数量控制在200台以内。我们也看到过一个总投资3亿元、有两万多台设备的群控中心。
随着群控设备供应商的技术升级,黑产进一步压缩群控系统的搭建成本,出现了“箱式群控”(以下简称“箱控”),其造型如图2.25所示。
2.4.3 工具集
黑产广泛使用易语言来开发工具,这种编程语言简单易学、容易上手、开发便捷,基本上可以满足各种定制化的需求。如图2.26所示为一个定制的自动化作弊工具,这是一个非常标准的成品化内置软件,每个模块对接了不同的平台(如接码平台、打码平台、代理IP 等),单击不同的按键即可完成操作。此类软件可以使用在甲方的各种营销拉新活动中,绕过甲方风控获取奖励(红包、积分、话费、实物商品等)。
自动化作弊工具具有很强的针对性,针对特定平台、特定活动,同时时效性也很短。一旦被发现作弊,平台就会针对性地修改协议和防控策略,导致作弊工具失效。这种自动化工具都有专门的开发者维护,开发者会长期关注一个或多个平台的活动,对于平台所使用的风控技术、风控策略有深入的了解。
第二部分 体系构建
第3章 反欺诈体系建设思路
互联网黑产攻击行为通常具有以下4个典型特点:
团伙化
专业化
强对抗性
跨行业
本章将从甲方和乙方的角度,探讨如何创建覆盖全场景、全业务流程的反欺诈体系。在具体的实践过程中,读者可以根据自己的业务情况进行灵活取舍。
3.1 动态防控理念
在和黑产的对抗过程中,我们总结了很多经验和教训,形成了覆盖全业务流程的防控能力,建立了贯穿事前、事中、事后的动态反欺诈体系,如图3.1所示。
3.2 防控体系构建
通过对反欺诈理念的不断实践,我们逐渐构建了一个三层的反欺诈防控体系,包含终端风控层、分析决策层和数据画像层,同时,威胁情报体系会贯穿这三层
设备指纹核心能力有以下两点:
· 采集设备硬件信息,使每一台移动设备成为唯一ID,这个ID 生成后不会因为用户对设备的日常使用而改变。
· 为每一台移动设备生成风险标签,标记这个设备潜在的业务风险,供分析决策使用。
生物探针通过采集终端的操作行为、传感器信息等数据综合建模,通过机器学习区分出操作业务的是自然人还是自动化工具。
智能验证码则是一种常见的风控工具,本质上也是区分操作业务的是否为自然人。生物探针和智能验证码虽然功能大体一致,但是使用场景有所区别,前者适用于全业务场景检测是否是机器,后者适用于特定场景对抗机器批量行为,需要用户进行拖动、点击等交互操作。
生物探针能够在应用后台自动识别人机,不影响用户交互,而智能验证码是一款有悖于用户交互体验的产品。
利用生物探针的识别结果,对正常用户不会弹验证码,而对可疑用户才会发起挑战,两者结合使用能够在满足用户体验的前提下达到较好的风控效果。
*第4章 风控核心组件设备指纹
设备ID 可以用于统计业务运营数据(如DAU、MAU、广告激活),也可以用于用户画像、广告精准营销、Bug 上报等。在互联网反欺诈对抗中,设备ID 类规则是防刷单、防薅羊毛、虚假设备识别、反爬虫、账号安全等场景的核心规则。然而在各种改机工具面前,过度依赖设备ID 会使风控策略变得容易突破。因此,设备指纹还需要拥有足够强大的异常环境检测能力及自我保护防破解能力。
4.1 设备指纹的原理
设备指纹通过收集客户端设备的特征属性信息并将其加密上传到云端,然后通过后台的算法分析为每台设备生成唯一设备ID 来标识这台设备。
手机操作系统和浏览器厂商为了方便用户与开发者获取用户的设备信息,预留了一些API 供应用程序使用。用户和开发者可以通过这些API 获取客户端相关的软硬件信息,这些信息因设备而异,设备指纹通过部分的差异信息来生成完全独立的设备ID。
根据国家法律要求,设备指纹在生成设备ID 的过程中,不能使用用户的个人隐私信息,如通讯录、短信、手机号和通话记录都是不可触碰的数据。尽管这些数据具有非常强的唯一性,可以有效地提高设备指纹的准确性。
4.2 设备指纹的技术实现
4.2.1 Android 设备指纹
设备ID 需要兼具稳定性和唯一性,Android 系统的开源和碎片化导致API 函数实现各不相同,所以兼容性是Android 系统中设备指纹面临的最大挑战。表4.1列举了Android 系统中比较稳定的设备参数。
从理论上来说,所有的采集项都是Android 系统公开的API,不可能在采集项被大面积篡改的情况下保持设备ID 不变。因此,设备指纹还需要对APP 运行环境进行监测,以识别异常环境。针对Android 作弊环境的检测方法可以归纳为以下5个方面:
· 通过安装包检测安装的作弊工具。
· 通过特定特征识别root 环境。
· 使用多种方案采集同一字段信息。·
通过通用性的作弊原理识别运行的作弊框架hook(Java/native)。
· 通过特定特征识别运行的作弊工具和模拟器。Android 黑产工具更新速度很快,样式层出不穷,需要通过黑产情报不断搜集最新的作弊方法。
4.2.2 iOS 设备指纹
iOS 相对于开源的Android 而言,权限限制更加严格,手机型号和系统版本相对单一。iOS 能够获取的设备参数比较少,如IDFA、IDFV、DeviceName、MAC。表4.2列举了iOS 系统中比较稳定的设备参数。
iOS 设备指纹风险识别技术可以归纳为以下6种:
· 通过通用hook 原理识别技术检测运行的作弊工具。
· 通过特定作弊工具特征识别运行的作弊工具。
· 通过特定特征识别越狱环境。
· 寻找特定的空间存储设备标识。
· 对抗hook 改机。
· 对抗备份和抹机。
4.2.3 Web 设备指纹
Web 设备指纹(又被称为浏览器指纹)是由用户设备硬件信息和浏览器配置信息综合计算产生的,它通过JavaScript 脚本采集信息生成对应的设备ID。
苹果公司已经在iOS 12.2以后的版本中修复了该漏洞,因此该方案也并不具有通用性。表4.3列举了浏览器比较稳定的设备参数。
微信小程序、支付宝小程序设备指纹是某种特殊环境的Web 设备指纹,其运行环境和API 及标准浏览器不同,需要单独定制SDK。小程序设备指纹采集到的字段也会有所增加,在用户授权的情况下可以采集蓝牙信息、Wi-Fi 信息、屏幕亮度、微信/支付宝用户标识等。
Web 设备指纹可以归纳为以下4个方面:
· 识别浏览器端异常环境。
通过特定特征识别hook。
· 通过特定特征识别JS 是否被篡改或正在被调试。
· 通过浏览器特殊方式存储设备标识,防止存储的标识被删除。
4.2.4 设备ID 生成与恢复逻辑
设备指纹SDK 采集终端设备信息完成后,会计算生成一个唯一ID 来标识设备,如图4.3所示为设备ID 生成逻辑示意图,需要注意的是,设备ID 是在后端生成的。从前端的角度考虑,无论采用多强的加固和混淆,都能够逆向还原代码。如果由前端生成设备ID,那么只要逆向出相关逻辑就能批量生成合法的设备ID。同理,如果将设备ID 直接返回前端,在前端做风控策略,就很容易被绕过。此外,特征与设备ID 的关系是多对一的映射,特征会碰撞但设备ID 必须满足唯一。
设备ID 恢复逻辑,就是从采集到的设备信息中筛选特征组合。如果新采集的设备特征与数据库中已有的设备特征相同或相似,就认为新采集的设备是同一台设备,赋予相同的设备ID。如果没有查找到相似的设备,就认为是一台新设备,生成新的设备ID。恢复逻辑需要权衡稳定性和唯一性。唯一性和稳定性是一个权衡的过程,一个高另外一个就低。稳定性表示设备经过改机或恢复出厂设置以后还能保证设备ID不变。唯一性表示不同设备,尤其是同一型号的设备ID 不一致。如图4.4所示为设备ID 恢复逻辑示意图。
图4.3 设备ID 生成逻辑
图4.4 设备ID 恢复逻辑
如何设计一套好的设备恢复逻辑呢?这个问题没有最好的答案。如果希望稳定性高,那么可以采用单一设备参数进行恢复,大部分厂商都是采用的这种方案;如果希望唯一性强,那么可以采用多个设备参数进行恢复。恢复逻辑是否合理,需要依赖海量数据的积累和验证。
更高级一点的设备ID 恢复,可以使用设备特征相似算法生成设备ID。这种技术方案主要面临以下几种挑战:
· 海量数据的高性能检索。· 相似度权重如何选取。· 每个参数根据特点挑选不同的相似算法。· 两个设备判定是否相似的阈值如何设定,同一型号设备相似度很高容易碰撞。实际测试的效果,相似算法比传统算法更加灵活,而且在保证唯一性的前提下稳定性更好。无论何种恢复逻辑,都无法对抗修改大部分设备信息的情况。再强大的设备ID 在高级的改机工具面前,也是无法做到稳定恢复的。关于设备ID 跨浏览器及APP 跨浏览器,从业务角度分析该需求具有一定合理,从技术角度上判断是一个伪命题。受到浏览器的限制,JS 本身能采集到的信息非常有限。想要做到跨浏览器(稳定性好),就可能会导致设备ID 的大量碰撞(唯一性差)。在大规模使用的情况下,跨浏览器ID无法直接用于策略。
4.2.5 被动式识别技术
在设备指纹中会应用一些被动式识别技术,行业称为被动式设备指纹。这种设备指纹是指在终端设备与后台服务器建立连接的过程中,从网络报文中提取多个维度的特征集,在后台使用机器学习算法识别终端设备。这类被动式的设备指纹,在没有完全流量的情况下,仅利用建立连接的过程数据是很难生成一个唯一设备ID 的,但是可以用于设备验真(验证设备参数是否真实,未被篡改)。
被动式设备指纹能够获取的特征比较少,虽然攻击者不易伪造特征,但是唯一性较差。因此,主被动式结合是设备指纹的一种可尝试的思路。
4.3 代码保护
互联网平台安全和风控是业务防御方和黑产进攻方在黑盒状态下的动态对抗博弈。终端风控使用的SDK 受限于其工作原理,必须嵌入业务的APP 应用或H5页面中,直接暴露在黑产眼前。黑产团伙中的技术人员通过逆向分析和修改SDK 采集的设备信息字段试探云端的防控策略,也可以制作工具针对性地伪造大量的虚假设备用于后续攻击活动。因此,风控技术人员需要对SDK 进行安全加固保护,保护其核心代码逻辑,提升黑产逆向分析的技术难度和消耗的时间成本。
从SDK 代码保护的防护效果来看,Android 相对防护效果较好,iOS次之,而JS 的防护效果较差。
4.3.1 JS 代码混淆技术
代码混淆(obfuscation)是增加黑产静态分析难度而牺牲运行效率的一种技术方案。JS代码混淆是指通过逻辑变换算法等技术手段将受保护的代码转化为难以分析的等价代码的一种技术方案。“难以分析”是混淆的目的,“等价代码”则是要确保混淆后的代码与源代码功能表现保持一致。通俗来说,混淆代码P 就是把P 转换为P’,使P’的行为与P 的行为一致,但是攻击者却很难从P’中分析获取信息。
4.3.1.1 布局混淆
布局混淆原是指删除或混淆与执行无关的辅助文本信息,增加攻击者阅读和理解代码的难度,具体到JS 就是指源代码中的注释文本、调试信息等。布局混淆也包括采用技术手段处理代码中的常量名、变量名、函数名等标识符,增加攻击者对代码理解的难度,具体的方式包括以下几个方面。
1.删除无效代码
2.标识符重命名
4.3.1.2 数据混淆
1.进制转换
2.数学技巧
3.数字拆解
4.3.1.3 控制混淆
4.3.1.4 预防混淆
4.3.2 Android/iOS SDK 加固保护
4.3.2.1 变量名与函数名混淆
4.3.2.2 字符串混淆
4.3.2.3 Dex 加固与抽取
4.3.2.4 LLVM
4.3.2.5 代码虚拟化
*第5章 基于用户行为的生物探针
身份认证 是网络安全和风控领域的核心技术,其主要经历下面4个阶段:
1.只有你知道的信息:密码、账户、手机号、姓名、身份证号、银行卡…
2.只有你拥有的物品:动态密码卡、IC卡、磁卡…
3.只有你拥有的生物特征:指纹、声纹、虹膜、人脸…
4.你特有的行为证明了你就是你:用户的点击、按压、滑动…
5.1 生物探针
生物探针通过采集用户使用智能终端设备(如:手机、电脑等)时的传感器数据和屏幕轨迹数据,然后通过特征工程、机器学习,为每一位用户建立多维度的生物行为特征模型,生成用户专属画像进行人机识别,本人识别。移动设备可采集的传感器如设备仰角或状态、点击位置、手指滑动、键盘输入、持机手势或状态、手指触面、按压力度、左右手持机;生产用户画像使用的是非敏感生物学特征(不采集人脸、声纹等敏户建立多维度的生物行为特征模型,生成用户专属画像进行人机识别,本人识别。移动设备可采集的传感器如设备仰角或状态、点击位置、手指滑动、键盘输入、持机手势或状态、手指触面、按压力度、左右手持机;生产用户画像使用的是非敏感生物学特征(不采集人脸、声纹等敏感信息和隐私数据),通过算法模型确保唯一性,并且能够对抗伪造和复制。
5.2 无感认证
无感认证可以与传统风控和认证方式共同使用,在大幅提升用户体验的时候有效保证用户账号、资金和隐私安全
身份探针较其他用户认证方式的优势:
无须其他硬件支持
在风险监测、用户认证中用户无感知
无须用户被动参与,提升用户体验
可进行持续在线验证
用户行为习惯不易窃取、仿冒
安全合规,满足行业、政策要求
5.2.1 无感认证基础
自然人、机器人的操作行为存在差异
每个人都有自己不可复制的行为习惯
通过这些差异可以识别用户身份
5.2.2 无感认证的构建
5.3 生物探针的应用场景
登录场景:生物SDK采集用户的登录行为数据后到后端进行匹配,根据后台模型(模型是基于前期用户在使用设备的数据训练得到的模型,为用户建立专属的行为模型)进行计算判断用户是否本人操作
小额转账免短信场景:同上
支付免密场景:同上
信用卡、消费、借贷申请场景:由于该类场景是一次性,这个时候要区分的是真人还是机器操作,以及是否用户本人
第6章 智能验证码的前世今生
6.1 验证码的诞生
验证码的发展:
图文理解、视频、空间旋转、3D空间逻辑推理,智能无感验证码等
6.2 验证码的攻防
6.2.1 字符验证码的识别
传统识别方式:二值化处理(把彩色变成黑白),然后噪点处理(通过腐蚀去掉剩余的噪点),接着进行投影分割(垂直投影,对投影得到的图片绘制成一条曲线,曲线的波谷是字符相联接的位置,对这个位置进行分割就得到4张包含单个字符的图片了),最后进行旋转校正(将字符规范化)。
AI识别方法:KNN、CNN、LSTM
6.2.2 新型验证码识别
滑块拼图、图文点选验证等
6.2.3 对抗黑产的方案
1.新的验证类型(但要考虑对用户的友好,安全性)
2.轨迹模型(用户在移动图片验证码的抖动)
3.多维度赋能
6.3 设计一款优秀的验证码
第7章 风控中枢决策引擎系统
7.1 规则引擎
7.2 规则管理
….. 无质量
第8章 海量数据的实时指标计算
8.1 实时指标计算概述
反欺诈实时指标计算系统
指标抽象表示:
时间窗口
事件
主属性
副属性
计算逻辑
8.2 实时指标计算方案
8.2.1 基于数据库SQL计算方案
8.2.2 基于事件驱动的计算方案
8.2.3 基于实时计算框架的计算方案
storm、spark streaming、flink
8.3 反欺诈实时指标计算实践
8.4 反欺诈实时指标计算系统
第9章 风险态势感知系统
核心风控指标数据:
1.调用量
2.拒绝率和拒绝变化率
3.人审率和人审变化率(低风险需要人工复审的)
4.PSI(决策结果PSI、规则命中PSI)
5.字段获取率
9.3 基于欺诈情报的方法
9.4 预警系统
都是简单介绍
第10章 风险数据名单体系
10.1 名单体系的价值
10.2 名单体系的设计
10.3 名单体系的生命周期
很多虚假号码有效期一般不会超过一年,记录这条数据入库时间,满一年后一般需要从名单中移除
10.4 名单体系质量管理
第11章 欺诈情报体系
11.1 情报采集
数据情报(暗网论坛)
技术情报
事件情报
11.2 情报分析
第三部分 实战教程
第12章 机器学习算法的应用
12.3 机器学习实战案例
12.3.1 案例一:黑产设备群控网络挖掘
聚类算法
12.3.2 案例二:黑产用户行为聚类分析
1.渠道用户刷量背景
渠道结算方式CPA(cost per action,按行动付费)
利益驱动下,cpa渠道制造假用户,骗取CP的推广费用,即为刷量
2.检测思路
作弊渠道的用户的留存率是异常的:
一般第二日的留存率特别高or特别低
第三十日的相邻的后三天内的留存率与相邻前的前三天留存率比例特别低
3.总体流程
渠道用户基础属性和行为数据获取>>行为特征生成>>行为聚类计算>>渠道作弊判别
4.用户行为刻画
5.聚类结果应用
新增总用户数量
行为相似的用户数量
行为相似用户的比例
最大簇的用户数量
最大簇的用户比例
top5簇的用户数量
top5簇的用户比例
如果上述某个or某几个的比例数量大于一定阈值,则认为很可能当前渠道使用了刷量工具
12.3.3 案例三:金融在线申请反欺诈
用社交网络半监督:基于业务关联异常计算>>关联边生成>>图联通计算>>团伙异常度计算>>欺诈团伙输出
第13章 互联网反欺诈实战
*13.1 典型反欺诈业务场景风险分析
13.1.1 垃圾注册风险识别
主要通过手机号、IP、设备指纹、异常行为(历史频繁注册等)
13.1.2 批量登录风险识别
1.盗号风险,主要从
IP(识别秒拨平台的IP、代理IP、机房IP)
设备维度防控:通过指纹识别自动化登录脚本、虚假设备、作弊设备等
频繁维度监控:同一个IP、设备有频繁登录
2.有养号
注意黑设备、IP、wifi等
13.1.3 薅羊毛风险识别
同上
13.1.4 裂变拉新作弊风险识别
某邀请人短时大量邀请注册新账户
某邀请人名下新注册手机号、设备、IP异常比例高
某邀请人名下新注册设备特征相似
某邀请人名下新注册账户团伙行为异常
13.1.5 任务作弊风险识别
做任务用脚本 or 按键精灵、多开工具
13.1.6 恶意退单风险识别
13.2 解决方案设计示例
1.可用工具集
决策引擎、设备指纹、手机号风险名单库、IP画像标签、情报系统等
2.实时调用场景&可用数据维度
3.各类风险容忍度
13.3 策略部署
13.4 运营监控
简略
第四部分 新的战场
第14章 物联网时代的风控
14.1 物联网安全态势
14.2 物联网安全威胁分析
14.3 物联网安全风险控制体系建设思路
从云端应用、网络通信、终端设备三方面进行介绍:
系统安全、组件安全、Web安全、APP安全、网络安全
ROM安全、系统安全、应用服务安全、安全更新机制、端口安全
14.4 物联网安全风险态势感知系统
第15章 内容安全和合规
15.1 内容安全合规概述
15.2 文本内容安全
15.3 图像内容安全
15.4 语音内容安全
15.5 视频内容安全
15.6 内容安全工程
15.7 内容安全系统的评价指标
第16章 风控与数据合规使用
16.1 网络安全立法进程
16.2 个人数据合规使用
16.2.1 用户隐私政策
16.2.2 数据安全流转