https://blog.csdn.net/ymszdzyymsg/article/details/116973942

    在这个新媒体时代,各种低俗广告和短视频、造谣、刷单、违法曝光等内容不断触及法律底线,而人工审核的传统方式已经无法应付机器爆发式生成的内容量,因此,如何做好流量反作弊方面的智能风控一跃成为热点。
    本次论坛分享从胡一然老师处了解到GCN 图卷积神经网络的模型在异常流量识别方面的应用;从余意老师处了解到虚假流量给公司业务带来的损失以及全栈式实时风控引擎相比其他反作弊平台的优势;从王璐老师处了解到图算法的架构和建模流程、挖掘黑产的流程和方法;从张宇仁老师处了解到电商短视频行业的风险以及对抗黑产的难度、反作弊的特征、自动化对抗的价值。以下将以四位老师的分享顺序分节记录论坛笔记。

    一、GCN图卷积神经网络
    1.1 图神经网络发展史
    图卷积神经网络是一种能对图数据进行深度学习的方法。2005年提出了图神经网络的概念,2013年图卷积引入图神经网络基于频域卷积,2016年引入基于空间卷积,2017-2019年GCN、GAT、GraphSage以及MPNN发展起来,2019年之后计算机视觉、自然语言处理、社交网络分析、交通流预测等都不断发展应用。图神经网络模型的出现,实现了图数据的端对端学习方式,为图数据的诸多应用场景下的任务提供了一个极具竞争力的学习方案。

    1.2 图建模场景
    图数据的应用场景越来越广,在图数据上的挖掘需求也越来越深,比如图上的管理计算,一些小号识别、账户常用设备管理等,都是关于用户账户方面的应用,如果不对机器号进行管理,将会影响后续整体的用户偏好统计,也会影响真正的客户群体对平台的满意程度,对公司业务管理方面也会带来损失;再比如图上的建模,应用于内容推荐、用户偏好挖掘等场景,例如羊毛党对某一些错误设置的优惠商品发起“进攻”,就会影响内容推荐的准确性,给公司维护平台带来更大的经济支出;还有社区检测/高密子圈挖掘,应用于恶意刷屏、用户可信度检测等方面,对现在的大型社交平台的“刷转赞评”、“抡博”等行为进行控制。

    1.3 图建模的特点及优势
    特点:端对端解决问题、融合结构和特征信息、弥补传统知识图谱的先天缺陷。
    优势:是对业界高热关注度和业务场景结合的实践探索,大规模图神经网络是认知智能计算强有力的、推理方法多样的应用场景。

    1.4 GCN模型
    离线GCN模型针对于大规模的数据,GCN的分类任务是GCN层加上分类器。基础模型为多轮迭代,GPU加速,以提高准确度。而针对大规模数据的调整,是使用随机GCN层参数,并且在CPU上使用分类器,不同分类器的效果也不同。

    1. 实时GCN模型可以快速识别异常流量、进行小数据量的计算、无需数据标记。实时模型不需要训练,给出随机参数保证和带预测数据参数一样即可。

    二、全栈式实时风控引擎
    2.1 流量反作弊行业现状
    目前的行业现状主要是虚假流量造成的数据样本失真,源于批量羊毛团伙对数据的干扰,导致消费群体的抽样画像中某地区、性别等关键数据出现大规模失真。
    目前的黑产链条完备,分工明确,从上游的黑产基本服务,如卡源卡商、猫池、接码平台、打码平台、注册机、代理IP等,到中游的账号生产与分销,如洗号团伙、盗号团伙、账号交易平台、养号团伙等,最后是下游的盈利变现,如投票、优惠券、微商、转赞评、秒杀红包等。设备、手机号、IP等黑产资源不断进化,使得反作弊的投入成本增加,识别难度加大。

    2.2 流量反作弊服务搭建痛点
    业务痛点:黑产技术变化快,应对策略需要快速验证上线。对模型的管理和部署服务成本变高。
    技术痛点:有海量的复杂数据源需要处理,千亿级的日流水只有12亿的月活设备,稀疏度高,数据异构严重,标准不一致。黑产团伙作案加大了技术难度。黑样本标签少导致风控建模困难。

    2.3 天御流量风控平台
    可配置化的策略管理平台可以解决策略分散无法管理、策略上线受制于开发、对接成本高等问题。

    1. 天御流量反作弊平台具有策略配置能力、数据建模能力、策略实验能力、业务分析能力等,可以快速制定防控策略对抗黑产。包括策略管理、实施指标管理、模型管理、策略实验室、风险监控管理、案件中心、变量中心等模块。可以针对不同行业场景下的恶意问题,快速制定出防控策略体系。<br /> 针对黑产团伙作弊,基于同构异构混合模型,挖掘行为和关系链数据。
    2. 流量反作弊系统的落地场景及风控服务如下图所示:<br />![image.png](https://cdn.nlark.com/yuque/0/2023/png/21930551/1673255563425-5efbd1ba-d2ed-4d27-90d7-5e69dfca818f.png#averageHue=%23f5f5f4&clientId=ub189c507-b257-4&from=paste&id=ufbed32bf&originHeight=306&originWidth=777&originalType=url&ratio=1&rotation=0&showTitle=false&size=137216&status=done&style=none&taskId=u14a2fa54-80be-464f-b2cb-60a5347e4f1&title=)

    三、图算法在反作弊中的业务实践
    3.1 图算法架构
    图算法包括图构建、图传播、图分割和图嵌入四大类,广泛应用于风控黑产团伙挖掘、图Embedding特征、推荐向量召回等场景中。

    1. 但目前使用图算法进行反作弊仍然存在痛点,比如传统的图算法过于依赖图的构造,且图割算法不灵活、不可控;黑产篡改某些关键维度信息图模型易失效;通常有业务反馈,团伙整体识别无误但存在个体的误杀;各场景单独建模耗费人力大,且团伙在各个场景常流窜作案,单场景信息利用率低。因此算法有了如下的演进:

    3.2 建模流程
    建模流程如图所示,从简单的图构建开始,对节点和边进行定义,再对图进行学习应用,以达到风控效果。

    四、反作弊的自动化对抗
    4.1 行业与风险
    字节的业务范围较广,主要风险存在于电商、短视频、游戏、社交这几大块平台,电商包含刷单、羊毛党、黄牛秒杀等行为;短视频包含虚假粉丝、抄袭搬运、数据盗爬等行为;游戏包含游戏外挂、打击工作室、虚假拉新等行为;社交包含账号盗用;感情诈骗、垃圾广告等行为。
    目前风险对抗难度从小到大分别为纯机器人、人机结合、真人作弊。黑产在每个账号上投入的平均成本在变大;黑产从事更高收益的作弊活动,比如拿高成本投入去追逐高净利润;作弊用户量级会变少但识别难度不断增加,并且机器人作弊并不会彻底消失。

    4.2 反作弊自动化对抗系统
    引入自动对抗,早期和运维期更少地投入人力,能更快进入稳定状态,能有更持续的业务效果。

    1. 从早期低表达能力的开环系统思路到后期的宏观认知,自动对抗系统的发展已经越来越成熟。

    注:图片为论坛直播会议手机截图,故存在放大后像素失真的情况。
    ————————————————
    版权声明:本文为CSDN博主「一米三呀」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/ymszdzyymsg/article/details/116973942