来源:https://zhuanlan.zhihu.com/p/337592915
    京东有强大的风控系统:天策决策引擎系统、天盾账户安全与反欺诈系统、天网交易风险监控系统。

    转自|公众号「架构头条」(ID:ArchFront)作者|万佳 采访嘉宾|刘宇
    作为国内知名的互联网企业,京东集团通过构建自己的风控体系,不仅成功地抵御了黑灰产的攻击,而且改善了用户体验,甚至为公司带来实实在在的效益。
    什么是风控?互联网企业的风控与传统风控有何区别?京东是怎样构建自己的风控体系?……
    带着这些问题,InfoQ记者专访了京东集团风控负责人、资深架构师刘宇。据悉,刘宇于2018年正式加入京东集团,与团队一起建设京东的风控体系,2020年起负责京东集团风控中台的规划及建设。
    1、风控那些事
    风控的定义、起源
    风控,顾名思义,即风险控制,风险管理。根据维基百科,风控是一个管理过程,包括对风险的定义、测量、评估和发展因应风险的策略。目的是将可避免的风险、成本及损失极小化。
    据刘宇介绍,风控最早起源于金融、保险等行业的大中型企业,它们使用风控来规避企业经营风险,保障企业的健康发展。但是,随着传统企业的数字化转型和移动互联网的发展,越来越多的企业开始将业务转移至线上,并投入大量的营销成本去做用户增长和提升用户活跃度。
    正所谓,“哪里有利益,哪里就会有欺诈”。同时,大量黑灰产从业人员利用各种非法手段通过平台的业务漏洞获利。为应对这种情况,业务风控应运而生,还有人称之为业务安全或OFD(Online Fraud Detection)
    风控的核心、构成
    对企业来说,风控最核心的是“人”。通常,企业的业务风控由风控运营和风控研发两个团队组成,而一个完备的风控体系,还会涉及公司里的其他团队,比如客服、业务治理等。在刘宇看来,这是一个非常庞大的体系。
    具体而言,风控运营人员要对业务有深入的了解,具备较强的逻辑分析和数据分析能力,其核心职责是通过对业务的了解和黑灰产的对抗经验,利用数据分析、研判工具等手段,及时发现业务风险,升级风控策略,对风险进行处置。
    image.png
    一般的风控流程
    而风控研发团队有算法人员、BI人员、系统开发人员和产品经理等角色,主要职责是负责整个风控体系的搭建,包括风险识别、决策和风险处置等。
    从系统的角度,风控系统一般自下而上分为几层:

    • 最下层是数据层,包含实时数据、离线数据等。在数据层之上是数据处理层或数据指标层,它主要的工作是把原始数据进行加工、处理,形成指标。
    • 这一层的上面是模型层/工具层,主要基于底层的数据做一些模型的工作,输出一些模型的结果。
    • 在这之上,就是风控的核心层,也是风控最核心的部分,包含识别、决策和处置。这一层对外提供风险识别的能力,接入一些数据,基于此做一些风险识别,并按照运营人员配置的一些策略做决策,最终对风险进行处置。
    • 在核心层之上是服务层,有风控对外提供的一些服务,比如风险识别服务。最上层是工具类的产品,比如给各个业务提供的风险查询工具、策略管理工具。

    互联网风控与传统风控的差异
    实际上,风控并非“新鲜事”,它在金融机构存在多年。但是,在互联网出现后,出现了互联网风控。
    刘宇表示,首先,传统风控更多的依赖专家经验,容易被黑灰产绕过,而且,传统风控更侧重于“事后”,因为它们对实时性要求不是很高。但是,如果是移动互联网企业,时效性对用户体验就有极大的影响,“如果还是传统方式,那用户体验无疑会非常糟糕。并且,当钱被黑灰产‘薅走’时,风控才应对,那么这就晚了。”他说,“我们希望将所有的风控前移。”
    其次,传统风控的防御点彼此割裂,防护能力弱。相对而言,互联网企业的风控从线上、面上着手,因此强于传统的风控能力。
    第三,传统风控更多的是欺诈个体识别,无法对抗团伙作案。并且,传统风控更多的基于专家经验和一些经验积累,一旦黑灰产掌握这些规则,就会想方设法绕过规则,“此时,传统风控的自我学习能力相对差一些,无法快速应对新型威胁”。
    因此,针对传统风控的一些问题,刘宇和团队在搭建新的风控体系时提出下列要求:
    以大数据为基础,人工智能技术为核心,去搭建风控体系。目标是打通各个节点,做到全链路的风险识别。并且,不使用单一技术去识别风险,他们使用多种技术组合,侦测逻辑复杂,构建一个立体的风控体系。这样,黑灰产就很难识别出平台的风控逻辑。
    此外,采用更多的数据维度,这样便于发现一些未知欺诈风险。同时,提升风控识别的准确率,避免影响到正常用户的使用体验,比如对用户的验证希望实现无感验证。最后,对整个系统识别的实时性要求非常高,希望实现实时识别。
    2、风控实践详情
    京东业务覆盖零售、数字科技、物流、健康、保险、AI等,规模较大,业务复杂。但是,对于业务风控,最核心的目标仍旧是控制业务风险,保障各个业务的健康发展。同时,利用风控的核心能力,帮助业务实现精准营销,将平台的优惠返给真正的用户,而非黑灰产。
    刘宇称,2020年起,京东风控形成了“前台和中台”的组织形式。京东各个业务板块,包括零售、数科、物流、智联云、保险、健康、国际等,分别搭建各自的风控业务前台,集团风控研发部则负责风控中台的搭建。
    image.png
    风控前台贴近业务,所以更了解业务,进而可以更快速的发现风险并对风险进行处置,从而最大限度的止损;从另一个角度看,风控能和业务结合的更紧密,帮助业务将更多的资源投给信用好的用户和商家,从而帮助业务快速增长。
    而风控中台以“共建共享、联防联控”的思路进行构建:

    • 一方面联合风控体系较成熟的业务沉淀并开放其风控能力及组件,从而加快新业务风控体系的搭建,避免了重复“造轮子”。
    • 另外一方面,风控中台协同各个业务板块完成风险识别及处置的联动,避免风险识别“死角”。

    刘宇举了一个例子,一个用户对京东零售或京东物流来说,可能是一个正常用户,但是从京东数科来看可能就是风险用户,因此要整体看。
    具体到风控系统上,京东的风控系统最早是业务驱动,后来转向技术驱动。他说:“在起步阶段,数据、系统、工具都相对薄弱,有些风险处置逻辑、识别逻辑混在业务系统里。”这一阶段的主要工作是解决线上的业务问题,风控运营和研发人员疲于应付各种临时的风险事件。
    随着风控体系的逐步完善,风控运营人员可以基于风控系统进行日常的数据分析和黑灰产对抗工作。此时,风控体系逐渐转向技术驱动,聚焦到识别模型,研发高可用的系统。随着京东业务量不断增长,京东的黑灰产对抗经验也逐渐丰富起来,风控系统日趋完善。
    风控系统的核心是规则引擎。某种程度上,规则引擎的好坏关系重大。由于京东整体的业务量、数据量较大,风控系统的规则引擎必须具备以下特点:

    • 支持风控运营灵活配置复杂规则;
    • 支持高并发、低延迟,保证事前风控的时效性;
    • 支持机器学习模型的部署。

    经过详细调研之后,京东选择了自研规则引擎。
    规则引擎的主要功能是特征提取和规则管理。其中,规则管理有着较高的复杂性和灵活性。经过长期的黑产对抗实践,京东总结出了多套规则体系,基于不同的风控场景将通用规则与该场景的定制化规则进行合并。这样可以基于场景自由切换。比如,在双十一时,采用一套规则,在其他活动中采用另一套规则。
    刘宇称,京东的规则引擎已经实现完全可视化配置,针对不同人群,能提供不同层次的策略配置工具。比如,对一线业务人员,提供完全傻瓜式的配置,业务人员只需选择低风险、中风险、高风险等简单选项。这样就能解决他们绝大多数的业务问题,并且学习门槛不高,上手快。
    对于风控运营人员,风控系统可以提供完全可视化的复杂配置工具,运营人员可以自行配置数据源、配置规则、配置策略等,并且可以做线上的一些规则验证。不过,这已经可以通过零代码的方式解决黑灰产对抗90%的问题。
    对于特别复杂的问题,风控系统也提供了高级模式,但高级模式需要风控运营人员将需求提给研发,通过编写代码来生效。这样既保证了足够的灵活性,也能解决高度复杂性的问题。
    image.png
    在他看来,由于风控体系的存在,不仅能够直接帮助业务避免风险,而且也间接地帮助业务部门做用户增长、精准营销。“像618、双十一这样的活动,如果没做好风控,那真正的促销优惠就会被黑灰产‘薅走’,不仅会伤害好用户,而且影响了用户体验。”他说。事实上,风控不仅是一个技术问题,也是流程、管理问题。
    对风控来说,制度的建设非常有必要。作为风控行业的老兵,刘宇也给搭建自己风控系统的企业提出三点建议:

    • 风控系统涉及的流程比较长,比如数据采集、数据打通、数据融合、模型优化、规则引擎和场景应用等。任何一个流程出问题,都会导致误杀或漏杀。漏杀会造成一些经济损失,误杀则会对用户体验造成影响。因此,需要在所有环节做好监控和预警。一旦发现数据异常,及时处理。
    • 其次,规则管控非常重要。规则版本的管理,特别是规则上线,对新规则要进行严格测试。不然,容易导致误杀率上升,影响用户体验。
    • 最后,风控的核心是数据。风控系统是企业中涉及数据维度最多的系统,所以数据融合的问题是最突出的,尤其是不同的系统对数据的标准。如果同样的数据,大家的定义不同就会带来一些问题。

    3、新尝试
    在风控上,京东正在做一些新的尝试。
    一是无感验证。为了最大程度地提升用户体验,不打扰正常用户的前提下,京东正在尝试新的验证方式,而非常见的短信验证码、电话验证码等。京东会尝试基于多业务场景行为数据打通,以实现无感验证。
    二是风险定价。京东具有非常庞大复杂的业务体系。同样的一个用户,不同的业务对他的衡量结果并不完全相同。“我们希望从集团角度对每个用户实现更加精准的定价机制”。
    三是风险感知。刘宇表示,风险感知是一个比较难的课题,“我们希望能够尽早预判风险的来临,这样就可以有充足的时间做准备,包括预防策略,以帮助业务尽可能地减少损失。”他说。
    四是智能调控。京东希望做一些尝试,对不同的组织、不同的人有一些更加柔性、更加弹性的管控,而非运营人员手动调控。
    4、未来发展方向
    关于风控技术的未来,刘宇提到几个趋势:
    一是5G、IoT技术(可穿戴设备、智能家居)的普及,会产生海量行为数据。基于此可以产生动态的、基于场景的超高精用户画像,用于精细化的风险干预。当然,挑战在于如何利用海量的数据打造精准的用户画像。
    二是利用AI技术自动挖掘算法特征、模型迭代、策略推荐,做到零人工干预,根据风险场景和用户状态自动调整策略,改变现在的人为特征选取、建模周期长的问题。
    未来10年,国家会加大社会信用体系的建设,开放政务数据,京东也正在探索利用联邦学习等新兴技术,保证用户隐私和数据安全的前提下,让数据在风控方面发挥更大价值。