近两年,联邦学习技术发展迅速。作为分布式的机器学习范式,联邦学习能够有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,从技术上打破数据孤岛。目前,联邦学习技术在对数据安全有极高要求的金融领域落地居多,并且取得了不错的效果。但是,依旧有不少企业对是否要部署该技术存在疑问,有技术层面的原因,也有对效果的担忧。根据康威定律,技术发展与其组织存在必然联系,联邦学习的技术推动是否也和组织有关系?同样是解决数据问题,联邦学习和数据中台的关系是什么?落地时要如何打通?
数据中台和联邦学习的关系是什么?
不仅是互联网企业,很多传统企业都参与到了数据中台的建设中,基于数据提高企业运营效率。从 Hadoop 集群的开发运维,到构建大数据平台,再到数据中台建设,这是很多大型互联网公司大数据的建设历程。如今,联邦学习同样打着“解决数据孤岛”问题的旗号出现,不免心生疑虑:同样是为了解决数据问题,真的需要这么多东西吗?
数据中台和联邦学习是有本质区别的,联邦学习需要使用数据,而数据的治理和加工需要有数据中台的支持。如果企业中还没有建设好数据中台,那么只要把相关使用到的数据准备好,同样可以支持联邦学习技术应用。简言之,数据中台为联邦学习提供了良好的数据环境。
联邦学习是一种分布式机器学习框架。所谓“联邦学习“,是不同于机构之间拥有独立的数据和独立的模型,联邦学习通过技术手段将机构之间的建模过程联系在一起,同时又保持机构之间的数据独立,在数据不共享的情况下共同建模,提升模型效果,这样就解决了传统手段下数据安全防控的问题。
具体来说,联邦学习通过密码学技术,在数据加密的情况下可以完成数据的安全计算,确保数据的隐私性。技术原理的示意图如下:
在技术细节上,主流的安全计算有 PHE 与 Secure Share。PHE 不需要将数据加密分片共享,减少信息的暴露,但是在训练阶段,PHE 则需要更多的网络传输,不过在 PHE 安全计算协议中,也存在明显的缺点,即延展性攻击风险。
如果企业已经具备数据中台,那么在落地联邦学习的过程中,首先遇到的问题是如何与企业数据中台打通,这涉及数据安全、合规问题,需要确定联邦学习平台的数据范围、数据颗粒度、数据脱敏、加密等问题。其次是机器资源成本问题,企业应利用内外部云计算资源,部署联邦学习所需要的大数据计算资源(实时计算,离线计算),降低机器和维护成本。最后,技术门槛较高,涉及技术众多,例如:密码学、分布式网络与计算,机器学习等,这都增加了联邦学习探索应用的难度。实际应用过程中,也会遇到计算慢的问题。
联邦学习是“一把手”工程吗?
除了技术上的准备,联邦学习在企业内部的推进也会遇到组织问题。任何事物的产生发展都有其背景,人工智能时代,模型训练需要大量的数据,但现实却是数据独立存在于不同机构当中,因为隐私安全等问题难以聚合在一起,难以将数据价值最大化,目前联邦学习未形成行业标准,如:应该采取哪种加密方式,每个项目都是 case by case,所以需要“一把手工程”从公司层面推进解决,做好顶层设计。关于联邦学习的标准,预计还需要一至两年的行业探索与实践,才可以制定出相关的标准与规范。联邦学习大规模落地的核心还是对业务应用产生价值,以智能信贷风控为例,需要建立联邦安全联盟,通过合理的生态机制,引入更多的参与方,从而更全面的刻画用户,提升模型效果,有效识别信用风险,提升业务收益。