一、隐私计算成为释放数据融合价值的助推器

(一)数据融合应用需求迫切,兼顾发展与安全合规成为行业命题

数据驱动数字经济蓬勃发展,数据安全合规成为焦点议题。数据在不断创造价值的同时,其安全保护、合规应用等问题也成为政、产、学、研、用等各界关注的焦点:

  1. 数据发挥价值需要融合应用。数据跨层级、跨地域、跨系统、跨部门、跨业务的融 合应用才能推动新模式、新应用、新业态的不断涌现,加速数字经济创新发 展。
  2. 数据可复制、可传输等特性期待多元创新的安全合规手段。数据的应用会涉及政府、社会、企业、个人等多方主体权益,关系到国家安全、经济运行、 社会治理、个人权益等多主体,需要创新安全管理模式。
  3. 数据的价值发挥和安全合规需要寻求动态平衡点。数据治理体系搭建需要兼顾发展和安全的平衡,既要保护数据主体的权益,也要实现公共利益和社会福利的最大化。

多方主体的数据协作成为趋势,数据安全合规风险亟需消除:

  1. 缺乏能够兼顾安全合规和数据协作的合作机制与技术路径,无法消除数据主体之间对商业秘密泄露风险、商业利益分配等方 面的信任鸿沟,传统的数据保护方案往往适用于单一的信息系统或者有可能降低数据可用性,导致无法满足现有的智慧医疗、智慧金融、数字政府等涉及 跨系统的业务形态。
  2. 黑灰产、隐私保护等问题也为不同主体的数据协作带来挑战。由于黑灰产的存在,不但加大了企业的数据保护成本,也扩大了数据泄露的风险。此外,由于企业的数据也会包含用户个人信息,在协作过 程中如何有效进行个人信息保护也是数据价值挖掘的难点。

数据法律体系日益完善,推动企业加速构建数据应用安全合规体系:

  1. 数据保护法律法规体系逐 渐清晰完善。
  2. 各国关于数据保护的监管执行日趋严格。

(二)隐私计算应运而生,成为数据协作过程中保护多方数据权益的技术解

1、隐私计算基本概念和现状

隐私计算(Privacy Computing)是一种由两个或多个参与方联合计算 的技术和系统,参与方在不泄露各自数据的前提下通过协作对他们的数据 进行联合机器学习和联合分析。隐私计算的参与方既可以是同一机构的不同部门,也可以是不同的机构。在隐私计算框架下,参与方的数据明文不出 本地,在保护数据安全的同时实现多源数据跨域合作,可以破解数据保护 与融合应用难题。常见的实现隐私计算的技术路径包括联邦学习、安全多 方计算、可信计算等,此外区块链也是隐私计算的重要补充。

【智库研报】《腾讯隐私计算白皮书2021》 - 图1

隐私计算也是当前数据保护领域各界关注的热点。

  • 在学术界,近年来 有关隐私计算的学术会议和论文呈现爆发式增长,例如,中国计算机学会 多次组织隐私计算技术研讨会,在国际顶级学术会议上(如NeurIPS, ICML, AAAI, IJCAI等)也多次出现有关隐私计算技术的专题研讨会,每年出现的 与隐私计算相关的学术论文也呈指数增长(平均每年都超过一千篇)。
  • 产业界愈加关注隐私计算技术和产品,由中国信息通信研究院牵头成立的“隐私计算联盟”有六十多家成员单位,包括大型互联网公司、金融机构、初创型科技公司等企业。各企业单位都争相投入隐私计算研发和产品化工作, 有多家公司都推出了自己的隐私计算平台产品,并开始进行隐私计算在金 融、医疗等领域的商用落地。
  • 政府部门和监管机构也非常重视隐私计算技 术的发展,一方面希望能够通过隐私计算技术推进安全的数据协同应用、 推动数据经济发展,另一方面也积极制定规范和指导意见,促进隐私计算 技术及产业健康发展,推动合法、合规的数据协同应用。

2、隐私计算的主要作用

  1. 对于个人消费者而言,隐私计算应用有助于保障个人信息安全——降低个人信息在应用过程中泄露的风险
  2. 对于企业和机构而言,隐私计算是数据协作过程中履行数据保护义务的 关键路径。一方面,在企业内借助隐私计算,能够切实保护企业在采集、存储、 分析等过程中的关键信息、商业秘密等数据,既能保护企业自身的利益,还能 践行企业的数据保护责任。另一方面,隐私计算能够促进企业的跨界数据合作,由于隐私计算能够实现数据可用不可见,能够帮助不同企业和机构与产 业链上下游的主体进行联合分析,打造数据融合应用,同时在数据协作的过 程中履行数据安全和合规义务,实现生态系统内的数据融合,推动企业自身、 产业层面的数据价值最大化。
  3. 对于政府而言,隐私计算是实现数据价值和社会福利最大化的重要支撑。一是借助隐私计算能够在政府数据开放过程中,在采集、存储、协作等方 面提升数据安全和隐私保护水平,在保障数据安全的同时增强全社会的数据 协作,通过数据的应用最大化社会福利。二是借助隐私计算推动数据要素赋能产业升级,例如北京国际大数据交易所上线北京数据交易系统,基于区块链和隐私计算技术支持的全链条交易服务体系,将为市场参与者提供数据清 洗、供需撮合、法律咨询、价值评估等一系列专业化服务。

二、隐私计算三大流派交织演进,和区块链融合成为主流方向

区块链与隐私计算的融 合应用也成为业界的共识,两者相辅相成 。

(一)联邦学习助力实现多方联合机器学习

1、基本概念

在联邦学习框架下,各参与方只交换密文形式的中间计算结果或转化结果,不交换数据,保证各方数据不露出。联邦学习可以通过同态加密、差分隐私、秘密分享等提高 数据协作过程中的安全性。根据联邦学习各参与方拥有的数据的情况,可以 将联邦学习分为两类,即横向联邦学习和纵向联邦学习。

【智库研报】《腾讯隐私计算白皮书2021》 - 图2

如图2所示,在横向联邦学习中,参与方在各方数据的“数量”这个维度 上进行合作,解决单个参与方的训练数据不足的问题。如图3所示,在纵向联 邦学习中,参与方在数据的“特征”和“标签”这两个维度上进行合作,解决单 个参与方的数据特征过少或者没有标签的问题。纵向联邦学习需要计算参与 方共同拥有的样本ID,可以通过多方安全计算中的隐私集合求交技术实现。

2、技术趋势

联邦学习在深度学习领域的探索成为未来焦点。一方面,联邦学习需要支持更加多样化的深度学习模型,如广告领域常用的双塔模型、点击率预估模型、自然语言处 理模型等,尤其支持多方联邦神经网络模型的训练,并提供高效的、安全的、 无损的联邦模型训练协议,从而实现基于深度学习的联合建模。另一方面,联邦学习需要支持海量数据的深度学习模型训练,在计算机视觉、自然语言处 理、广告等领域需要通过海量数据来训练深度学习模型,但受限于目前联邦 学习的技术缺陷,需要通过增加联合计算的并行度,优化多方对接的接口等 方式实现对海量数据处理的支持。

邦学习与其他隐私计算技术深度融合,加速向平台化演进。一方面,单 一的隐私保护技术不能满足对联邦学习的安全性、效率、性能的要求、以及应 对多样化的应用场景,联邦学习将与安全多方计算、区块链、可信计算等技术 进行深入融合,并通过使用硬件加速技术,进一步提高联邦学习系统的安全 性和交付效率,保证联邦训练的模型与集中训练的模型有相同的性能。另一 方面,通过技术融合,联邦学习产品将会向通用型平台化发展,丰富服务模 式,满足多样化的用户需求。按需提供数据安全保护服务和全栈的联合建模 和联合分析功能,将成为联邦学习产品适应多样化业务场景的演进方向。

(二)安全多方计算提供更加安全的联合数据分析能力

1、基本概念

安全多方计算是一种在参与方不共享各自数据且没有可信第三方的情 况下安全地计算约定函数的技术和系统。通过安全的算法和协议,参与方将 明文形式的数据加密后或转化后再提供给其他方,任一参与方都无法接触到 其他方的明文形式的数据,从而保证各方数据的安全。安全多方计算的基本 安全算子包括同态加密、秘密分享、混淆电路、不经意传输、零知识证明、同态 承诺等。解决特定应用问题的安全多方计算协议包括隐私集合求交、隐私信 息检索及隐私统计分析等。

【智库研报】《腾讯隐私计算白皮书2021》 - 图3

2、技术趋势

安全多方计算与其他隐私计算技术融合应用成为主流趋势。由于安全多 方计算需要消耗大量的计算和通信资源,目前应用更加适用于小规模数据 量,并且应用主要是聚焦相对简单的统计、查询等类型的计算,而基于安全多方计算的联合建模框架只能支持相对简单的机器学习模型,如逻辑回归模型等。其主流的应用主要以安全技术的形式融合在其他隐私计算解决方案中, 例如与联邦学习的结合,在样本对齐阶段通过隐私集合求交来实现参与方公 共样本ID的发现;在联邦模型训练阶段,可以通过同态加密、秘密分享享等技 术来实现对中间技术结果或转化结果的保护。

安全多方计算产品的计算和通信效率提升呈现两大路径。安全多方计算需要用到相对复杂的密码学运算,其计算和通信开销会超过实际应用能承受 的范围,导致无法实现在大规模数据上的应用。提升其计算和通信效率是当下技术演进的主流方向,主要呈现两大技术路径。一是聚焦减少算法的计算量和安全协议的消息交互量,通过压缩算法、采样、抽样等方式减少计算和通信开销,从而实现计算和通信效率的提升。二是通过新的密码学技术和设计 新的算法协议,结合硬件加速技术(如GPU、FPGA、ASIC加速)和专有算法实 现硬件来加速计算量较大的环节和步骤,进一步实现计算效率的提升

(三)可信计算助力隐私计算服务安全高效运行

1、基本概念

可信计算指借助硬件CPU芯片实现可信执行环境(TEE),从而构建一个 受保护的“飞地”(Enclave),对于应用程序来说,它的Enclave 是一个安全的内容容器,用于存放应用程序的敏感数据与代码,并保证它们的机密性与完整性。 目前,TEE的实现也包括ARM平台的TrustZone、AMD下 的SEV等,但在隐私计算领域,以Intel SGX的应用较为成熟。可信计算(TEE) 是基于硬件和密码学原理的隐私计算方案,相比于纯软件解决方案,具有较高的通用性、易用性和较优的性能。其缺点是需要引入可信方,即信任芯片厂商。此外由于CPU相关实现属于TCB,侧信道攻击也成为不可忽视的攻击向量,需要关注相关漏洞和研究进展。

在可信计算过程中,TEE保证的可信功能主要包括:

远程证明:使用TEE进行隐私计算的必备步骤⸺当一项计算任务存在 多方协作时,比如参与方A需要将数据(一般是加密的中间态数值)传递给参 与方B,那么就需要检验B的程序的确是在TEE中运行的。在这一情况下,B需 要能够提供“证明”,来证实自己的确是符合参与方A预期的运行状态,这一 运行状态除了TEE环境信息以外,也进一步包括对于所运行程序代码相关信 息的核验。

可信信道:在A成功验证B传递过来的证明之后,A也验证了B的身份和计 算环境,便可以建立一条安全的可信信道(如基于B的证书建立加密信道), 用于后续的数据传输会话。

数据密封:TEE本身支持的一种密钥映射机制,以Intel SGX为例,在使用 数据密封功能时,由CPU指令对既定的入参进行计算,生成相应的密封密钥。 数据密封机制保证了Enclave对数据的密封(加密)和解封(解密)过程,只能 于同一Enclave内进行,而密封数据的存放,可以落盘于Enclave外,从而实现可信存储。

【智库研报】《腾讯隐私计算白皮书2021》 - 图4

2、技术趋势

  • 平台化和容器化是未来可信计算与云平台融合的关键路径。
  • 可信计算的易用性提升是产品化应用的重要方向。
  • 底层硬件架构的灵活切换是未来丰富可信计算应用场景的重要条件。

(四)隐私计算融合区块链提升数据协作全流程保护能力

随着技术的不断发展,区块链从一种防篡改、可追溯、共享的分布式账本 管理技术,转变为分布式的网络数据管理技术,利用密码学技术和分布式共 识协议保证网络传输与访问安全,实现数据多方维护、交叉验证、全网一致、 不易篡改。隐私计算虽然实现了在多方协作计算过程中对于输入数据的隐私 保护,但是原始数据、计算过程和结果均面临着可验证性问题。而区块链因其 共享账本、智能合约、共识机制等技术特性,可以实现原始数据的链上存证核 验、计算过程关键数据和环节的上链存证回溯,确保计算过程的可验证性。因 此将区块链技术对计算的可信证明应用到隐私计算中,可以在保护数据隐私 的同时增强隐私计算过程的可验证性。

【智库研报】《腾讯隐私计算白皮书2021》 - 图5

区块链将成为隐私计算产品中必不可少的选项,在保证数据可信的基础 上,实现数据安全、合规、合理的有效使用。主要体现在以下三个方面:

  • 区块链可以保障隐私计算任务数据端到端的隐私性。
  • 区块链可以保障隐私计算中数据全生命周期的安全性。
  • 区块链可以保障隐私计算过程的可追溯性 。

三、数据协作需求推动隐私计算应用 从金融、医疗等向其他行业延伸

(一)金融

数据协作需求推动隐私计算应用 从金融、医疗等向其他行业延伸

【智库研报】《腾讯隐私计算白皮书2021》 - 图6

(二)医疗

隐私计算有效助力医学影像识别、疾病筛查、AI辅助诊疗、智能问诊咨询等。

【智库研报】《腾讯隐私计算白皮书2021》 - 图7

(三)政务

基于隐私计算助力政府数据开放,实现精准施策

【智库研报】《腾讯隐私计算白皮书2021》 - 图8

(四)广告

联邦学习助力广告程序化交易联合建模,提升广告主投放效果和用户体验。在广告场景中,流量方和广告主侧各拥有一部分链路数据,比如流量方拥 有流量相关点击行为和基础画像,而广告主侧拥有深度转化链路数据如付 费,后者属于广告主核心资产,不能完全同步给流量方,但是双方都有需求优 化广告投放效果,以提升成本控制和起量效果。

【智库研报】《腾讯隐私计算白皮书2021》 - 图9

四、隐私计算助力数据安全合规的价值凸显, 但仍存在较大提升空间

(一)隐私计算有望成为数据协作过程中数据合规和隐私保护的技术工具

隐私计算,旨在通过技术保障数据协作过程中的数据安全。对企业履行 数据合规义务具有积极作用,具体体现在以下三个方面 :

  1. 隐私计算在无需转移数据物理存储服务器的情况下实现数据建模分析, 从而减少数据协作过程中风险。
  2. 隐私计算可从技术层面满足数据最小化、完整性和机密性原则要求。
  3. 隐私计算可证明、记载企业是否履行数据安全保障义务。

(二)隐私计算的推广应用仍存在合规痛点

从技术层面而言,隐私计算实现的数据保护功能与国内外数据保护相关 立法精神高度契合,具有广阔的发展前景。但在全球数据合规监管日趋严格 的大背景下,隐私计算仍具有较大提升空间。

  1. 采用隐私计算,仍需明确用户授权同意机制。隐私计算是解决数据流通 环节用户授权的有效工具。根据我国《网络安全法》及《民法典》的规定,数据 处理者在处理数据时应公开收集、使用规则,并经用户同意。从理论上而言, 数据合作方通过隐私计算技术实现数据分析与建模,不需实际流转数据,且处理过程中的数据都进行了匿名化处理,或不需要获得用户授权同意。但实践中,在原始数据采集阶段,数据合作各方仍需获得用户授权同意。此外,由于个人信息的匿名化标准尚存争议,因此做好告知同意的授权管理,对强化企业数据合规仍具有重要意义。
  1. 隐私计算应用过程中也需重视数据安全风险 。以联邦学习为例,尽管其无需参与者直接共享原始数据,但模型更新仍然会泄露参与者训练数据的相关信息,攻击者可以采用推理攻击判断具体的数据点或数据属性是否被用于 训练,或采用逆向学习的方法还原原始数据。如果有切实的证据证明经过隐私计算的数据结果具有可逆性且已被泄露,那么它便不再属于法律规定的 “经过处理无法识别特定个人且不能复原”的数据,企业未经授权或授权不充 分的共享与转让行为将很可能被认定为对个人信息主体权益的侵犯。
  1. 隐私计算应用过程中个人信息主体权利请求的实现仍需进一步探索。当 下,我国数据立法整体倾向于加强对个人信息主体权益的保护,这是隐私计 算合规无法回避的重点问题。
  1. 隐私计算参与各方权利义务的边界有待进一步明确。隐私计算涉及多方 主体:(1)个人信息主体;(2)数据持有方,即为隐私计算提供数据的个人或 组织;(3)计算方,即为隐私计算提供算力的个人或组织;(4)结果方,即接收 隐私计算结果的个人或组织。各方之间的法律关系尚未厘清,数据收集处理 的商业合作将处于不合理的高风险状态,如个人信息主体是否基于对原始数 据的所有权而对经隐私计算的数据模型享有权益,发生数据泄露且溯源取证 困难时,后三者间应如何进行责任划分,这些都将影响隐私计算商业模式的 发展。现阶段,隐私计算参与各方宜通过协议方式,约定彼此的数据安全权利 和义务边界,以便在发生争议时,明确各自的责任范围。

五、技术演进、应用拓展和法律完善 将加速隐私计算商业化进程

(一)效率、性能提升和技术融合将成为隐私计算产品化的主要方向

隐私计算效率和性能提升是未来规模化推广的重要前提。

隐私计算多种技术路径深度融合,通用型隐私计算平台有望成为未来主 要产品形态。

(二)隐私计算应用场景不断拓展,有望重塑数据使用模式

隐私计算应用场景将从金融、医疗等领域向其他行业加速拓展。

隐私计算将加速基于数据协作的业务模式创新 。

(三)隐私计算将通过助力法规政策落地促进数据融合应用

通过技术与制度配套推进的方式实现数据保护将是隐私计算发展的有效路径。

隐私计算需动态适应法规政策的变化与完善,进一步落实合规要求。