一、大数据行业对于数据融合的需求和痛点
1. 向数字时代迈进的趋势不可逆转
从第一台计算机的问世,到互联网的诞生,再到近十年来移动互联网的蓬勃发展,整个世界的数字化进程已经呈现出越来越迅速、清晰的趋势。使用各类APP、电子商务、电子支付等已经成为我们的习惯。
近年来,5G技术日益成熟,其核心场景包括:增强移动宽带(eMBB),面向VR/AR、超高清视频等需要高速大流量的移动宽带业务;大规模机器类通信(mMTC),面向大规模物联网等业务;超高可靠及低延迟/时延(uRLLC),面向无人驾驶、工业自动化等业务。
显然,我们将进入万物互联的时代,万物互联也就意味着万物皆数。数字世界将是这个物质世界的孪生世界,这种趋势不可逆转。
2. 数据是资源更是资产
数字时代的各种产品和服务除了为公众提供直接价值外,还产生了大量的数据。由于数据特殊的选择价值的存在,数据不仅对个人意义重大,还日益成为现代商业的核心价值与重要资产。数据正在重新塑造人类生活的方方面面,包括金融、广告、零售、医疗、物流、能源和工业等。
随着人工智能时代的到来,数据在现代商业活动中也成为了最重要的竞争资源之一。各个巨头公司利用自身数据优势建立起行业壁垒。
例如,有些打车软件公司拥有用户日常出行数据,包括乘客的起点与终点。他们可以利用这些数据来优化自己的产品和业务,甚至可以用这些数据来进行预测,比如房地产价格指数或者政府道路优化方案等。
上面的例子深刻体现了大数据的扩展价值,还有一个更广阔的价值是大数据的融合价值,也就是数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时,重组总和的价值比单个总和的价值更大。
譬如在普惠金融方面,中国人民银行征信中心通过以往用户在金融机构中的借贷行为形成了一部分人的信用数据,但是这类人群占社会总人口的比例很小。如果我们想让更多人享受到普惠的金融服务,就需要针对不同人群设计不同产品,而这就需要更多的数据进行信用的积累,包括电商、消费、社交等数据。
3. 隐私保护是自由的基础
在互联网、人工智能给我们带来便利的同时,也存在一些乱象。因此,保护用户隐私的需求也变得越来越迫切。
技术使人类能够更尊重和更好地保护彼此的权利。同样的,技术也可能让人类能够有更多的新方式侵害彼此的权利。有 “摩尔定律” 也有了 “摩尔的不法之徒定律”, 垃圾信息传播者、身份盗窃者、在网上“ 钓鱼”的罪犯、间谍、僵尸网络入侵者、黑客、网络恶霸、数据敲诈者,他们给互联网带来的负面影响也非常大。
2018年5月25日正式生效的欧盟通用数据保护条例(GDPR)引起全球广泛关注,这部被称为“史上最严”的数据保护法案对科技行业和个人生活产生了深远影响。它是人类历史上第一个规定个人数据所有权规则的条例,它在法律上明确规定了个人数据是归个人所有的数据资产。
同样的,近两年来,中国对于个人隐私保护和数据安全方面在立法和执法力度上都在持续加大。这些法律法规将保障人们对个人数据有更多的掌控权。
二、行业对于解决痛点方面的探索
1. 行业痛点
数据的融合可提高其价值,数据的交叉使用会产生协同作用。
但因为数据本身的可复制性和易传播性,若一经分享无法追踪使用情况,数据资产的分享与协同开发受到严重制约。此外,我们的数据需要得到保护和隔离,然而数据对人类社会的价值在于联合在一起的计算和分析,这就构成了一对矛盾关系。
虽然个人对隐私的保护、商业公司对数据的保护,都是正当的利益诉求,但却产生了一个个数据孤岛——拥有数据源的中小企业无法安全地将数据共享或变现。而包括大数据公司、开发者和科学家在内的数据使用者仅能接触到有限且费用高昂的数据集。与运营商等大数据源的合作需要开发人员在现场将模型部署于数据源的服务器上,模型算法存在泄露风险,且效率低下。
受保护的数据如何产生价值?
这是目前大数据产业发展的最大痛点。可以毫不夸张地说,如果这个矛盾和问题得不到解决,大数据产业的发展将受到极大制约。
为了解决被保护的数据如何产生价值这个问题,并且能够在此基础上,充分发挥大家的积极性,创造更大的协同价值,业内同仁在安全计算、价值网络和区块链的结合等多个方面进行了探索。
2. 模式探讨
任何解决方案,必定都是针对某个问题,找到收益较大化、弊端较小化的最优解,而不可能十全十美。一切追求完美的方案必定是和现实相冲突的。
就数据资产的处理而言,我们主要需要考虑三个因素:便利性、安全状况和成本。所以对于不同模式的讨论,也可以简化为对于这三个因素的平衡。
模式一:中立国模式
这种模式主要适用于其中一方数据相对丰富的情况,譬如有政府、互联网公司等参与的情况。
在这里我们可以称这些拥有丰富数据的一方为主体数据提供方。主体方拥有大量的、覆盖面广且基础属性全的数据;数量众多的需求方拥有自己的小价值数据,同时对于这些数据有扩量、统计层面的强烈需求。
由于主体数据提供方的数据量非常庞大,不易轻易搬动,这些数据一般相对固定,并作为数据主板。而众多数据使用需求方因为数据体量小、数据传输方便,可以比较便利和更低成本地为数据需求方提供服务。
这样的服务可以通过一个具有公信力的独立第三方来搭建中立国环境,包括数据存储、大数据计算以及安全环境,并通过沙箱、数据安全技术、审计手段等确保数据使用过程中的合法合规及安全隐私保护。
目前也已经有不少公司提供这样的服务,如浙江省数据安全服务有限公司等。
模式二:领事馆模式
这种模式是中立国模式的变种。该模式系统不是由独立第三方进行搭建,而是由数据主体方提供,然后划出一块区域,让数据需求方独立搭建自己的计算环境。
主体方数据通过某种方式能够让数据需求方接触到并参与计算,但是因为“领事馆”还是在数据主体方的整体环境中,所以数据的流进流出会受到主体方的监管, 特别是需要流出的数据,须满足数据主体方的审计标准,保证数据合法合规并受到隐私保护。
这种模式主要从主体方数据安全考虑,但没有中立国模式便利,成本也相对较高。目前,一些互联网大数据公司已经采用领事馆模式。
模式三:安全多方计算和联邦计算模式
该模式主要适用于这种情况:在数据拥有方因为政策、数据价值高无法出库等要求下,数据无法进行直接流动,同时又对于外部数据有非常强烈的使用需求。
该模式考虑更多的是数据安全问题,对于技术方面的要求也更强、更具有挑战性,但对于便利和成本方面的考虑就不是那么突出了。当然这种模式也可以与前两种模式结合使用,但成本也会更高。
目前已经有不少创业型的公司在提供相关的产品和平台,部分大数据科技公司也会自主研发。
总结
在数字化时代、大数据时代、智能时代,被保护的数据如何产生价值?这是目前大数据产业发展中最大的痛点。如果这个问题得不到解决,将极大地限制大数据产业的发展。
令人欣慰的是,业界正在积极探索解决这一矛盾,并取得了一定成绩:在融合多方安全计算、区块链等多种技术上,形成多层链/网络、计算网络和存证链、智能合约平台以及通证化。
在大家的共同努力下,我们有信心在这个方向上取得突破,让产业能够持续健康发展。