定义

Data Fabric, 可以翻译为 “数据经纬” 或 “数据编织”。Data Fabric 是一种设计理念,作为数据和连接过程的综合层(结构)。Data Fabric 利用人和机器的能力,访问数据或支持数据整合。它不断识别和连接来自不同应用的数据,以发现可用数据点之间独特的、与业务相关的关系。

Data Fabric 是一种架构模式,可在混合云和多云环境中动态管理不同的数据源,以提供优质的数据用于支持应用程序、分析和业务流程自动化。无论数据存储在何处,它都可以帮助企业以最低的成本及时地获得正确的数据,并且实现数据端到端的治理。Data Fabric 与部署平台、数据处理、数据使用、地理位置和架构方法无关。它有助于将数据用作企业资产。Data Fabric 可确保各种类型的数据可以成功地组合、访问和有效管理。通过将数据治理、数据安全和法规遵从内置到数据经纬中,企业数据经纬可提供可信的数据,从而为您的 AI 带来可信的结果。它消除了需要手工集成各种不同独立工具的需求,从而降低了成本和提高了运营效率。通过利用云和开源的基础,数据经纬可以为数字化业务转型提供所需的可扩展性和强大的计算能力。

特征

实时数据:融合多种异构数据源,一键接入,帮助企业快速实现数据通道。

任务调度:实现任务与任务之间可配置的流向关系,形成有向无环图。

元数据管理:技术元数据自动捕获采集,实现录入、管理与应用一体化元数据平台。

错误队列:实时收集数据相关错误,后置处理错误数据,个性化设置错误队列。

API 数据接入:外部数据一键接入,快速响应企业内部业务数据需要。

可视化运维与监控:实时监控企业上下游数据变化与异常情况,打造数据融合的“管理驾驶舱”。

关键技术

IBM大中华区科技事业部云计算与认知软件部数据与人工智能信息架构产品总监王积杰认为,Data Fabric至少需要四个维度的能力。一是能够在数据之间建立虚拟链接,简化数据访问的模式,从而减少数据复制的数量。二是需要建立一个企业数据目录,并需要利用AI技术,自动化地实现基于语义和知识的分析,理解数据及其业务含义,并建立知识图谱, 从而使数据目录变得智能化和自动化。能够让需要数据的用户,随时了解到需要的数据在哪里、数据质量如何等。三是建立自动化数据平台,允许用户通过自服务的方式,访问并获取数据。四是通过提供整体的自动化策略,确保数据安全,增加数据的隐私和权限保护,并提高数据质量。

数据编织是一种新的设计理念,它是数据管理、数据收集理念的变化,与数据仓库、数据湖等技术并不是替代的关系,既可以运用现有的数据中枢、数据湖和数据仓库的技术和技能,也可以在未来加入新的方法和工具。

Gartner研究总监孙鑫谈到了实现Data Fabric的一些关键技术,比如增强型数据目录,要想实现数据找人,而不是人找数据,需要增强的数据目录,它要涵盖用户使用数据的频度与机制,了解数据与业务的关系,还包括知识图谱,通过知识图谱找到数据与业务之间的关系,找到元数据利用的整合策略,也包括推荐引擎以及在数据准备阶段的低代码等工具,低代码工具的作用在于降低数据使用的门槛,加速数据产品化。

从Data Fabric推动的难点来看,“一是理念层面的难题,中国的用户还没有意识到,数据利用和使用的方式已经发生改变,传统的集中收集再利用的方式已经不能满足需要。二是目前很多企业对于元数据不够重视。三是从人的角度看,需要提升企业数据工程师对知识图谱、图语言、图建模等数据工具的能力培养。四是数据编织的实现并不是找到一个厂商就能够完成,它是一个旅程,需要分几步走。”孙鑫认为,从用户的角度看,率先采用Data Fabric的是金融电信行业以及数据应用场景比较复杂的用户。

在这一点上,王积杰表达了与孙鑫一致的观点——这是一个方向,但并不能一蹴而就,用户需要分步实施,关键是要意识到趋势,在后续的项目实施中,按照Data Fabric的理念来构建。

必然趋势

为什么Data Fabric将会成为一种趋势,为什么越来越多的企业将在未来采用这样的方式进行部署?王积杰谈及了数据利用结构模式的变化。传统IT时代,无论是早年的“数据仓库”还是近几年的“数据湖”和“大数据”时代,其实数据利用都是集中式的架构,把数据收集到一起,让企业的数据分析师、BI(商业智能)分析师对数据进行分析。但在云计算时代,用户业务部署在多云的环境下,要想将分布在不同云上的数据集中在一起成本很高,也很费劲,于是采用去中心化、分布式的数据网络架构就成为了必然选择。

Data Fabric可以同时给业务和技术团队带来明确的价值,王积杰表示,从业务层面来看,由于企业能更容易地获得高质量的数据,从而能更快和更精确地获得企业数据洞察。从技术层面来说,由于数据复制的次数和数量较少,从而减少了数据集成的工作,方便维护数据质量和标准,也减少了硬件架构和存储的开销。由于减少了数据复制和大大优化了数据流程,加快并简化了数据处理过程,从而通过实施自动化的整体数据策略,减少了数据访问管理的工作。

Gartner认为,随着数据的日益复杂以及数字化业务的加速发展,Data Fabric已成为支持组装式数据分析及其各种组件的基础架构。由于在技术设计上能够使用/重复使用及组合不同的数据集成方式,Data Fabric可缩短30%的集成设计时间、30%的部署时间和70%的维护时间。IBM 7月发布的Cloud Pak for Data4.0的软件组合增加了智能化的Data Fabric功能,其中AutoSQL(结构化查询语言),可以通过AI来自动访问、整合和管理数据,可以帮助客户以8倍的速度、不到一半的成本,获得分布式查询的答案。

案例

NetApp

在NetApp Insight2015大会上,NetApp推出了全新的 Data Fabric 解决方案和服务,为企业提供在混合云时代取得成功所需的数据管理功能,把所有的生态环境连接在一起,从数据孤岛世界转变为无缝的管理数据。

NetApp的Data Fabric数据架构理念,就是通过搭建一个数据的管理架构,使这个数据可以很方便的在各个云之间流动,把私有云、公有云能够搭建起来

这些都要依托于Data Fabric的三个特点

首先是自由,客户可以自由选择任何一个云的服务商的云,可以是亚马逊、微软、阿里,也可以是IBM、Google,让选择变的更自由。

其次,数据可以跨云之间来做流动。例如,今天你选的是亚马逊的云,可能过一年以后,你发觉另外一个云的服务商服务更好或者成本对于你来说更有利,你想转到另外一个云,那么你的数据能够很方便地切换。同时,你可以在公有云、私有云和混合云之间流动。

最后,速度可快。很多企业在数据存储、私有云、公有云或者运营商上面,他们每一种储存数据都有一个格式,格式之间可能是不通的,这个时候你的数据就很难再跨不同的云方面来做流动。

NetApp通过Data Fabric基础套件,就可以帮助企业快速享有混合云模式的优势。它实际就是能够做一个黏合剂,把这些各个不同的孤岛给连起来,把所有的生态环境连接在一起,从数据孤岛世界转变为无缝的管理数据。

NetApp 针对三种常见状况,为不同性能级别和位置的数据迁移、管理和保护消除了障碍。

应用程序加速解决方案套件:允许客户快速部署适用于 Microsoft SQL Server 或 Oraccle 数据库的四节点闪存和磁盘集群。此套件充分展示了 NetApp 纯闪存和集群模式 Data ONTAP 的独有功能,可防止数据丢失、提供一致的高性能并通过单一平台进行跨闪存、磁盘和云资源的综合数据管理。

采用 FlexPod 的 OpenStack 解决方案套件:客户创建并运行 OpenStack 私有云只需几天,这极大的节省了时间,并全面降低成本,且可保证功能可靠。此解决方案支持企业 IT 以相同的时间,为内部业务客户提供大规模极具竞争力的云服务,操作与公共云一样便捷,同时可保持对数据的控制并降低成本。

Snap到云灾难恢复解决方案套件:展示了云在维持业务连续性和出现灾难恢复时仍保持数据控制方面的价值。将灾难恢复操作迁移至云,减少了数据中心占用空间和存储基础架构,因此可以节省成本并提高灵活性。

参考

https://baike.baidu.com/item/Data%20Fabric/57375368?fr=aladdin

https://zhuanlan.zhihu.com/p/388918594

https://baijiahao.baidu.com/s?id=1708955582647006544&wfr=spider&for=pc

https://www.sohu.com/a/40785397_118794