1、元数据
1.1、元数据的定义
1、元数据(Metadata)是关于数据的数据,类似Spring中bean与BeanDefinition的关系。 2、在数据仓库系统中,元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 2.1、技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据: — 数仓结构的描述、 — 汇总涉及的算法 — 操作环境到数仓环境的映射关系 2.2、业务元数据,从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够”读懂”数据仓库中的数据。
1.2、元数据的作用
1、元数据是数仓进行数据集成所必需的 1.1、当从各个数据源抽取的数据按一定模式存入数仓中, 而这些数据源与数仓中数据的对应关系及转换规则都要存储在元数据知识库中。 1.2、构建数仓之前,可能会按照统一数据模型,先去构建数据集市,然后在各个数据集市的基础上再建设数仓,当数据集市数量增多时很容易形成 “蜘蛛网” 现象,而元数据管理是解决 “蜘蛛网” 的关键。
2、元数据定义的语义层可帮助用户理解数仓中的数据 — 类似翻译的功能 2.1、元数据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要的方式 “翻译” 出来,从而帮助最终用户理解和使用数据。
3、……
1.3、元数据相关数仓工具
1.3.1、数据抽取工具
1、把业务系统中的数据抽取、转换、集成到数据仓库中,比如:Ardent的DataStage、Pentaho的开源ETL产品Kettle、ETI的Extract等。
1.3.2、前端展现工具
1、通过把关系表映射成与业务相关的事实和维来支持多维业务视图,进而对数据仓库中的数据进行多维分析,比如:Cognos的PowerPlay、Business Objects的BO,以及国内厂商帆软的FineBI/FineReport等。它
1.3.3、建模工具
1、这些工具可以提供更高层的与特定业务相关的语义。如CA的ERwin、Sysbase的PowerDesigner以及Rational的Rose等。
1.3.4、元数据存储工具
1、元数据通常存储在专用的数据库中,该数据库就如同一个”黑盒子”,外部无法知道这些工具所用到和产生的元数据是如何存储的。 2、还有一类被称为元数据知识库(Metadata Repository)的工具,它们独立于其它工具,为元数据提供一个集中的存储空间。这些工具包括微软的Repository,Ardent的MetaStage和Sybase的WCC等。
1.3.5、元数据管理工具
1、一是像IBM、CA等公司都提供的专门工具。 2、二是像DAG的MetaCenter,开源产品Pentaho Metadata,它们不依托于某项BI产品,是一种第三方的元数据管理工具; 3、三是像普元、石竹这样的集成商也有自己的元数据管理工具:普元MetaCube、新炬网络元数据管理系统、石竹MetaOne等。
2、元数据管理
2.1、元数据管理方法
1、简单环境,按照通用的元数据管理标准建立一个集中式的元数据知识库 1.1、元数据源 —> 元数据采集(同步) —> 元数据存储 —> 元数据展现(分析) 2、复杂环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后,通过建立标准的元数据交换格式,实现元数据的集成管理。 2.1、比如:OMG的CWM标准
2.2、元数据管理功能
1、数据地图:数据地图展现是以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展现,并通过不同层次的图形展现粒度控制,满足开发、运维或者业务上不同应用场景的图形查询和辅助分析需要。 2、元数据分析 2.1、血缘/血统分析:是指从某一实体出发,往回追溯其处理过程,直到数据系统的数据源接口。 2.2、影响分析:是指从某一实体出发,寻找依赖该实体的处理过程实体或其他实体。 2.3、实体关联分析:是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,从而进一步了解该实体的重要程度。 2.4、实体差异分析:是对元数据的不同实体进行检查,用图形和表格的形式展现它们之间的差异,包括名字、属性及数据血缘和对系统其他部分影响的差异等。 2.5、指标一致性分析:是指用图形化的方式来分析比较两个指标的数据流图是否一致,从而了解指标计算过程是否一致。该功能是指标血缘分析的一种具体应用。