什么是数据仓库?
数据仓库(Data Warehouse)是由 比尔·恩门 在1991年提出的。数据仓库是一个过程,也是一个环境,而不是一个项目或者产品。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。其提供用于用于决策支持的当前和历史数据。
数据仓库也可以说是一种面向商务智能(BI)活动(尤其是分析)的数据管理系统,通常涉及大量的历史数据,适用于查询和分析。
数据仓库的特点?
数据仓库在高效分析大量不同的数据,提取数据价值并保留历史记录方面拥有独一无二的强大优势。
数据仓库具有以下特点:
- 面向主题
数据仓库可以高效分析关于特定主题或职能领域的数据。仓库中的数据是按照一定的主题域进行组织的。
- 集成
数据仓库可在不同来源的不同数据类型之间建立一致性。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
- 相对稳定
进入数据仓库后,数据将保持稳定,不会发生改变。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
- 反映历史变化
数据仓库分析着眼于反映历史变化。数据仓库中的数据通常包含历史信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
一个精心设计的数据仓库支持高速查询、高数据吞吐量,能够凭借出色的灵活性帮助用户细分数据或降低数据量,进而执行更加细致的数据检查,满足高层级和精细化数据管理等各种需求。同时,它还能为中间件 BI 环境(为最终用户提供报告、仪表盘和更多其他界面)提供一个坚实的功能性基础。
数据仓库的结构组成?
数据库
数据仓库的数据库是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。相对于操纵型数据库来说其突出的特点是对海量数据的支持和快 速的检索技术。
数据抽取工具
数据抽取工具把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽取工具的 关键,应能生成COBOL程序、MVS作业控制语言(JCL)、UNIX脚本、和SQL语句等,以访问不同的数据。数据转换都包括,删除对决策应用没有意义的数据段;转换 到统一的数据名称和定义;计算统计和衍生数据;给缺值数据赋给缺省值;把不同的数据定义方式统一。
- 元数据
元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。
技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定 义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。
商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询、报表; 元数据为访问数据仓库提供了一个信息目录(information directory),这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这 些数据。这个目录是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。
- 访问工具
为用户访问数据仓库提供手段。有数据查询和报表工具;应用开发工具;经理信息系统(EIS)工具;联机分析处理(OLAP)工具;数据挖掘工具。
- 数据集市(Data Marts)
为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subjectarea)。在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注意的就是再实施不同的数据集市时,同一含义的字段定义一定要相容,这样再以后实施数据仓库时才不会造成大麻烦。
附参考资料: