什么是数据集市?
数据集市是以实现特定人员或部门提出的特定业务场景为目标进行设计的数据集合。
数据集市是数据仓库的一种简单形式,一个数据集市面向单一的主题域。
数据集市的建模方法
目前主流的标准建模方式有三类:
- 星型模型
- 雪花模型
- 星座模型
数据集市的建设原理
设计数据集市模型前必须清晰了解需求的内容与意图。数据集市主要用于部门级别的分析型应用,数据大都是经过了汇总和聚合操作,粒度级别较高。
数据集市一般采用维度模型设计方法,数据结构使用星型模式或雪花模式。设计维度模型先要确定维度表、事实表和数据粒度级别,下一步是使用主外键定义事实表和维度表之间的关系。
数据集市中的主键最好使用系统生成的自增的单列数字型代理键。
数据模型设计完成后,设计 ETL 步骤抽取操作型源系统的数据,经过数据清洗和转换,最终装载进数据集市中的维度表和事实表中。同时建议划分相应主题对模型进行分类存放,有利于模型的识别及扩展。
数据集市与数据仓库的区别
对比项 | 数据仓库 | 数据集市 |
---|---|---|
范围 | 企业级 | 部门级或业务线 |
主题 | 多个主题 | 单一主题 |
数据源 | 遗留系统、事务系统、外部数据的多个数据源 | 数据仓库或事务系统的少量数据源 |
数据粒度 | 较细的粒度 | 较粗的粒度 |
数据结构 | 通常是规范化结构(3NF) | 星型模型、雪花模型、或两者混合 |
历史数据 | 全部历史数据 | 部分历史数据 |
完成需要的时间 | 几个月到几年 | 几个月 |
附参考资料: