数据仓库有两部分职责:集中存储企业全量的历史数据、对外提供统一一致的数据服务。
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
即原始数据(各数据源),经过 ETL 集成进入数据仓库,然后从 ODS 开始逐层流转最终供给到数据应用,整个数据流动过程中,在一些关键节点数据会被存储下来落入数仓模型。
在数仓这个自运转的大生态系统中 ETL 扮演了原材料加工转化和能量传输两个重要角色。
概況:
- ETL:数据抽取过来后,经过加工处理然后输出, 像这样众多的流程以一种合理的方式连接起来(串行/并行)就是一个完整的 ETL 过程(实际上干的是数据集成、数据加工的事情) 。
- 目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL 是BI(商业智能)项目重要的一个环节。
而数仓模型 (对需求的支撑、对计算资源的消耗、必要字段的缺失、ETL 使用字段比如摄入时间的缺失、多天并行执行的可能性等等) 会带来很多后续的严重问题(系统健壮性问题、性能问题、数据质量问题等等)
为什么要数仓模型?
