1.1实时数仓产生的背景
数据仓库:
- 面向主题-Subject Oriented
- 集成-Integrated
- 相对稳定-Non-Volatile
- 反应历史变化的数据的集合
- 用于支持管理决策
1.2 实时数仓架构-lambda架构
Lambda架构存在明显的问题:
同时开发维护离线是实时数仓,在代码修改后,开发维护的成本高,需要保证数据的一直性。1.2.2 实时数仓架构-Kappa
架构存在的问题:
变更,业务逻辑代码需要进行迭代。之前产出的数据如果口径变更了,需要重算或者是重刷历史数据。
解决思路:
准备一个可以存历时数据的消息队列(kafka),并且支持历时节点是可以重新消费的。当有重刷,重算的需求时,新起一个任务可以去消费某个历时节点,当任务跑到现有任务进度一致时,就可以把现在任务的下游切换到新的任务上,历史表删掉,采用新的任务去计算。1.2.3实时数仓架构-实时OLAP变体