每天10min系列
[ ] 数仓为啥分层 数仓模型从0-1怎么设计
- 数仓分层的优点。
- 高效率——满足离线,实时数据展现功能。
- 高质量——数据准确性。
- 高扩展性
[x] 每天10min——超全的大数据数仓&平台体系讲解 数据如何流转
实时数据和离线数据融合到hbase中
[x] 面试题:数仓规范设计
第3点
- 分区表是否使用分区键过滤,是否有效裁剪。
- 外连接的过滤条件是否正确。例如:左连接的where语句是否存在右表的过滤条件。
- 大小表关联时,是否使用map join。
- 是否存在笛卡尔积。
- 使用动态分区时,是否检测分区键为空。
- 数据质量监控规则是否配置。
- 代码中是否有规避数据倾斜的控制(group by 等);where is null 语句是否有空值处理。
流程规范图