每天10min系列

  • [ ] 数仓为啥分层 数仓模型从0-1怎么设计

    image.png

    1. 数仓分层的优点。
    • 高效率——满足离线,实时数据展现功能。
    • 高质量——数据准确性。
    • 高扩展性

    image.png

  • [x] 每天10min——超全的大数据数仓&平台体系讲解 数据如何流转

    image.png image.png image.png image.png 实时数据和离线数据融合到hbase中

  • [x] 面试题:数仓规范设计

    image.pngimage.png image.png image.png image.png image.png 第3点

    • 分区表是否使用分区键过滤,是否有效裁剪。
    • 外连接的过滤条件是否正确。例如:左连接的where语句是否存在右表的过滤条件。
    • 大小表关联时,是否使用map join。
    • 是否存在笛卡尔积。
    • 使用动态分区时,是否检测分区键为空。
    • 数据质量监控规则是否配置。
    • 代码中是否有规避数据倾斜的控制(group by 等);where is null 语句是否有空值处理。

    流程规范图 image.png