离线数据仓库 - 维度表处理 - 《大数据》

问题：用上面的sql，一天的数据不能重复跑，会重复增加【union all前部分】的数据
解决方案：【union all后部分】加筛选
- from (select * from dwd_dim_user_info_his as table_dwd where start_date < 20190102
问题：重跑历史的某一天
解决方案：【union all后部分】加筛选 + 循环跑到最新一天
- from (select * from dwd_dim_user_info_his as table_dwd where start_date < 历史的数据日期
  使用难度大的问题
  分析师不会使用拉链表，有两种解决方案
每天全量保存一份维度表作为一个分区。 dwd join 当天的分区即可
在拉链表之上做一层视图，如下
- select * from A where dt = 20201010 等价于
- select * from A_origin where start_dt <= 20201010 and end_dt > 20201010

减少维度表、事实表增加维度字段：
举个栗子：
1、SKU表、SPU表、商品一级分类表、商品二级分类表、商品三级分类表。
2、这5张表可以整合成一张最细粒度SKU 的维度表

减少join
举栗子：
1、SKU（最小维度）、SPU、商品一级分类、商品二级分类、商品三级分类。
2、事实表里不仅仅存储SKU，还把后续的4个维度也存储上。

在Kimball的维度建模中，通常按照星形模型的方式来设计，对于维度的获取采用的是通过事实表的外键关联专门的维表的方式，谨慎使用退化维度。
而在大数据领域的事实表设计中，则大量采用退化维度的方式，在事实表中存储各种类型的常用维度信息。这样设计的目的主要是为了减少下游用户使用时关联多个表的操作。通过冗余存储来减少计算开销。

事实表里一个gender字段本来存储的 ‘男’ ‘女’。
然后事实表改为存储1、2，并在码表里增加解释：1代替男 2代替女。

维度表处理