定性的标准可以有,定量的标准几乎不可能。安灯数仓事件单宽表350个字段,数据集加了250个字段,一共600多字段,并不是完全严谨按定量标准执行的,前后业务的改变也会导致有些字段变得不那么通用。中国移动的工单宽表近1000个字段,我认为也不可能执行定量标准。
定性标准:
① 主题域通用且不变的字段放在数仓宽表层
② 主题域通用且常改的字段放在集市层
③ 主题域不通用字段放在报表层
④ 聚合字段一般放在报表层,特殊需要轻度聚合的字段放在数仓dws或ads层处理
⑤ 跨域分析通常要建主题表
所有这些都是定性标准,具体怎么执行,要看具体业务,评估投入产出比。
维度建模和业务都得懂才能卷入到数仓表的设计中去;
数仓宽表一旦上线以后,就会关联业务表,且血缘报表越来越多,原有的字段几乎不可减少,对增加字段要持谨慎态度;
BI处理大数据的能力会随表宽度下降,字段越多,成本越高,且成本类似指数级增长,每多N个字段,数据同步效率较低50%,只能通过加机器和lic解决;
BI能力下放到业务,通常只给业务先开放数据集读权限,所有计算只在报表侧完成,等熟悉以后才会开放数据集写权限,因为一般核心数据集会对应非常多的业务表,修改需要特别谨慎。