数仓设计特点

数据仓库中的数据是从数据源抽取、转换而来,面向主题,支持决策的数据集合。
数据仓库的设计有以下几个特点:

  1. “数据驱动”的设计
  2. “决策驱动”的设计
  3. “需求模糊”的设计
  4. “螺旋周期”的设计

    “数据驱动”的设计

    数据仓库是在原有事务数据库基础上进行的,可以说是事务数据库中数据的另一种存在方式。因此,数据仓库的设计必须从事物处理环境出发,将其转换为数据仓库面向分析环境的数据,并使其提高决策支持效果。
    从面向事务处理环境,到面向分析环境的转变,就是”数据驱动”的设计方法。

在设计时,应以已有数据库中数据为基础,弄清楚数据源系统中有哪些数据、数据的作用、对应数据仓库的对应关系。

“决策驱动”的设计

数据仓库面向 决策分析需求出发设计,应按照决策分析主题对数据源中数据及关系进行考察,重新组织,从而形成数据仓库决策分析的主题数据。

“需求模糊”的设计

数据的分析处理需求是灵活多变的,没有固定的模式。因此,数据仓库的分析需求往往是模糊的或不明确的。

“螺旋周期”的设计

数据仓库系统的开发是一个动态反馈的启发式循环过程, 也被称为上升的周期性开发过程,简称”螺旋周期”。
数据仓库的数据内容、结构、粒度、分割及其他物理设计,需要根据用户反馈进行调整,在调整中,用户又会不断提出新的决策分析需求,这就必须增加新的决策主题,进而使数据仓库进入新一轮的设计周期。

数据仓库数据库设计

设计示意图
数仓设计概述 - 图1