一、研究背景

1.1 理论部分

DGI 数据治理框架模型(国际数据治理研究所,基于组织、规则和过程)
成熟度模型(IBM数据治理委员会)
云数据治理成熟度模型(Al-Ruithe和Benkhelifa)

1.2 实践部分

不同模型的实践探索

商业盈利角度:Ng、Lo和Choy
高校实际运营角度:Ogier、Hall和Bailey等人运用英国格拉斯哥大学人文高级技术与信息研究所(HATII)开发的数据资产框架(DAF)评估图书馆的电子数据资源。
开源的数据治理产品:
Hortonworks和Hadoop发行版HDP中,数据治理包括Falcon和Atlas这两个组件。
Atlas主要负责元数据的管理,它是一套核心基础治理服务的集合,有很好的伸缩性和扩展性,能够满足企业对Hadoop生态的多样性要求。
Falcon主要负责生命周期的管理,通过webUI可以很容易配置这些预定义的策略。

1.3 数据治理特点

  1. 围绕数据标准、元数据、数据质量等问题设计实现。
  2. 应用于结构化数据的治理场景。
  3. 不同系统对数据的处理标准定义不同。

    二、相关技术

    2.1 数据治理的框架和模型

    比较有代表性:数据治理决策域模型(Khatri和Brown)
    提出了五个相互关联的决策领域:
    数据标准、数据质量、元数据、数据访问和数据生命周期
    大数据治理统一参考模型(IBM):
    一方面,从元数据出发指定管理策略并确立体系结构。
    另一方面,从业务方面进行考虑定义数据治理具体的实施路线。

    2.2 Apache Hadoop(“分而治之,化繁为简”)

    支持数据密集型的分布式应用框架,是支持在大规模硬件集群的基础上运行的开源软件框架。
    本质上来说,Hadoop不是单一的组件和系统,而是由不同功能组件和子项目共同构建形成的平台级框架。
    HDFS:分布式文件系统,完成对文本类数据的分布式存储
    Hive:采用与传统数据库类似的SQL语句,帮助用户更好地操作分布式集群处理任务。
    HBase:提供了列式存储方式,使得大规模查询的速度得到提升!
    Sqoop:实现传统数据库和Hadoop生态中各类存储工具之间的数据传输。
    MapReduce、Tez、Pig、Stom等:满足不同场景的计算需求
    Zookeeer、Ambari、Flume等:实现对集群的系统资源的管理和任务的分配。

    2.3 Atlas:元数据管理(数据治理的核心环节)

    2.3.1 概念

    元数据实现了对数据的描述和种类区分的格式化定义。
    本质是描述数据的数据(Data About Data),是从信息资源中抽取出来用于描述其特征与内容的数据。
    元数据管理的实际应用价值:

    1. 通过元数据变更信息查找系统问题。
    2. 通过元数据信息查看数据流向和关联关系。

      2.3.2 现有元数据管理工具调研

      商业版本:
      国内:普元(Premiton)MetaCube、石竹软件的MetaOne
      国外:informatica PowerCenter附带的metadata management service、Informaticaenterprise data info、 Ascential datastage附带的Metastage

      2.3.3 开源元数据管理工具——Apache Atlas

      Atlas是Hadoop大数据处理体系中一款可伸缩和可扩展的元数据管理工具与大数据治理服务,通过该组件的使用,可以形成对其它大数据系统组件元数据信息的统一管理,改变之前标准各异、各自为战的管理方式。
      image.png

基本功能:
1、元数据的采集
2、元数据的存储和实现

2.4 多维建模方案的研究

2.4.1 多维建模与数据处理之间的关系

数据治理的意义

  1. 为大数据处理环节提供高质量、高可靠数据
  2. 帮助用户快速了解数据真实含义和情况
  3. 辅助后续的大数据分析过程能够快速得到结果

多维建模的用途:将高质量数据构建多维关系模型,以另一种方式去辅助后续的探索式分析和处理环节。

2.4.2 维度建模法(Kimball)

即按照事实表、维度表构建数据仓库或数据集市。
维度表和维度的选取!最重要!
**