背景

为什么要做数据治理？

广义：数据治理是最近谈的一个火热的话题。不管国家层面，还是企业层面现在对这个问题是越来越重视。数据治理要解决数据质量，数据管理，数据资产，数据安全等等，而数据治理的关键就在于元数据管理，我们要知道数据的来龙去脉，才能对数据进行全方位的管理，监控，洞察。
狭义：
1. 业务繁多，数据繁多，业务数据不断迭代。人员流动，文档不全，逻辑不清楚，对于数据很难直观理解，后期很难维护。
2. 在大数据研发中，原始数据就有着非常多的数据库，数据表。而经过数据的聚合以后，又会有很多新的维度表。
3. 人工智能团队需要正确的数据用于分析。虽然构建了高度可扩展的数据存储，实时计算等等能力，但是团队仍然在浪费时间寻找合适的数据集来进行分析。
  元数据
  元数据(meta data)——“data about data” 关于数据的数据，是指从信息资源中抽取出来的用于说明其特征、内容的结构化的数据，用于组织、描述、检索、保存、管理信息和知识资源。例如：存储在数据库中用于规定描述表信息，字段的长度、类型，索引信息等。
  元数据管理示例
  三十年前，数据资产可能是 Oracle 数据库中的一张表。然而，在现代企业中，我们拥有一系列令人眼花缭乱的不同类型的数据资产。可能是关系数据库或 NoSQL 存储中的表、实时流数据、 AI 系统中的功能、指标平台中的指标，数据可视化工具中的仪表板。现代元数据管理应包含所有这些类型的数据资产，并使数据工作者能够更高效地使用这些资产完成工作。
  一些常见的用例和它们需要的元数据类型的示例：
搜索和发现：数据表、字段、标签、使用信息
访问控制：访问控制组、用户、策略
数据血缘：管道执行、查询
合规性：数据隐私/合规性注释类型的分类
数据管理：数据源配置、摄取配置、保留配置、数据清除、导出策略
AI可解释性、可重现性：特征定义、模型定义、训练运行执行、问题陈述
数据操作：管道执行、处理的数据分区、数据统计
数据质量：数据质量规则定义、规则执行结果、数据统计
DataHub简介
市面上常见的元数据管理系统有如下几个：