前言

0.1、《DAMA数据管理知识体系指南》-数据质量管理示意图

zl1.png

1、数据质量管理的定义

1、对支持业务需求的数据进行全面的质量管理。 2、依据数据在数据生命周期的各个阶段(计划|获取|存储|共享|维护|清楚等)的特性,建立数据质量控制机制,及时发现数据质量问题,不断改善数据的使用质量,提示数据的可用性,包括:建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。 — 数据质量管理不是一时的数据治理手段,而是循环的管理过程。 — 数据质量管理不仅包含了对数据质量的改善,同时还包含了对组织的改善。 3、数据质量管理是数据治理的核心,数据治理工作最终是为了保证在一个组织内生产、供应和使用高质量的数据。 3.1、数据质量管理是数仓的中一个重要模块,主分为数据的健康标准量化、监控和保障。

2、数据质量管理的范畴

1、制定衡量指标、分析工具、报告机制等。 2、发现、评估和报告数据在使用中的质量问题。 3、建立数据质量工作流程:数据从产生、获取、存储、共享、维护、应用等各个阶段可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使数据质量获得进一步提高。

3、数据质量管理的目的

1、解决企业内部数据使用过程中遇到的数据质量问题,提升数据的完整性、准确性和真实性,为企业的日常经营、精准营销、管理决策、风险管控等提供坚实、可靠的数据基础。

3.1、在数据生命周期关注数据质量

3.1.1、数据生命周期

1、数据的生命周期从数据规划开始,中间是一个包括设计、创建、处理、部署、应用、监控、存档、销毁这几个阶段并不断循环的过程。 1.1、数据产生:控制外部数据源,保证数据的输入 1.2、数据接入:为了保持多点多源录入一致,建立统一数据体系:指标/度量、口径/维度 — 待集成数据源(多源数据、异构数据等)、采集数据(交易数据、日志数据等) 1.3、数据存储:为了保持数据结构的统一,建立标准的数据结构:字段类型、格式 1.4、数据分析: 1.5、数据处理:为了保持数据处理一致,统一数据稽核、数据清洗规则 — 数据稽核是一个从数据采集,预处理,比对,分析,预警,通知,问题修复的完整数据质量管控链条。 — 数据清洗是发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。 1.6、数据输出:对数据处理后的结果进行保存时,按照数据存储的要求,进行标准化的统一管理。 1.7、数据展现:持续监测分析数据,设立监测规则不断发现问题,通过解决问题不断改进规则。

数据生命周期.xmind

3.1.2、数据全周期管理-示意图

1、在数据规划中:不断完善企业数据模型的规划,把数据质量管理融入到企业战略中,建立数据治理体系,并融入企业文化中。 2、在数据设计中:推动数据标准化制定和贯彻执行,根据数据标准化要求统一建模管理,统一数据分类、数据编码、数据存储结构,为数据的集成、交换、共享、应用奠定基础。 3、在数据创建中:利用数据模型保证数据结构完整、一致,执行数据标准、规范数据维护过程,加入数据质量检查,从源头系统保证数据的正确性、完整性、唯一性。 4、在数据应用中:利用元数据监控数据使用;利用数据标准保证数据正确;利用数据质量检查加工正确。元数据提供各系统统一的数据模型进行使用,监控数据的来源去向,提供全息的数据地图支持;企业从技术、管理、业务三个方面进行规范,严格执行数据标准,保证数据的规范化输入,标准化。 4.1、元数据(Metadata)管理 4.1.1、元数据:是对潜在信息的信息,是关于数据的更高层次抽象,是对数据的描述。迅速有效地对数据去粗取精的关键。

image.png

4、数据质量存在的问题

4.1、什么是数据质量?

4.2、数据质量问题

1、数据完整性、 1.1、记录完整性:表记录、元素完整性:比如:表字段 1.1.1、信息丢失,比如:唯一性约束不完整、参照不完整;数据条目不完整、数据记录丢失或不可用等。 2、数据唯一性、 2.1、比如:重复数据、冗余数据等 3、数据有效性、 3.1、无效数据,比如:数据长度不满足、精度不满足、数据范围越界、数据逻辑错误等 4、数据及时性、 4.1、数据处理速度及效率有直接的关系,比如:数据延误加载等 5、数据关联性、 5.1、存在数据关联的数据关系缺失或错误,会直接影响数据分析的结果,比如:主外键关系、索引关系 6、数据准确性、 6.1、数据可靠:内容正确、数据格式合法性、数据唯一(数据重复,冗余数据)、脏数据等 7、数据一致性 7.1、相同数据一致性,比如:相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。 7.2、关联数据一致性 7.2.1、多数据源的数据模型不一致: — 命名不一致、数据结构不一致、约束规则不一致…… 7.2.2、多数据源的数据实体不一致: — 数据编码不一致、数据含义不一致、实体生命周期不一致……

5、数据质量管理的价值

1、建设一个完整的数据质量管理平台,对数据进行检核与统计,从制度、标准、监控、流程几个方面提升数据信息的管理能力解决项目面临的数据标准问题、数据质量问题,为数据治理提供准确的数据信息。完成从发现数据问题到最后解决数据问题,不断提高数据质量,形成数据产生、数据交换、到数据应用过程中数据质量的统一管理与控制。

5.1、数据质量管理的价值-示意图

image.png

6、数据质量管理的流程

image.png

7、数据质量管理工具

7.1、通用工具能力架构-示意图

运行监控模块:任务过程管理工具 API模块:与其他模块的接口

数据质量管理(DQM) - 图5

8、数据质量管理建设方案

1、设立数据质量负责人或部门,负责数据监控,问题落地解决等 2、建立完整的保障机制:按照事前,事中,事后三个方面来设立规范。每个方面都要有相应的保障机制,和处理办法。 3、制定抓手:通过设定一系列的规则之后,制定一个标准来衡量数据质量建设效果 3.1、比如:数据质量监控(DQC: Data Quality Control)

8.1、建立完整的保障机制

数据质量管理(DQM) - 图6

1、事前管理-举例 1.1、建立数据治理领导小组,对数据质量进行监督。 1.2、制定数据标准管理体系,各业务系统需要根据制定的标准,在业务系统建设时进行准确的落标动作。 1.3、制定严格明确的规章制度,比如:数据库等系统运维流程(作业上线/下线流程、数据变更、数据备份(归档)/恢复、数据脱敏/加密、数据访问安全等)。 1.4、制定质量监测模型:业务数据开发落地的逻辑准确性(多轮测试、试运行等)。 1.5、制定质量监测规则:保障运行脚本(SQL)的健壮性。保障数据库、表及字段等的合理性创建和准确性设计。 — 质量评价方法规则标准:规范检查、重复数据检查、记录缺失检查、引用完整性检查、结果集比对、sql检查、离群值检查、平衡检查、波动检查、及时性检查、业务逻辑检查、空值检查、值域检查、

2、事中管理-举例 2.1、监控原始数据质量:数据采集工作从数据源头获取最原始的数据,在数据采集过程中将数据分级别入库,并将数据情况反馈给源头, 2.2、监控数据中心质量:对存入数仓中的数据,进行数据监测。 2.2.1、使用简单的空值检查、规范性检查、值域检查、逻辑检查、一致性检查、等等规则就可以检查出来; 2.2.2、也可能需要诸如多源比较、数据佐证、数据探索、波动检查、离群检查等等方法才可以检查出来。 2.3、反馈数据质量问题:数据质量监控过程中,会发现问题反馈给相应部门处理 2.3.1、一类是源头的数据质量问题; 2.3.2、一类是数据中心的数据质量问题,数据质量团队需要将这些问题及时反馈给源头部门和数据仓库建设团队。 2.4、建立数据质量考核: 2.4.1、质量绩效评估、 2.4.2、质量公告:用于管理人员发布质量标准和管理制度 2.4.3、质量论坛功能:用户问题讨论、利于知识库构建。 2.4.4、知识库积累:基于标准的工作流程,当用户处理完问题后可添加问题的处理结果和经验,并存储到质量知识库中 2.4.5、质量报告:将数据质量问题进行周期性说明。

3、事后管理-举例 2.1、通过数据质量评估标准,对目标数据进行质量问题发现,然后进行全链路分析(血缘分析、影响分析),找到问题出现的环节及具体的原因。 2.2、引入了专业的数据治理系统(工具),则可以按如下图所示流程推进,主要流程包括质量问题定义、检核监控、发现分析、跟踪反馈及知识库沉淀等。 2.2.1、完善质量监测规则、完善质量监测模型、完善质量监测标准、完善质量监测制度、

8.1.1、事前管理流程-示例

image.png

8.1.2、事后管理流程-示例

image.png

9、数据治理的具体产出

image.png