作者 l 李朋波 编辑 l 李朋波
本文目录CONTENTS

☞ 关数据质量管理流程
☞ 数据质量管理工具

**

0x01 数据质量管理流程
数据质量管理是通过划分数据资产等级和分析元数据的应用链路,对不同资产等级的数据采取相对应的质量管理方式。
数据仓库详细介绍(九.数据质量)流程与工具-升级中 - 图1

数据资产等级定义

包含两部分内容:

  • 数据资产等级的定义
  • 如何定义生产链路上的相关数据的资产等级

数据资产等级的定义

根据数据质量不满足完整性、准确性、一致性、及时性时,对业务的影响程度划分数据的资产等级。通常,划分为5个性质的等级:

  • 毁灭性质:数据一旦出错,将会引起重大资产损失,面临重大收益损失等。标记为A1。
  • 全局性质:数据直接或间接用于企业级业务、效果评估和重要决策等。标记为A2。
  • 局部性质:数据直接或间接用于某些业务线的运营、报告等,如果出现问题会给业务线造成一定的影响或造成工作效率降低。标记为A3。
  • 一般性质:数据主要用于日常数据分析,出现问题带来的影响极小。标记为A4。
  • 未知性质:无法明确数据的应用场景。标记为Ax。

这些性质的重要性依次降低,即重要程度为A1>A2>A3>A4>Ax。如果一份数据出现在多个应用场景汇总,则根据其最重要程度进行标记。

分析数据链路

定义数据资产等级后,您可以从数据流转链路开始进行数据资产等级打标,完成数据资产等级的确认,给不同的数据定义不同的重要程度。

从业务系统上产生数据,通过同步工具进入数据数仓系统。数据在数仓中进行清洗、加工、整合、算法、模型等一系列运算后,再通过同步工具输出到数据产品中进行消费。整个流程数据都存放在表中,流转链路大致如下图所示。
在数据流转链路上,您需要整理各个表对应的应用业务产品。通过给这些应用业务产品划分数据资产等级,结合数据的上下游血缘,将整个链路打上某一类资产等级的标签。

数据加工过程卡点校验

包含两部分内容:

  • 数据资产等级的定义
  • 如何定义生产链路上的相关数据的资产等级

数据风险点监控

哎,各种概念简称满天飞,也不知道全称是啥。这不,数据质量相关的就有两个:DQC、SLA。

DQC Data Quality Center/Check 数据质量中心,还是数据质量检查?好吧,我们暂时叫它数据质量监控,但上边提到的六大数据质量评估标准,完整性、一致性、时效性、有效性、可访问性,都几乎没法通过工具去处理。所以,DQC 做为数据质量工具,能做的只是数据准确性检查。

SLA(Service Level Agreement)服务等级协议,它描述是双方的一种约定,是一种服务可用性的指标。SLA 提供的可用性越高,那么一年内停机的时间越小。SLA 是保证服务的可用性的。好吧,它的原始含义好像是跟运维相关的。在数据质量管理中,SLA 指的应该是任务延迟和稳定性。

DQC 数据质量风险监控

通过配置 DQC 的数据质量校验规则,可以实现在数据处理过程中进行自动的数据质量监控。DQC 可以监控数据质量并报警,但它不对数据产出进行处理,需要报警接收人判断如何处理。

DQC 数据监控规则有强规则和弱规则:

  • 强规则:一旦触发报警就会阻断任务的执行(将任务置为失败状态,使下游任务不会被触发执行)。
  • 弱规则:只报警但不阻断任务的执行。

DQC 提供常用的规则模板,包括表行数较 N 天前波动率表空间大小较 N 天前波动率字段最大/最小/平均值相比 N 天前波动率字段空值/唯一个数等。

DQC 的检查通过运行 SQL 任务实现。该 SQL 任务嵌套在整体任务中,如果检查次数过多会影响整体的任务执行性能。因此,哪些数据需要配置 DQC 规则、应该配置什么规则,也需要根据数据资产等级来确定。例如 A1、A2 类数据监控率要达到 90% 以上,规则类型需要 3 种以上,而不重要的数据资产没有强制要求。

SLA 数据时效性监控

在确保数据准确性的前提下,您需要进一步让数据能够及时提供服务,否则数据的价值将大幅降低。确保数据及时性是保障数据质量的重要一环。为确保数据完整性,每天任务通常都是0点开始执行,计算前一天的数据。这些任务大多在深夜运行,要确保数据按时产出,需要考虑任务的执行优先级以及任务执行失败或时间过长时的报警问题。

0x02 数据质量管理工具

数据质量管理系统

数据质量校验工具