数据质量评估

在数据质量中心,提供数据质量大屏以及质量评估功能,以便对当前整个项目内的数据质量情况有所了解和评估。当前数据质量中心支持Hive、MySQL、Vertica三种数据源类型的质量监控。

质量大屏


在数据质量大屏功能模块分为表质量平均分、监控配置情况和调度监控执行情况,分别展示当前项目下表质量平均分、线上调度和配置的规则总量、表覆盖量和任务调度的监控量等内容。

表质量平均分
当前表质量平均分支持展示Hive、MySQL、Vertica三种类型表的近7天、近30天的统计。其中,当数据源类型为Hive时,支持根据不同的表分层统计表质量平均分。
image.png
监控配置情况
监控配置情况支持根据数据源类型、监控负责人、表负责人、表分层对监控总量、线上调度监控、配置规则总量/强规则量/弱规则量、表覆盖量进行展示。
image.png

参数信息 说明
线上调度监控 指被配置到线上任务(已调度)的稽核监控的数量。
配置规则总量/强规则量/弱规则量 指被配置到线上调度任务的稽核监控中配置的规则(已启用)数量。
表覆盖量 指被配置到线上调度任务的稽核监控覆盖的表数量。


调度监控执行情况
通过表负责人、表分层、时间筛选或者监控负责人等筛选条件,快速定位符合条件的线上调度监控、异常监控量等内容。
image.png

参数信息 说明
今日已调度监控量 指今天稽核监控已被线上任务调度的数量(监控实例的开始时间为今日)。
异常监控量 指运行结果为异常的稽核监控的数量(监控实例的开始时间为今天),按每个监控的最近一个实例来统计,不计重跑、补数据和监控任务试跑。
失败监控量 指稽核监控运行失败的监控数量(监控实例的开始时间为今天),按每个监控的最近一个实例来统计,不计重跑、补数据和监控任务试跑。
异常规则总量/强规则量/弱规则量 指运行结果为异常的稽核监控中的异常规则数量,按每个监控的最近一个实例来统计,不计重跑、补数据和监控任务试跑。

质量评估

质量排行榜

在质量排行榜页签下,展示质量分排行、表质量排行和监控表与规则排行,可以根据表所属数据库查看数据库下的表质量概况。
image.png
在表质量评分页签下,会展示当前项目下,处于线上调度状态的表的质量平均分趋势,可以根据表负责人、所属数据库、表名称和时间筛选符合条件的表,查看质量平均分趋势。
image.png