(草稿)

质量评估准确

对数据质量的评估,有如下几个角度:

  • 完整性
    • 记录完整,无数据丢失、信息丢失。
  • 准确性
    • 记录准确,无错误记录、异常记录。
  • 及时性
    • 数据交付物应当在其需求的期限内产出,这需要基础数据系统在合理的时间范围内完成已自动化的作业。离线数据一般 T+1 完成,实时数据一般需要在 1 min 内完成。
  • 一致性
    • 保持企业数据的 single version of truth 单一可信来源。

质量管理

  • 源头监控
    • 从数据源导入数据到数据管道中时,即可监一些已知的潜在问题,从源头把控,预警更及时,影响面也小。
  • 工作流
    • 数据管道的工作流出现异常时,需要能及时中止计算,确保历史已完成的数据交付物不被污染。数据管道工作流需可重新执行。
  • 监控数据交付物
    • 每次产出数据交付物时,需要自动执行一系列的稽查作业,来规避历史已知问题和明显的错误。
  • 质量 issue 管理
    • 以工单方式管理数据质量问题,工单系统应当开放适当的权限给数据波及方。

常见实践

  • 字段级监控
    • 规则监控,空值、超出正常范围的数值等等。
  • 表级监控
    • 规则监控,数据行数、简单汇总值的上下限监控等。

数据治理管理工具

因为大多数监控都和工作流的执行紧密相关,所以数据质量的管理功能一般都和调度系统整合在一起。似乎没有什么优雅的解决方案。


参考材料