数据质量的准则
- 完整性
主要包括实体缺失、属性缺失、记录缺失和字段值缺失四方面。 - 准确性&合理性
数据中记录的信息和数据是否准确、是否存在异常或者错误的信息。主要包括格式、类型、值域和业务规则的合理有效。 - 一致性
系统之间的数据差异和相互矛盾的一致性,业务指标统一定义,数据逻辑加工结果一致性。 - 及时性
数据仓库ETL、应用展现的及时和快速性,Jobs运行耗时、运行质量、依赖运行及时性。 - 唯一性
为什么要进行数据质量评估?
- 不是所有的数据都有价值。
-
何时需要进行数据质量评估
一般来说,有几种情况我们需要进行比较完整的数据质量分析:
产生了全新的业务需求,需要对现有的数据集评估,看看是否足以支持新的业务需求。
- 当我们的数据采集、清理、转化、存储等任一个环节产生了重大的技术变更(比如重构、使用新的工具)的时候
当我们从一个新的数据来源获取了全新的数据,并期望将它应用在一个具体的业务中的时候。
如何保证从数据仓库取出的数据质量?
一个数据分析任务的时候,首先要做好数据获取的准备工作,分成三方面:
了解数据仓库的表;
- 整理表和表之间的逻辑关系;
- 理解用户数据在数据仓库的落库逻辑;
注意点
质量评估紧紧围绕业务需求展开,脱离业务需求谈数据质量是没有意义的。
不是每个质量维度都需要考察,根据需要酌情选择。
不是对所有的数据集都需要进行质量分析,如果没有新的业务需求,且现有数据的全流程已经经过长时间验证,可不必进行质量分析。
数据质量评估往往不是鼓励的一个环节,通常和EDA(探索性数据分析)过程重叠。但两者的关注重点不一样,EDA关注的是数据背后隐藏的规律或模式;质量评估关注的重点是观察数据集和业务需求之间的关联程度。
本文列出的数据质量维度并不能包含所有方面,读者请根据自己的实际需要增删。
数据质量评估可能不单单是数据分析师自己的工作,通常要和数据开发、产品开发、测试等部门合作完成。
附参考资料: