1、数据质量维度-概述
1、数据质量维度:Data Quality Dimension。 2、一个数据质量维度可以定义为描绘该数据在某一方面的质量的属性,比如数据的完整性、一致性、有效性、准确性等。
2、维度指标(包括但不止以下方面)
1、准确性(Correctness): 1.1、指数据采集值或者观测值和真实值之间的接近程度,也叫做误差值,误差越大,准确度越低。 1.2、数据的准确性由数据的采集方法决定的。 1.3、常见准确性指标: — 缺失值占比、 — 错误值占比、 — 异常值占比、 — 抽样偏差:因统计抽样而带来的样本特征和总体特征之间的偏差。 — 数据噪声:数据流通过程中因数据转化而产生的信息损失,如关键信息加密、四舍五入等。
2、真实/正确性(Facticity): 2.1、取决于数据采集过程的可控程度,可控程度高,可追溯情况好,数据的真实性容易得到保障,而可控程度低或者无法追溯,数据造假后无法追溯,则真实性难以保证。 2.2、用来表述数据集是否能清晰的反应业务逻辑,字段和取值的具体意义是否明确。 — 数据存在数据字典 — 数据字典语义明确 — 字段取值是否和业务逻辑一致
3、完整性(Completeness): 3.1、指从数据采集到的程度来衡量的,是应采集和实际采集到数据之间的比例。 3.2、度量哪些数据丢失了或者哪些数据不可用。 3.3、常见指标: 3.3.1、数据库中完整性约束 3.3.2、数据集对具体业务对象覆盖程度 — 用户覆盖度 — 业务覆盖度 — 产品覆盖度
4、全面性(Comprehensive): 4.1、全面性指的是数据采集点的遗漏情况。而完整性衡量的是应采集和实际采集的差异。
5、时效性(Timeliness): 5.1、指数据能否在需要的时候得到保证。 5.2、与企业数据处理的速度和效率有直接的关系,为了提高数据的及时性,越来越多的公司采用管理信息系统,并在管理信息系统中附加各种自动数据处理功能,能够在数据上传系统之后自动完成绝大部分报表,从而保证数据处理的效率。
6、即时性(Immediacy): 6.1、指数据采集时间节点和数据传输的时间节点,一个数据在数据源头采集后立即存储,并立即加工呈现。
7、精确/精准性(Accuracy): 7.1、指对同一对象的观测数据在重复测量时所得到不同数据间的接近程度。 7.2、与我们数据采集的精度有关系。精度高,要求数据采集的粒度越细,误差的容忍程度越低。
8、关联性(Relevance): 8.1、指各个数据集之间的关联关系。 8.2、度量哪些关联的数据缺失或者未建立索引。 9、