1、数据质量评估-概述
1、依据一个相对完整的评估框架,按照一套确定的步骤和流程,从整体上考量某个或某些数据集对特定业务应用的满足程度,能很好满足业务应用的数据集我们称其质量较好,反之则质量较差。
2、数据质量评估-背景
1、并非所有的数据都是有价值的,只有和实际业务有较强相关性的数据集才是有价值的。 2、数据质量额好坏直接会影响到实际的业务结构。
3、数据质量评估-方向
1、确定数据质量评估的目标:定位当前数据处于数据生命周期管理中的哪个阶段。
2、基于生态或者业完整的业务全景来构建数据全景。
3、选取数据质量维度: 3.1、主要是这六个方面:完整性、一致性、合法性、唯一性、及时性、准确性、
4、制定数据质量评估模型 4.1、对数据评估进行建模
5、确定数据质量度量标准和度量方法 5.1、针对数据质量众多维度中,某些不容易度量的维度,需要在度量之前定义出度量的标准是什么,基于这个标准,再确定度量的方法。 5.1.1、比如:一致性维度标准、
6、数据质量评估实施并撰写评估报告 6.1、在实施的环节需要考虑的是数据采样策略:全量采样进行评估、部分采样进行评估、
4、数据质量评估-方法
1、定性法:基于一定的评价准则与要求,根据评价的目的和用户对象的需求,从定性的角度来对基础科学数据资源进行描述与评价。一般应由领域专家或专业人员完成。 1.1、比如:第三方评测法、用户反馈法、专家评议法等。
2、定量法:指按照数量分析方法,从客观量化角度对数据资源进行的优选与评价。 2.1、比如:统计分析法、内容评分法等。
3、综合评价法:从两个角度(定性法+定量法)对数据资源质量进行评价 3.1、比如:层次分析法、缺陷扣分法等。
5、数据质量评估-一般流程
1、数据质量需求分析、 2、确定评价对象及范围、 3、选举数据质量维度及评价指标、 4、确定质量测度及其评价方法、 5、采用方法进行评价、 6、进行结果分析并评级、 7、质量结果及报告、
6、数据质量评估-触发时机
1、全新的业务需求:产生了全新的业务需求,我们需要对现有的数据集进行一次质量评估,看看是否足以支持新的业务需求。 2、进行重大技术变更:当我们的数据采集、清理、转化、存储等任一个环节产生了重大的技术变更(比如重构、使用新的工具)的时候,我们要对变更后产生的新的数据集进行质量评估。 3、业务投入新的数据源:当我们从一个新的数据来源获取了全新的数据,并期望将它应用在一个具体的业务中的时候。