1、数据定义

1、数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。 1.1、数据可以是连续的值,比如声音、图像,称为模拟数据或者计量型数据。 1.2、也可以是离散的,如符号、文字,称为数字数据或计数型数据。在计算机系统中,数据以二进制信息单元0,1的形式表示。 2、数据是企业最重要的资源之一,是组织的核心。它是组织日常业务顺利进行和实施新战略的基石。

1.1、从数据不同角度分类

数据分类.xmind

1.2、从数据价值角度分类

1、数据资源:数据是记录和反应现实世界的一种资源。 2、数据资产:数据是个人或企业资产的重要组成部分,是创造财富的基础。 3、数据资本:数据与价值相结合,通过交易等各种流动方式,最终变成了资本。

2、数据质量定义

1、Data Quality, 数据质量既指与数据有关的特征,也指用于衡量或改进数据质量的过程。 1.1、从用户层级定义数据质量:满足特定用户预期需要的程度,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。 1.2、从数据本身定义数据质量:从数据质量的指示器和参数指标等方面来衡量。 1.3、从数据约束关系定义数据质量:从数据的原子性、数据的关联性及对数据的约束规则来度量数据质量。 1.4、从数据过程定义数据质量:从数据能被正确使用、存储、传输等方面定义质量。

3、数据质量在数据治理中至关重要,数据质量不好,对决策、运营、算法效果等造成非常严重的影响。 3.1、数据的质量直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的质量。

3、数据管理-概述

4、数据质量在数据流转中的作用

4.1、数据流转-概述

1、数据流转一般分为四个步骤: 1.1、数据产生
1.2、数据存储 1.3、数据加工 1.4、数据使用

4.2、数据质量在数据流转中的作用

1、控制输入 ==> 数据产生 1.1、尽可能的使用非开放式的输入手段,如下拉菜单、单复选框、时间控件、标签(支持自定义学习型)等。必须开放的输入部分,进行必要的校验。

2、数据统一 ==> 数据存储 2.1、在数据结构设计时,就应该按照标准对相同含义的字段统一命名、格式、精度等,排除数据的歧义。

3、数据清洗 ==> 数据加工 3.1、数据加工阶段的目的非常明确,但数据问题繁多,不同的问题需要使用不同的手段处理。 3.2、数据挖掘中常见数据清洗方法:https://www.yuque.com/moercheng/ip9bg3/nv7xla

4、数据选择 ==> 数据使用 4.1、数据的使用,涉及数据质量的管理。

5、影响数据质量的因素来源

5.1、因素来源-概述

1、信息因素 1.1、元数据描述及理解错误、数据度量的各种性质(如:数据源规格不统一)得不到保证和变化频度不恰当等。 1.1.1、业务理解不到位、业务流程变更、数据输入不规范、业务系统应用参差不齐、

2、技术因素 2.1、指由于具体数据处理的各技术环节的异常造成的数据质量问题。 2.2、数据质量问题的产生环节主要包括数据创建、数据获取、数据传输、数据装载、数据使用、数据维护等方面的内容。

3、流程因素 3.1、指由于系统作业流程和人工操作流程设置不当造成的数据质量问题。 3.2、主要来源于系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节。

4、管理因素 4.1、由于人员素质及管理机制方面的原因造成的数据质量问题。 4.1.1、如:人员培训、人员管理、培训或者奖惩措施不当导致的管理缺失或者管理缺陷。

5.2、数据质量-一般问题

5.2.1、数据质量维度标准-回顾

数据质量维度标准:https://www.yuque.com/moercheng/ip9bg3/ptpfp5

5.2.2、数据质量一般问题-概述

1、数据一致性 1.1、多数据源的数据模型不一致: 1.1.1、命名不一致、数据结构不一致、约束规则不一致…… 1.2、多数据源的数据实体不一致: 1.2.1、数据编码不一致、数据含义不一致、实体生命周期不一致…… 1.3、相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。

2、数据完整性、 2.1、唯一性约束不完整、参照不完整;数据条目不完整、数据记录丢失或不可用。

3、数据准确性、 3.1、用于分析和识别无效或者不准确的数据,不可靠的数据可能会导致严重的问题。

4、数据唯一性 4.1、用于识别和度量重复数据、冗余数据,重复数据是导致业务无法协同、流程无法追溯的重要因素。

5、数据及时性 5.1、数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。

6、数据关联性 6.1、数据关联性问题是指存在数据关联的数据关系缺失或错误,会直接影响数据分析的结果。 6.1.1、主外键关系、索引关系……

5.3、解决方案-概述

1、事前管理-举例 1.1、建立数据治理领导小组,对数据质量进行监督。 1.2、制定数据标准管理体系,各业务系统需要根据制定的标准,在业务系统建设时进行准确的落标动作。 1.3、制定严格明确的规章制度,比如:数据库等系统运维流程(作业上线/下线流程、数据变更、数据备份(归档)/恢复、数据脱敏/加密、数据访问安全等)。 1.4、制定质量监测模型:业务数据开发落地的逻辑准确性(多轮测试、试运行等)。 1.5、制定质量监测规则:保障运行脚本(SQL)的健壮性。保障数据库、表及字段等的合理性创建和准确性设计。

2、事中管理-举例 2.1、监控原始数据质量:数据采集工作从数据源头获取最原始的数据,在数据采集过程中将数据分级别入库,并将数据情况反馈给源头, 2.2、监控数据中心质量:对存入数据仓库中的数据,进行数据监测。 2.2.1、使用简单的空值检查、规范性检查、值域检查、逻辑检查、一致性检查、等等规则就可以检查出来; 2.2.2、也可能需要诸如多源比较、数据佐证、数据探索、波动检查、离群检查等等方法才可以检查出来。 2.3、反馈数据质量问题:数据质量监控过程中,会发现问题反馈给相应部门处理 2.3.1、一类是源头的数据质量问题; 2.3.2、一类是数据中心的数据质量问题,数据质量团队需要将这些问题及时反馈给源头部门和数据仓库建设团队。 2.4、建立数据质量考核:

3、事后管理-举例 2.1、通过数据质量评估标准,对目标数据进行质量问题发现,然后进行全链路分析(血缘分析、影响分析),找到问题出现的环节及具体的原因。 2.2、引入了专业的数据治理系统(工具),则可以按如下图所示流程推进,主要流程包括质量问题定义、检核监控、发现分析、跟踪反馈及知识库沉淀等。 2.2.1、完善质量监测规则、完善质量监测模型、完善质量监测标准、完善质量监测制度、

6、数据质量工具

数据质量工具可以按活动分成4类:分析、清洗、改善和监控。所用的主要工具包括:

6.1、数据剖析工具

1、数据剖析:对数据集进行统计分析和数据质量评估,识别数据集内和集之间的值所存在的关系。 2、数据剖析工具 2.1、可以提供不同值的分布情况,洞察各列的类型和使用情况。 2.1.1、得出每列值的关键特征。 2.1.2、跨列分析可看出内部值的关联性,识别实体间外键关系的重合值,识别和评估数据的异常。

6.2、数据解析工具

1、数据解析工具可以帮助数据分析师定义符合规则的集合,用来区分有效和无效的数据值。 1.1、通过解析有效模式,提取并重新排列独立组件,形成标准形式。识别出无效模式时,会尝试将无效值转成一个符合要求的值。

6.3、数据转换工具

1、数据转换是建立在标准化技术上,基于规则的转换将数据值从原来的格式和模式映射为目标模式。模式解析组件再进行重排,校正或基于业务规则进行相应更改。

6.4、身份识别和匹配

1、在身份识别过程中使用记录关联与匹配方法,运用冗余分析与消除所使用的的相似度评估方法、合并/清除、存储、数据改善、清洗等,实施客户数据整合或主数据管理等战略性数据管理举措。

6.5、数据改善工具

1、通过积累基本实体集的各种附加信息,并合并所有相关信息来提供集中的数据视图来实现。

6.6、数据报告

1、建立良好的报告制度来检查和监控数据满足数据质量期望,为用户提供可视化的展示方式,包括标准报表、记分卡、仪表盘等,同时系统还应提供任何数据质量工具均应具备的即席查询功能。

7、数据质量监控

  1. 规则引擎:来定义各种告警规则,可能是一条sql模板,也可能是一些具体的算法。
  2. 执行引擎:要来执行各种规则,同时要考虑各种数据源的差异。
  3. 元数据系统:数据质量监控本来也算是元数据系统的一部分,我们这分开来讲,但是无论如何,在配置表的告警信息时,还是要和元数据系统结合的。

7.1、数据质量监控-简述

数据质量监控.xmind