1、数据治理架构

  1. 1、数据治理架构,分三个层次:
  2. 1-1、战略与治理保障:
  3. 1-1-1、数据战略规划与评估,数据治理组织与职责、数据制度与管理流程
  4. 1-2、大数据管理:
  5. 1-2-1、数据标准管理、架构与模型管理、质量管理、生存周期管理以及安全管理
  6. 1-3、大数据应用与服务:
  7. 1-3-1、大数据应用与服务包括,数据分析、开放共享以及数据服务

1.1、数据质量问题的发现与整治过程过程

  1. 1、数据质量问题的发现与整治过程过程,分三个阶段
  2. 1-1、源业务系统数据分析:分析素材:源系统操作手册、需求分析说明、数据库设计、源系统数据。
  3. 1-1-1、分析过程:分析业务流程、逻辑和关系,确定数据库表间和字段间关系,同时分析与该源业务系 统存在关联关系的其它系统间的业务关联关系和数据关联关系;
  4.    1-1-2、输出成果:数据库结构(主外键、约束、表间关系、字段长度与类型等)、业务描述(表及字段 的业务含义、业务规则)。
  5. 1-2、制定质检规则:设计质检程序或脚本,执行自动化、批量化检查。
  6. 1-2-1、过程中对重点业务报表引用的数据表进行重点分析;
  7. 1-2-2、质量问题清单及问题定位。
  8. 1-3、分析源系统数据:分析阶段和检查阶段的输出成果
  9. 1-3-1、分析质量问题对报表的影响,即影响分析;成因分析;制定解决方案;
  10.    1-3-2、输出:分析报告及整改方案。

1.2、数据标准建设过程

  1. 1、数据标准建设过程:建设基础数据标准和指标数据标准框架;确定标准化范围,对重要指标(属性)进行标准化。
  2. 1-1、建设过程:该过程需要业务人员和技术人员共同参与梳理和编制,补充完善标准化方案。
  3. 1-1-1、基础数据标准框架:标准定义、标准映射(数据源和基础标准数据映射)、标准执行、
  4. 1-1-2、指标数据标准框架:业务属性、技术属性和管理属性。
  5. a、筛选重要业务指标()=>制定指标标准框架(确定指标分类体系、属性形成标准化定义模板)=>制定指标标准(指标定义、口径、规则、数据来源,技术部门定义标准化属性,业务部门修订和确认指标标准)

1.3、建设数据平台

  1. 1、建设数据平台
  2. 1-1、层次关系明确:
  3. 1-1-1、属性(字段)=>实体(对象,表)=>专题(实体集合,业务专题)=>主题(专题集合、业务域)模型演进过程:基础模型=>逻辑模型=>物理模型。
  4. 1-2、形成基础模型过程:
  5. 1-2-1、在进行逻辑模型设计过程中,需要复制(系统间业务含义和字段名称均不相同的字段)、整合(含义相同名称不同的字段)和拆分(含义不同名称相同的字段);
  6. 1-3、模型设计完成后:
  7. 1-3-1、进行数据映射和ETL操作,将源表数据,参照映射文件、开发规范和加载策略,进行ETL开发和操作,将数据填充至目标表中。
  8. 1-3-2、完成整合层建设,整合层的对数据应用的意义:统一的业务视图、明细的数据、全面的数据、稳定的数据模型、完整的历史数据。
  9. 1-3-3、汇总层,即满足共性的数据访问需求,抽取公共指标,形成由维度和指标组成的维度模型,对符合要求的数据进行预汇总和加工。

1.3.1、ETL-概述

  1. 1ETL-概述:
  2. 1-1ETL:(Extract-Transform-Load),用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
  3. 1-2、常用在数据仓库,但其对象并不限于数据仓库。
  4. 1-3ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
  5. 1-4ETL所描述的过程,一般常见的作法包含ETL或是ELT(Extract-Load-Transform),并且混合使用。通常愈大量的数据、复杂的转换逻辑、目的端为较强运算能力的数据库,愈偏向使用ELT,以便运用目的端数据库的平行处理能力。

1.4、数据治理功能

  1. 1、数据治理功能模块
  2. 1-1、元数据管理:包括元数据采集、血缘分析、影响分析等功能
  3. 1-2、数据标准管理:包括标准定义、标准查询、标准发布等功能
  4. 1-3、数据质量管理:包括质量规则定义、质量检查、质量报告等功能
  5. 1-4、数据集成管理:包括数据处理、数据加工、数据汇集等功能
  6. 1-5、数据资产管理:包括数据资产编目、数据资产服务、数据资产审批等功能
  7. 1-6、数据安全管理:包括数据权限管理、数据脱敏、数据加密等功能
  8. 1-7、数据生命周期管理:包括数据归档、数据销毁等功能
  9. 1-8、主数据管理:包括主数据申请、主数据发布、主数据分发等功能

1.4.1、数据治理功能-概述

  1. 1、数据治理功能-概述
  2. 1-1、数据治理(DataGovernance),是一套持续改善管理机制,通常包括了数据架构组织、数据模型、政策及体系制定、技术工具、数据标准、数据质量、影响度分析、作业流程、监督及考核等内容。
  3. 1-2、数据治理是专注于将数据作为企业的商业资产进行应用和管理的一套管理机制,能够消除数据的不一致性,建立规范的数据应用标准,提高组织的数据质量,实现数据广泛共享,并能够将数据作为组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产的商业价值。
  4. 1-3、数据治理涉及的IT技术主题包括元数据管理、主数据管理、数据质量、数据集成、监控与报告等。

1.4.2、数据治理功能-技术组成

  1. 1、数据治理功能-技术组成
  2. 1-1、数据治理涉及的IT技术主题包括元数据、数据标准、数据质量、数据集成、主数据、数据资产、数据交换、生命周期、数据安全多产品组成的一整套解决方案。
  3. 1-2、所有与数据有关的技术产出物全部通过知识库实现相互之间共享,知识库作为数据治理的后台通道,传输不同平台、环境、技术、工具所提交和需要的元数据信息。

1.4.3、数据治理功能-功能模块-简介

  1. 1、元数据管理
  2. 1-1、对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。
  3. 1-2、控制数据质量、减少业务术语歧义和建立业务和技术之间的良好沟通渠道,进一步提高各种数据的可信性、可维护性、适应性和可集成性。
  4. 2、数据标准管理:
  5. 2-1、适用于业务数据描述、信息管理及应用系统开发,可以作为经营管理中所涉及数据的规范化定义和统一解释,也可作为信息管理的基础,同时也是作为应用系统开发时进行数据定义的依据。
  6. 2-2、在定义元数据实体或元素时进行关联。数据标准需要不断的补充完善、更新优化和积累,以便更好的支撑业务的开发和系统的集成。
  7. 3、主数据管理
  8. 3-1、通过运用相关的流程、技术和解决方案,对企业核心数据的有效管理过程。
  9. 3-2、主数据是企业内外被广泛应用和共享的数据,被誉为是企业数据资产中的"黄金数据",主数据管理是撬动企业数字化转型的支点,是企业数据治理最核心的部分。
  10. 4、数据质量管理
  11. 4-1、建立数据质量管理体系,明确数据质量管理目标、控制对象和指标、定义数据质量检验规则、执行数据质量检核,生产数据质量报告。
  12. 4-2、通过数据质量问题处理流程及相关功能实现数据质量问题从发现到处理的闭环管理,从而促进数据质量的不断提升。
  13. 5、数据安全管理
  14. 5-1、数据安全应贯穿数据治理全过程,应保证管理和技术两条腿走路。
  15. 5-2、从管理上,建立数据安全管理制度、设定数据安全标准、培养起全员的数据安全意识。从技术上,数据安全包括:数据的存储安全、传输安全和接口安全等。

1.4.4、数据治理功能-体系简介

  1. 1、数据治理功能-体系简介
  2. 1-1、一是数据治理的核心领域,二是数据治理的保障机制。
  3. 2、数据治理的核心领域
  4. 2-1、数据架构管理—规划并管理数据从产生端到使用端的分布、传输与存储的逻辑框架;
  5. 2-2、数据模型管理—企业的信息模型是企业数据标准的图形化展现;
  6. 2-3、数据标准管理—规范化企业重要活动及对象的数据记录格式;
  7. 2-4、数据质量管理—对数据的规范性、准确性、一致性、完整性、时效性进行持续监控和评估;
  8. 2-5、元数据管理—对企业数据资产的登记造册,并记录其相关性;
  9. 2-6、数据安全管理—对数据设定安全等级,保证其被适当地使用;
  10. 2-7、主数据管理—对企业关键的,跨系统共享的业务数据进行统一定义、集中保存、发布、更新及删除的过程;
  11. 2-8、数据生命周期管理—是对数据产生、存储、传输、使用和销毁全过程进行管理。

1.4.5、数据治理功能-案例

  1. 1、睿治数据治理平台
  2. 1-1、其融合元数据、数据标准、数据质量、数据集成、主数据、数据资产、数据交换、生命周期、数据安全9大产品,每个模块功能可互相调用,全程可视化操作,打通数据治理各个环节,同时提供各个产品模块任意组合,快速解决企业不同的数据治理场景。
  3. 1-1-1、元数据:采集汇总企业系统数据属性的信息,帮助各行各业用户获得更好的数据洞察力,通过元数据之间的关系和影响挖掘隐藏在资源中的价值。
  4. 1-1-2、数据标准:对分散在各系统中的数据提供一套统一的数据命名、数据定义、数据类型、赋值规则等的定义基准,并通过标准评估确保数据在复杂数据环境中维持企业数据模型的一致性、规范性,从源头确保数据的正确性及质量,并可以提升开发和数据管理的一贯性和效率性。
  5. 1-1-3、数据质量:有效识别各类数据质量问题,建立数据监管,形成数据质量管理体系,监控并揭示数据质量问题,提供问题明细查询和质量改进建议,全面提升数据的完整性、准确性、及时性,一致性以及合法性,降低数据管理成本,减少因数据不可靠导致的决策偏差和损失。
  6. 1-1-4、数据集成:可对数据进行清洗、转换、整合、模型管理等处理工作。既可以用于问题数据的修正,也可以用于为数据应用提供可靠的数据模型。
  7. 1-1-5、主数据:帮助企业创建并维护内部共享数据的单一视图,从而提高数据质量,统一商业实体定义,简化改进商业流程并提高业务的响应速度。
  8. 1-1-6、数据资产:汇集企业所有能够产生价值的数据资源,为用户提供资产视图,快速了解企业资产,发现不良资产,为管理员提供决策依据,提升数据资产的价值。
  9. 1-1-7、数据交换:用于实现不同机构不同系统之间进行数据或者文件的传输和共享,提高信息资源的利用率,保证了分布在异构系统之间的信息的互联互通,完成数据的收集、集中、处理、分发、加载、传输,构造统一的数据及文件的传输交换。
  10. 1-1-8、生命周期:管理数据生老病死,建立数据自动归档和销毁,全面监控展现数据的生命过程。
  11. 1-1-9、数据安全:提供数据加密、脱敏、模糊化处理、账号监控等各种数据安全策略,确保数据在使用过程中有恰当的认证、授权、访问和审计等措施。

1.4.6、数据治理功能-产品架构图-案例

1.4.6.1、亿信华辰-数据治理产品-架构图

数据仓库(Data Warehouse)-数据治理平台 - 图1

1.4.6.2、华中电力-数据治理产品-架构图

数据仓库(Data Warehouse)-数据治理平台 - 图2

1.4.6.3、农发行-数据治理产品-架构图

数据仓库(Data Warehouse)-数据治理平台 - 图3

2、数据质量

2-1、数据质量-概述

  1. 1、数据质量-概述
  2. 1-1、从开发人员角度(自底向上总结):易读易扩展易维护;上线无失误;报警及时处理;业务逻辑清晰。
  3. 1-2、从非开发人员角度(自顶向下总结):总结为八个原则
  4. 1-2-1. 数据的完整性:数据的完整性比较易于理解,主要作用在数据仓库架构中的数据采集环节中,对应到数据分层理论是DWD层,例如要剔除掉数据的缺失信息,注意采集过程中的数据偏移现象并纠正,等等;
  5. 1-2-2. 数据的准确性:数据的准确性不太常见,但比较关键,例如记录消费金额的信息不能为负值,要加入校验逻辑以防止业务部门的数据修正操作,对应到数据分层理论是DWD层,另外需要引入反作弊系统的支持,过滤掉那些无效的作弊数据,防止统计结果出现偏差,对应到数据分层理论是ODS层,;
  6. 1-2-3. 数据的一致性:数据的一致性主要作用在离线开发环节中,对应的数据分层理论是DWS层,针对同一主题下的数据统计,确保统计的数据源是一致的,例如在搜索引擎系统中,由于搜索日志、广告展现日志是分开记录的,那么统计广告的展现量应该以广告展现日志为基准进行统计,尽管搜索日志带有广告展示的信息,但它的统计结果会因为各种问题与广告展现日志的结果对不上,这里不可以采信;
  7. 1-2-4. 数据的及时性:比较完整一些的数据平台都包括了实时数据统计、小时级数据统计及天级数据统计,其实数据准时产出也算是数据质量原则的一部分,应该每天早上8点统计好前一天的数据,如果你延迟到了10点,肯定会有很多客户投诉你,尽管数据是准确的,但这种引起客户投诉的情况,也需要归到数据质量原则中来;
  8. 1-2-5. 数据的安全性:假设团队规模较大,涉及了多个业务线的数据,那么权限与安全问题也需要值得注意,因为消费金额这一类的数据,在任何一家公司都属于敏感信息,在对外暴露时需要做脱敏的处理,提供点击展现等信息也应该有权限申请的步骤,这个环节既可以作用在数据分层理论的ADS层,也可以作用在DWS层;
  9. 1-2-6. 数据的自查性:数据仓库并不是说我开发好了,就放在那里不管了,也不能说我需要指定一个人,天天去盯着有没有问题,数据仓库的架构中应该有对自身运行情况自动检查的特性,作用在数据分层理论的ADS层,例如在重点步骤之后添加校验环节,统计同比/环比信息,波动过大时主动报警等;
  10. 1-2-7. 数据的周期性:数据质量不仅与开发过程密切相关,也与存储数据的硬件息息相关,在很多场景下,由于服务器资源的有限增长与数据资产的无限增加,必然到了一定的时间就会产生成本压力,因此定期删除无用数据,针对一些冷门数据做极限压缩,都是有效保障数据长期稳定运行的基石;
  11. 1-2-8. 数据的可追踪性:数据的可追踪性,与元数据平台的搭建息息相关,可以说因为有了元数据平台,能够看到每一个过程的上下游血缘信息,因此在排查问题时,能够快速及时定位出问题的步骤,这非常关键。

2.2.1、数据质量-概述-描述图

数据仓库(Data Warehouse)-数据治理平台 - 图4

2.2、数据质量-质量评估-标准

  1. 1、数据质量-质量评估:参考标准
  2. 1-1. 数据更新频率,定时更新的肯定好过偶尔更新的;
  3. 1-2. 数据丢失后果,假设某张表数据丢失,会引起重大资产损失,它肯定是好数据;
  4. 1-3. 数据依赖程度,被跨部门依赖、被重要数据依赖,优先级肯定很高;
  5. 1-4. 数据业务属性,带"金额"这种字段的数据,相应的重要性要高;
  6. 1-5. 数据使用频率,有些表被调用次数很多,说明它很有存在的必要性;
  7. 1-6. 数据故障次数,当一张表出过问题时,要及时标注,便于依赖它的任务知道可不可靠。
  8. 2、数据质量-评估数据-标准:完整性、一致性、准确性、及时性
  9. 2-1.完整性
  10. 2-1-1.指数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整数据的价值就会大大降低,也是数据质量最为基础的一项评估标准。数据质量的完整性比较容易去评估,一般可以通过数据统计中的记录值和唯一值进行评估。
  11. a、例如:通过日志访问量数据得到平时日平均访问量在500万左右,某一天突然降低到50万,这是就要检查一下数据是否存在缺失了。
  12. b、再例如,网站统计地域分布情况的每一个地区名就是一个唯一值,我国包括了 32 个省和直辖市,如果统计得到的唯一值小于 32,则可以判断数据有可能存在缺失。
  13. 2-2.一致性
  14. 2-2-1.指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。规范指的是,一项数据存在它特定的格式。
  15. a、例如:手机号码一定是 11 位的数字,IP 地址一定是由 4 0 255 间的数字加上.组成的。
  16. b、再例如:逻辑指的是,多项数据间存在着固定的逻辑关系,例如 PV(页面访问量) 一定是大于等于 UV(用户唯一访问量) 的,跳出率一定是在 0 1 之间的。
  17. 2-3.准确性
  18. 2-3-1、指数据记录的信息是否存在异常或错误。存在准确性问题的数据不仅仅只是规则上的不一致。最为常见的数据准确性错误如乱码。其次,异常的大或者小的数据也是不符合条件的数据。数据质量的准确性可能存在于个别记录,也可能存在于整个数据集,
  19. a、例如数量级记录错误。这类错误则可以使用最大值和最小值的统计量去审核。
  20. 2-4.及时性
  21. 2-4-1.指数据从产生到可以查看的时间间隔,也叫数据的延时时长。及时性对于数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义,及时性在大数据离线项目里面影响关系不大,但是对于大数据实时的项目则有很大的影响。

2.3、数据质量-质量评估-评估场景

  1. 1、数据质量-质量评估-评估场景:举例
  2. 1-1. 通过数据资产评估体系,制定高、中、低三种数据标准,以季度为周期,统计三种标准问题次数;
  3. 1-2. 规定详细的数据产出时间,假设数据产出延时,计算延迟时间及问题,并进行记录;
  4. 1-3. 通过产品、客户、数据使用人员及配合部门反馈意见,发现数据不一致等问题,及时反馈,确认后计入问题清单;
  5. 1-4. 通过监控及报警平台,统计每日异常信息,分类产出报告;
  6. 1-5. 针对每位开发人员,测试人员检查发现问题后,如果确认问题存在,计入开发问题,最后汇总常见问题场景;
  7. 1-6. 定期扫描开发代码,发现问题及时发出报警。

2.4、数据质量分析-概述

  1. 1、数据质量分析-概述
  2. 1-1、在数据分析和数据挖掘之前,我们首先要做的就是对数据进行预处理:所谓的"脏数据"给去除掉,提高数据分析和挖掘的准确性和有效性。
  3. 1-2、数据分析是以业务场景和业务目标为思考起点,业务决策作为终点,按照业务场景和业务目标分解为若干影响的因子和子项目,围绕子项目做基于数据现状分析,知道改善现状的方法。
  4. 2、数据质量分析-手段
  5. 2-1、简单统计量分析
  6. 2-1-1、对变量做一个描述性分析,查看那些不合理的数据。这个时候我们可以通过最大值,和最小值来大体判断,也就是极值。比如说一个人的身高是450cm,这个肯定就是异常值。
  7. 2-23σ原则
  8. 2-2-1、这种方法,多是该数据服从正态分布,在该原则下,异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。在正态分布下,距离平均值3σ之外的值出现的概率为 P(|x-μ|>3σ)<=0.003,属于极个别的小概率事件。
  9. 2-3、箱形图分析
  10. 2-3-1、箱形图又称盒须图,盒式图,或箱线图,是一种用作显示一组数据分散情况资料的统计图,常用于品质管理。
  11. 2-3-2、异常值通常被定义为小于QL1.5IQR或大于QU+1.5IQR的值。其中QL称为下四分位数,表示全部观察值中有四分之一的数据比它小;QU称为上四分位数,表示全部观察值中有四分之一的数据值比他大;IQR称为四分位数间距,是四分位数QUQL的差值,期间包含了全部观察值的一半。
  12. 2-4、数据特征分析
  13. 2-4-1、通过对数据进行质量分析后,绘图制表,计算特征值等手段进行数据的特征分析。分布分析能够揭示数据的分布特征和分别类型。
  14. 2-4-1-1、定量数据的分布分析方法-步骤:
  15. a、求出极值,计算极差
  16. b、决定组距和组数(绘制频率分析时的关键)
  17. c、决定分点
  18. d、制出频率分别表
  19. e、绘制频率分布直方图
  20. 2-4-1-2、定量数据的分布分析方法-遵循原则:
  21. a、各组之间必须是相互排斥的
  22. b、各组必须将所有的数据包含在内(不包含“脏数据”)
  23. c 各组的组宽最好相等,这样便于观察。
  24. 2-5、对比分析:把两个相互联系的指标进行比较,比较适合用于指标间的横纵向比较,时间序列的比较分析。
  25. 2-5-1、绝对值比较:常反映了一定时间,地点条件下的规模,水平,带有各种单位,比如某个区域的粮食总产量,,社会消费品零售总额等。
  26. 2-5-2、相对数比较:通常是指以增幅,增长速度,指数,倍数等表现形式出现,比如各类价格的指数,GDP增长率,相对数一般都是对绝对数进行加工后取得的。
  27. a、相对数有可以分为以下几种:结构相对数、比例相对数、比较相对数、强度相对数、计划完成相对数、动态相对数
  28. 2-6、集中趋势度量:均值、中位数、众数、
  29. 2-7、离中趋势度量:极差、标准差、变异系数、四分位数间距(四分位数中间包含了全部观察值的一半,其值越大,说明数据的变异程度越大,反之变异程度越小。)
  30. 2-8、周期性分析:是探索某个变量是否随着时间变化而呈现出某种规律性变化。比如对用电量的预测。
  31. 2-9、贡献度分析:又称为帕累托分析,他的原理是帕累托法则又称20/80定律,为什么称为20/80定律,因为对于一个公司来说,80%的利润来自20%最畅销的产品,而其他80%的产品只产生了20%的利润,表示把相同的投入成本放在不同的对象就会产生不同的效益。
  32. 2-10、相关性分析:直接绘制散点图、绘制散点图矩阵、

2.5、数据质量预处理-概述

  1. 1、数据质量预处理-概述
  2. 1-1、数据预处理,他有多种方法,比如:数据清理,数据集成,数据变换,数据归约等。
  3. 1-1-1、其中数据清理主要指的是对原始数据集中的无关数据,重复数据,平滑噪音数据,筛选掉与挖掘主题无关的数据,处理缺省值,异常值等。
  4. 2、缺省值处理-常用方式
  5. 2-1、删除记录:最有效,但有很大的局限性,它以减少了历史数据为代价来换取数据的完备,这样会造成资源的大量浪费,也可能丢弃了大量隐藏在这些记录里面的信息。
  6. 2-2、数据插补:使用算法对原始数据集中的那些缺失值进行插补,常用算法有拉格朗日插值和牛顿插值法。
  7. 2-3、不处理
  8. 3"脏数据"-通常定义
  9. 3-1.缺失值
  10. 3-2.不一致的值
  11. 3-3.重复数据,以及含有特殊符号(如#,*,¥等)的数据
  12. 3-4.异常值
  13. 3-5.高维度
  14. 4"脏数据"-产生原因
  15. 4-1、异常值分析:异常值也称为离群点,异常值分析也称为离群点分析。
  16. 4-2
  17. 4-3

2.6、数据质量检测-概述

  1. 1、数据质量检测-概述:在我们进行数据分析之前要对数据进行检测
  2. 2、数据质量检测-四个方面:
  3. 2-1、完整性
  4. 1.Row Count 比较:
  5. 1). 增量的ETL job
  6. 2). 错误的ETL
  7. 3). 在开发过程中容易丢失的测试:对每一个表run test case 表容量;(Year, Month, Week
  8. 2. Row Trend 分析:数据总数和历史趋势不一致。
  9. 1). source的异常变化
  10. 2). ETL job和脚本中的异常updatedelete操作。
  11. 测试:分析总行数的趋势; 一些重要的列看下趋势还要看下ditnct;最好看下NULL (AVG Row count/7 days)(Row count/day)(Trend/3 days)
  12. 3. 数据刷新: 数据源的稳定性和失败的job
  13. 测试: 检查sourcetarget运行时间
  14. 2-2、一致性
  15. 1. ETL 逻辑:数据转换清洗中的准确性
  16. 1) 数据源和目标db的不一致
  17. 2) 业务逻辑的不正确(add or update a measure, attribute 等等)
  18. 3) 丢失外键
  19. 4) 维度表和事实表中重复记录
  20. 2. Cube 多位数据集
  21. 1) 错误的hierarchy
  22. 2) measures 不符合业务逻辑
  23. 3) kpi 逻辑不正确
  24. 2-3、准确性
  25. 1. 数据验证
  26. 1) 表结构的改变
  27. 2) 列长改变引起的不一致
  28. 3) 数据类型不正确
  29. 2. 业务逻辑的验证
  30. 1) 维度表的时效性,一般是由于维度变化引起的。
  31. 2) 一些小于0%或者>100%的异常
  32. 3) 一些不期待的负值
  33. 4) ETL中一些错误的mapping逻辑
  34. 5) Email地址明显的错误, 年龄,邮政编码等
  35. 3. 用户测试情景
  36. 1) 用户query结果和业务不一致
  37. 2) 不同系统的报表结果不一样

2.7、数据质量挖掘-概述

  1. 1、数据挖掘的过程:Data Mining
  2. 1-1、数据预处理(至关重要,数据的质量决定挖掘的质量):数据整合、数据清洗、数据转化和数据约简
  3. 1-1-1、数据整合:收集要分析的数据进行模式整合组成一个新的数据仓库。
  4. 1-1-2、数据清洗:解决数据整合出现的这些问题
  5. a、对于遗失数据,可以忽略遗失数据的元组、手动添加遗失数据、使用全局变量填充“unknown”、填充平均值、猜测值等。
  6. b、对于噪声数据可以采用装箱、聚类、回归分析、人机结合。
  7. c、对于不一致数据,可以采用参考外部资料的方法(比如查纸质资料等。)
  8. 1-1-3、数据转化和约简:对数据装箱、聚类、数据规范化、
  9. 1-2、挖掘信息阶段
  10. 1-2-1、频繁模式挖掘有Apriori算法、AprioriTid算法、FP-Growth算法等。相关性挖掘方法
  11. 1-2-2、挖掘算法还有分类、聚合两大类。
  12. a、分类算法有决策树、朴素贝叶斯分类、支持向量机等。
  13. b、聚合算法有基于划分的k-meansk-median、分层方法、基于密度的方法、基于网格的方法等。
  14. 1-3、评估和使用结果:这个要根据不同的挖掘结果和使用情况来判断挖掘是否有效。

2.8、数据质量稽核-概述

  1. 1、数据质量稽核-概述
  2. 1-1、实现数据的完整性和一致性检查,提升数据质量,数据稽核是一个从数据采集,预处理,比对,分析,预警,通知,问题修复的完整数据质量管控链条。
  3. 2、数据质量稽核-流程
  4. 2-1、数据的采集和适配,这个常见方式是通过ETL工具来完成,ETL工具采集到的数据做初步的数据清理和预处理。
  5. 2-2、根据预定义的数据稽核和校验规则,对数据进行差异分析和异常分析,对于分析的结果,一方面是实时的预警和通知,一方面是根据预先定义的报表模版生产数据稽核统计报表。
  6. 2-3、数据稽核中跨系统数据比对的内容:
  7. 2-3-1、数据表级别的比较
  8. 2-3-2、行记录级别比较:是数据表中记录层级的数据比较
  9. 2-3-3、字段级别的数据比对
  10. a、一个是数据表表结构和字段结构元数据的一致性,如相同的表两边字段数量不一致,相同的字段的字段类型或长度不一致等;
  11. b、其次是字段内数据和内容的一致性比对。
  12. 2、数据稽核应该是一个高度可灵活配置的产品平台,其中包括了稽核流程可以配置,ETL和元数据定义,字段映射可配置;数据稽核规则可配置,报表模版可以预定义和配置;预警和通知规则和配置。有了这些灵活的可配置能力后,数据稽核平台基本就可以应用到很多类似数据稽核和比对的场景中。

2.9、数据质量监测

  1. 1、数据质量相关术语
  2. 1-1DQ: Data Quality
  3. 1-2、强规则: 符合一定条件会阻塞任务的规则
  4. 1-3、弱规则: 即使符合条件也不会阻塞任务
  5. 1-4、阈值: 监测的数据质量范围
  6. 1-5、表的平均波动率:一段时间内每日环比的均值
  7. 1-6、表的平均记录数:记录数的每日均值
  8. 1-7、表的平均报警数:报警数的每日均值
  9. .........
  10. 2、监控手段
  11. 2-1、监控手段主要包括两个方面,一是监,数据质量校验,二是控,告警和处理。
  12. 3、数据质量校验:
  13. 3-1、离线检查 - 可以指离线的对一些数据集 DataSet 进行检查
  14. 3-2、实时检查 - 数据处理流的检查
  15. 4、数据质量监控规则
  16. 4-1、主键监控
  17. 4-2、表数据量及波动监控
  18. 4-3、重要字段的非空监控
  19. 4-4、重要枚举字段的离散值监控、指标值波动监控
  20. 4-5、业务规则监控
  21. ...........
  22. 5、校验范围-分为
  23. 5-1、抽样检查 - 效率高,资源消耗不大
  24. 5-2、全量检查 - 效率低,全覆盖,资源消耗大
  25. 6、告警和处理:告警和处理分为两个阶段,
  26. 6-1、一是告警,当数据质量出现问题的时候,需要及时通知责任人,
  27. 6-2、二是处理,出现上游数据污染,根据规则级别,需要及时阻塞下游任务,并处理上游任务。

3、数据质量监控

  1. 1、数据质量监控的设计要分为四个模块:数据、规则、告警和反馈。
  2. 1-1、数据:主要是需要被数据质量监控到的数据,数据可能存放在不同的存储引擎中,比如HivePGES等。
  3. 1-2、规则:是指如何设计发现异常的规则,一般而言主要是数值的异常和环比等异常监控方式。也会有一些通过算法来发掘异常数据的方法。
  4. 1-3、告警:告警是指出发告警的动作,这里可以通过微信消息、电话、短信或者是微信小程序的方式来触发告警内容。
  5. 1-4、反馈:这里需要特别注意,反馈是指对告警内容的反馈,比如说收到的告警的内容,那么负责人要来回应这个告警消息是否是真的异常,是否需要忽略该异常,是否已经处理了该异常。有了反馈的机制,整个数据质量监控才容易形成闭环。更能体现业务价值。

3-1、数据质量监控-概述

  1. 1、数据质量监控-概述
  2. 1-1、数据监控是及时、有效的反馈出数据异常的一种手段,通过对数据的监控去观察是否异常,进而分析数据。
  3. 2、数据质量监控-明确点:举例
  4. 2-1、明确监控目标
  5. 2-2、监控哪些数据
  6. 2-3、监控这些数据每个背后的意义是什么
  7. 2-4、数据预警:
  8. 2-4-1、数据预警是通过各种数据维度的比对发现数据异常。
  9. 2-4-2、预警即通过数据采集、数据挖掘、数据分析,对已经存在的风险发出预报与警示

3-2、数据质量监控-方式

  1. 1、数据质量监控-方式-大纲:4种方法
  2. 1-1、移动均值监控:简单移动均值(SMA)的计算公式为Xn+1=(X1+X2+X3+…+Xn)/n
  3. 1-1-1、正数越大/负数越小,都属于数据异常、
  4. 1-2、环比同比监控:
  5. 1-2-1、与上一统计段比较称为环比,如:20147月份与20146月份相比较、
  6. 1-2-2、与历史同时期比较称为同比,如:20157月份与20147月份相比、
  7. 1-3P控制图
  8. 1-3-1、适用于比率型数据,如整体转化率、新用户比例、活跃用户比例等。
  9. 1-4X-MR控制图
  10. 1-4-1X-MR(单值-移动极差)控制图适用于数值型数据,如客单价、活跃用户数等。
  11. 2、数据质量监控-方法-具体:
  12. 2-1、校验每天的记录数
  13. 2-2NULL0值校验
  14. 2-3、每天新增的记录数波动范围
  15. 2-4、重复记录数据校验
  16. 2-5、数据时间校验
  17. .......