• 数据集成:作为大数据平台上下云的核心枢纽,将不同系统的数据相互打通,实现数据自由离线或实时流动, 并致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动能力,繁杂业务背景下的数据同步解决方案。
  • 数据综合治理:数据综合治理涵盖资产全景、数据地图、智能监控、数据质量、数据安全、资源优化等多个功能模块,提供多种聚焦视角来助力构建、管理数据,洞察和挖掘数据价值。可有效支撑离线大数据仓库构建、数据联邦查询和处理分析、海量数据低频交互式查询&智能报表构建和数据湖方案落地。

一、数据分析/挖掘

1、一个完整的数据分析流程

数据化建设知识总览 - 图1

1.1 问题界定

  • 边界:明确问题的边界:业务目标、分析目标、结果导向;
  • 确定业务的关键指标和逻辑:逻辑细分、维度界定、业务关键指标;
  • 初步定性分析和定量分析:定性分析、定量分析、明确分析模式。

    1.2 分析模型

  • 基于经典模型

    • 5W2H、SWOT、4P管理模型、STAR模型、波士顿五力模型等。
  • 基于业务模型

    • 用户画像、销售影响因素、AARRR流量模型、零售人货场。

      2、数据库基本操作

      2.1 数据库类型:

  • 关系型数据库:Mysql、Oracle、SqlSever

  • 键值存储数据库:Redis
  • 列存储数据库:HBase
  • 面向文档数据库:MongoDB、CouchDB、 Terrastore、RavenDB和OrientDB等
  • 图形数据库:Neo4J、ArangoDB、OrientDB、FlockDB、GraphDB、InfiniteGraph、Titan和Cayley等
  • 搜索引擎存储:Solr和Elasticsearch等

    2.2 SQL基本语句

    具体SQL操作请参考本文档体系SQL部分

    3、统计学基础

    3.1 描述性统计

    集中趋势:均值、中位数、众数
    离散趋势:极差、方差、四分位值、四分位距

    3.2 推断型统计

  • 概率分布:几何分布、二项分布、破松分布、正态分布

  • 假设检验
    1. 确定要检验的假设
    2. 选择检验统计
    3. 用于做决策的拒绝域
    4. 求检验统计量的P值
    5. 样本结果是否位于拒绝域
    6. 作出决策

      4、数据分析与建模

      4.1 数据分析三种类型

      描述性数据分析
      探索性数据分析
      预测性数据分析

      4.2 数据预处理/清洗

      | 数据问题 | 常见方法 | | —- | —- | | 重复值 | 删除 | | 空缺值 | 删除或补全 | | 异常值 | 删除或修复 | | 不一致数据 | 数据统一、修复 | | 非法值 | 数据统一、修复 | | 无量纲化 | 极值化、标准化(最常用)、均值化和标准差化方法 |

4.3 数据分析方法

  • 描述性统计
  • 假设检验
  • 信度分析
  • 列联表分析
  • 相关分析
  • 方差分析
  • 回归分析
  • 聚类分析
  • 判别分析
  • 主成分分析
  • 因子分析
  • ROC分析
  • 时间序列分析
  • 生存分析
  • 对应分析
  • 决策树分析

    5、常见业务分析模型

    5.1 RFM模型
    围绕客户近期消费时间(R)、消费频率(F)、消费金额(M)三维度对客户分类,对不同客户有针对性营销。
    数据化建设知识总览 - 图2
    5.2 ABC分类模型
    二八定理,分析哪些项目/产品/客户贡献了大部分价值,重点维护。

5.3 漏斗模型
描述将潜在客户逐步变为客户的转化量化模型,分环节层层量化,并量化相邻环节转化率,以针对性提升各环节。
数据化建设知识总览 - 图3
5.4 波士顿矩阵
通过销售增长率和读占有率来分析决定产品结构。

更多分析模型或方法请参考本文档体系的思维模型部分

6、可视化图表

6.1 可视化图表应用

具体请参考本文档体系的可视化部分。
数据化建设知识总览 - 图4

6.2 数据可视化报表逻辑

  1. 项目背景:简述项目背影,有什么问题,分析目的是什么。
  2. 现状描述:对当下的数据结果进行阐述,描述性呈现。
  3. 提出假设:提出可能存在哪些问题的假设。
  4. 分析思路:将问题细化到指标,再按不同维度层层分解。
  5. 数据解释:数据来源,如何取样,指标如何定义等科学解释。
  6. 结果呈现:呈现数据分析结果,验证假设是否正确。
  7. 分析结论:汇总数据分析的主要结论。
  8. 建议:数据结论结合业务,提出问题并给出改进方案。

    7 数据分析常用工具

    不同的场景、业务和团队资源会有较大的差异。最通用的工具就是Excel+SQL+Python。
具体流程场景 常用工具或方法
数据获取 SQL、Navicat、DataGrip、Python等
数据处理/计算 Excel、SQL、Python(pandas、numpy)、Java、Golang、R等
可视化 Python(Matplotlib)、Excel、PowerBI、Echarts、Antv、Datav、Tableau、FineBI、PPT等
BI分析工具 Tableau、FineBI、PowerBI、QuickBI等
报表自动化 FineReport、Python、Excel(VBA 或加载项Javascript)

数据挖掘的商业应用

  • 需求确认:源于业务、终于业务、价值明确、应用明确
  • 数据收集:内部生产数据、内部业务数据、外部保密数据、外部公开数据
  • 数据处理:数据真实性、数据逻辑、数据校正、数据清洗
  • 数据分析:相关性、数据分布、维度统计、粒度统计
  • 特征工程构建:值处理、特征组合、特征选择
  • 模型构建:分类、聚类、回归、NLP、时间序列、关系规则
  • 模型应用:模型调用、特征调用、数据自更新、模型自学习
  • 业务应用:人为先行、算法先行、业务融合、应用自适应

    二、可视化报表/BI

    1、企业数据分析

    1.1 企业数据分析能力金字塔

    数据化建设知识总览 - 图5

    1.2 数据价值流向

    | 数据不可见 | 业务系统 | 传统数仓 | | —- | —- | —- | | 数据可见 | 报表中心 | 大数据平台 | | 数据可用 | 指标体系 | 报表集市 | | 数据价值 | 综合数据应用 | 管理驾驶舱 |

1.3 企业数据分析全景

总览:综合绩效分析、关键业务指标、业务预算执行监控、应收账龄与周转、业绩地图、供应链运营监控

分析体系 分析指向
销售体系 销售预测分析
销售绩效分析
销售盈利分析
销售订货分析
产品销售分析
服务销售分析
销售信用分析
应收账龄与周转分析
客户贡献分析
商机漏斗分析
大数据:服务创新
财务体系 专业财务分析
杜邦财务分析
预算执行分析
财务风险分析
资金协调分析
盈利能力
营运能力
偿债分析
发展能力
成本分析
全面预算分析
供应链分析 供产销协同分析
供应商绩效分析
采购计划分析
采购执行分析
预付应付分析
静态库存统计
动态库存统计
库存周转分析
库龄分析
生产体系 物资供需分析
产销协同分析
生产计划分析
生产执行分析
产生能耗分析
生产延期预警
生产质量分析
生产报工分析
生产产值分析

1.4 战略经营管理平台功能框架

某软件某公司基于战略经营管理闭环搭建的平台功能框架

数据化建设知识总览 - 图6

2、报表体系

2.1 报表规划

数据化建设知识总览 - 图7

2.2 报表规划维度

数据化建设知识总览 - 图8

2.3 以绩效为核心的报表体系

业务分类 市场与客户管理 销售与渠道管理 采购和库存管理
管理层分析 市场与竞争对手对手分析
新业务拓展分析
营销费用与业绩对比
客户拜访分析
市场活动分析
客户满意度分析
销售渠道分析
销售预测分析
销售网点分析
销售订单多维分析
产品品类销售分析
产品销售组合分析
供应商管理分析
经销商分析
存货分析
采购价格分析
货损/质量分析
采购返利分析
采购预测分析
操作层查询 市场活动查询
现有大客户信息查询
销售订单查询
产品价格/折扣查询
采购订单查询
库存查询
业务分类 生产与技术管理 财务管理 人力资源管理
管理层分析 产品质量分析
供应链分析
生产力分析
运营成本分析
价值链分析
产品损耗分析
资格性支出分析
业绩指标分析
营业费用分析
盈利能力分析
财务预算分析
现金流分析
薪酬福利分析
员工成本分析
招聘管理分析
360度考核分析
培训管理分析
员工管理分析
操作层查询 生产订单查询
产品供应链查询
会计核算查询
现金和票据查询
员工招聘查询
员工考核查询

三、数据平台

1、数据平台介绍

1.1 为什么搭建数据平台

  • 性质:用于整合数据,计算、处理、存储数据,输出数据应用的平台
  • 价值:赋能业务,构建企业数据模型,输出报表、数据分析,提供数据服务等。

    1.2 数据平台演进

    数据化建设知识总览 - 图9
    数据仓库、大数据平台、数据中台

数据仓库 大数据平台 数据中台
定义 面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 以处理海量数据存储、计算及流数据实时计算等场景为主的一套基础设施平台。 是全域级、可复用的数据资产中心与数据能力中心,提供干净透明智慧的数据资产与高效易用的数据能力。
主要能力 数据仓库用表的方式规整了数据,实现了企业数据模型的构建。 解决了海量、实时数据的计算和存储问题,实现多源异构数据的整合管控。 更多是业务应用而不是平台技术,侧重数据治理、资产管理、统一服务。
适用性 更适合传统数据库离线采集,数据一般为结构化,处理数据量一般在几十T到几百T以内,一般用于满足内部决策支持分析需求。 业务越来越复杂,数据量越来越大,异构化、实时海量数据的计算存储压力,原有数据系统不能承受更大数据量的处理,数据处理效率下降。 重心放在解决企业逻辑模型的搭建和存储、数据标准的建立、数据目录的梳理、数据安全的界定、数据资产的开放,知识图谱的构建。
业务支持 离业务端较远,用于支持管理决策分析,业务价值体现依赖诸多因素。 距离业务较近,实时性能、大数据等也是为了加快对业务的响应。 距离业务最近,加速企业从数据到业务价值的过程。
服务方式 提供相关分析报表或数据集。 提供相关分析报表,数据集,一些API。 API或其他共享方式的数据服务。

1.3 功能架构

1.3.1 数据仓库通用功能架构

数据化建设知识总览 - 图10

1.3.2 大数据平台功能架构

数据化建设知识总览 - 图11

1.3.3 数据中台功能架构

示例

数据化建设知识总览 - 图12
数据化建设知识总览 - 图13

image.png
image.png
image.png

image.png
image.png

2、数据中台

1、数据中台架构与数据治理流程

数据化建设知识总览 - 图19

2、数据资产体系——规划

2.1 数据资产体系管理架构

数据化建设知识总览 - 图20

2.1 数据资产管理规范

  • 数据治理框架 | 管理办法 | 管理流程 | 技术规范及模板 | | —- | —- | —- | | 数据标准管理办法
    种类数据标准管理细则 | 数据标准管理相关流程 | 数据标准需求审批表 | |
    - 数据质量管理办法
    - 数据录入维护管理办法
    - 数据模型管理办法
    - 元数据管理办法
    - 数据流管理办法
    - 主数据管理办法
    - 数据安全管理细则
    - 外部数据管理办法
    - 历史数据归档管理办法
    |
    - 数据质量管理流程
    - 数据模型管理流程
    - 元数据管理流程
    - 数据流管理流程
    - 主数据管理流程
    - 数据安全管理流程
    - 外部数据管理流程
    - 历史数据归档管理流程

    |
    - 数据质量度量规则及检验方法模板
    - 数据模型设计评审备案申请表
    - IT系统改造、新建或变更股产元数据管理审核单
    - 元数据专项服务需求审批单

    | |
    - 数据平台数据交换管理办法
    - 数据平台运维管理办法
    - 数据平台ETL开发管理细则
    - 数据集市管理办法
    - 数据仓库管理办法
    - 数据库统一运维管理办法

    |
    - 数据平台数据交换管理相关流程
    - 数据平台运维管理相关流程
    - 数据平台ETL开发管理相关流程
    - 数据集市管理相关流程
    - 数据仓库管理相关流程
    - 数据库统一运维管理相关流程
    |
    - T系统改造、新建或元数据日常变更通知单
    - 数据交换需求审批表
    - ETL编写规范
    | |
    - 报表需求管理办法
    - 数据服务管理办法
    - 数据应用手工数据补录管理办法
    - 管理驾驶舱系统数据管理实施细则
    - 开放数据服务支持系统管理细则
    |
    - 报表需求管理相关流程
    - 数据服务管理相关流程
    - 数据应用手工数据补录管理相关流程

    |
    - 报表新增需求审批表
    - 报表变更需求审批表
    | | 数据资产管理与应用绩效管理办法 | 数据资产管理与应用绩效管理流程 | 数据资产管理与应用关键指标及计算说明 |

3、数据模型体系——整合

数据化建设知识总览 - 图21

4、数据技术体系——底座

image.png

5、数据治理体系——治理

数据化建设知识总览 - 图23
数据化建设知识总览 - 图24

6、数据服务体系

7、数据运营体系——保障

产品运营团队 数据研发团队 数据委员会

- 落实核心KPI,制定相关流程和平台工具,督促研发团队进行改善。
- 对接业务和技术团队,根据业务架构和路线图,落实具体场景需求和平台建设需求。

- 利用技术手段或业务流程改善围绕KPI所涉及的模型因子,如存储量、表分区期、字段空值等。
- 根据需求,设计IT架构并落实具体项目需求。

- 与运营和研发团队商讨制定核心KPI以及相关因子并协商达成共识。
- 联合业务和技术制定企业数据战略目标、路线图、业务架构等。

3、大数据平台

3.1 大数据平台架构图示例

数据化建设知识总览 - 图25
数据化建设知识总览 - 图26
image.png

4、数据仓库

4.1 前期调研

  • 业务调研:座谈业务,梳理业务流程,构建概念数据模型,初步规划数仓DW层主题域。
  • 需求调研:梳理现有数据需求,收集整理数据和BI报表需求。
  • 数据调研:获取每个数据源、结构说明书,整理数据字典,划分每个表的业务线和所属模板,确定每个库、表ODS层的主题域。

    4.2 指标梳理

    | 步骤 | 主要内容举例 | | —- | —- | | 罗列业务指标 |
    - 公司战略目标分解
    - 平衡计分卡分解
    - 部门指标分解岗
    - 位职贵常规指标
    - 工作薄弱方面
    - 防范性指标
    | | 筛选业务指标 | 总体遵循SMART原则
    - 少而精原则:二八原则,业务指标能描述80%以上工作
    - 结果导向原则:结果优先,产出中确定主次
    - 可衡量性原则:时限、数量、质量、成本
    - 一致性原则:业务指标与战略指标保持一致
    | | 选择权重 |
    - 指标数控制在3~8个之间
    - 每个指标权重一般不高于40%
    - 每个指标权重一般不低于50%
    - 权重一般取5的整数倍
    - 得分一般利用线性变化算比例
    | | 确定衡量指标 |
    - 定量指标需列明详细计算公式
    - 定性指标提取出评价要素明确衡量标准,让指标有解读的意义
    | | 修改确认 |
    - 体系价值:可支撑体系内比较
    - 合理合规:确认指标合理合规
    - 管理价值:是否能支撑上级管理需求
    - 拓展价值:是否支持下级部门指标设定
    |

4.3 数仓分层

分层 全称 简介
ADS数据应用层 Application Data Store

eg:建表ads_uv_count表
个性化维度汇总层,对于不是特别通用的统计维度数据会放在这一层中,这里计算只有自身业务才会关注的维度和指标。
DWM数据中间层 Data Warehouse Middle 宽表集市、跨过业务场景、行为数据组装。
该层是在DWD层的数据基础上,对数据做一些轻微的聚合操作,生成一些列的中间结果表,提升公共指标的复用性,减少重复加工的工作。
DWS数据汇总层 Data Warehouse Service

eg:建表dws_uv_detail_day
轻度聚合对DWD
订阅明细层数据后,会在实时计算任务中计算各个维度的汇总指标。如果维度是各个垂直业务线通用的,则会放在实时通用汇总层,作为通用的数据模型使用。
DWD数据明细层 Data Warehouse Detail 标准化、维度补全、异常处理
是在ODS层基础上,根据业务过程建模出来的实时事实明细层,对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据,行式存储改为列存储,改压缩格式)
DIM公共维度层 实时维表层的数据基本上都是从离线维表层导出来的,抽取到在线系统中供实时应用调用。
ODS原始数据层 Operational Data Store ODS层属于操作数据层,是直接从业务系统采集过来的最原始的数据,包含了所有业务的变更过程,数据粒度也是最细的

数据化建设知识总览 - 图28

四、数据治理

确保数据在全生命周期内的高质量,支撑价值化应用企业数据资产管理的基础,助力数据资产化集中管控。

数据化建设知识总览 - 图29

1、数据治理体系

1.1 总体框架

数据化建设知识总览 - 图30

1.2 组织架构——推行保障

数据化建设知识总览 - 图31

1.3 数据治理核心模块

数据化建设知识总览 - 图32

1.3.1 数据标准管理

保障数据内外部使用和交换的一致性和准确性的规范约束。

1.3.1.1 数据标准分类
数据化建设知识总览 - 图33

1.3.1.2 数据标准框架


1.3.1.3 数据标准设计流程


1.3.1.4 数据质量指标

有参考电子政务数据建设规范

分类 指标名称 描述 举例
规范性 数据标准化 数据在命名、创建、定义、更新和归档时遵循的标准,包括国际标准、国家标准、行业标准、地方标准或相关规定等。 国家行政区划、行业分类编码等应该参考国标
规范性 数据格式规范性 数据格式(包括数据类型、数值范围、数据长度精度等)是否满足预期要求。 示例:性别一栏不能出现男/女以外的内容;身份证号不能出现标点符号;以及对字符编码的一些限制,都需要通过规定内容的格式来实现
完整性 个别完整性 必须列中不可为空 列值不能为空
完整性 条件完整性 根据条件列值必须始终存在
唯一性 单独唯一性 列必须为唯一值 唯一标识列值必须唯一,不能重复
唯一性 条件唯一性 根据业务条件,列值必须唯一
一致性 数据格式一致性 列值数据格式保持一致,额外的转换处理会增加成本和风险 反例:日期有2007年下半年、2010年1月、2013.1.4等多种格式
一致性 相同数据一致性 同一数据在不同位置存储或被不同应用或用户使用时,数据的一致性﹔数据发生变化时,存储在不同位置的同一数据被同步修改
一致性 关联数据一致性 根据一致性约束规则检查关联数据的一致性
一致性 基准代码一致性 当列以整合代码作为基准代码加以应用的时候,要保证其参照一致性
一致性 数据流一致性 数据产生或加工之后数据发生移转的时候,相关的数据必须保持一致
有效性 值有效性
有效性 时间有效性
有效性 范围有效性
正确性 数据正确性 是否预期数据
正确性 数据内容正确性 数据内容是否是预期数据
正确性 数据重复率 特定字段、记录、文件或数据集意外重复的度量
正确性 脏数据出现率 正确字段,记录、文件或数据集之外无效数据的度量。
示例:事务发生回滚时由于回滚机制不健全或不完善导致可能出现脏数据
反例:姓名列有张三1、李四2、aadd

1.3.2 元数据管理

1.3.2.1 元数据管理框架

1.3.2.2 元数据概念

元数据是描述数据的数据,主要作用是让数据相关方了解数据如何生产、如何定义、如何分布,如何演变,数据之间有什么关系,以及相互之间的影响。可以为数据说明其属性(名称、大小、数据类型等),或结构(字段、类型、长度等),或其相关数据(位于何处、拥有者、产出任务、访问权限等),包括对数据的业务、结构、定义、存储、安全等各方面对数据的描述。为了准确的描述我们拥有的所有数据,其核心的目的是降低人与数据之间的沟通成本。描述的越准确,我们使用数据的成本就越低。

  • 业务元数据:与业务规则、流程相关的描述性数据
  • 技术元数据:与存储、访问等技术底层的描述性数据
  • 操作元数据:与数据操作相关的描述性数据
  • 管理元数据:与数据管理相关的描述性数据

    1.3.2.2 元数据分类

    数据化建设知识总览 - 图34
业务需求/需求方 产品开发/实现方 产品运维和使用/操作方
业务元数据 技术元数据 操作元数据
数据集、表和字段的定义和描述 物理数据库表名和字段名 批处理程序的作业执行日志
业务规则、转换规则、计算公式和推导公式 字段属性 抽取历史和结果
数据模型 数据库对象的属性 调度异常处理
数据质量规则和检核结果。 访问权限 审计、平衡、控制度量的结果
数据溯源和数据血缘 数据CRUD(增、删、改、查)规则 错误日志
数据标准 物理数据模型,包括数据表名、键和索引 报表和查询的访问模式、频率和执行时间
特定的数据元素记录系统。 记录数据模型与实物资产之间的关系 补丁和版本的维护计划和执行情况,以及当前的补丁级别
有效值约束 数据血缘文档,包括上游和下游变更影响的信息 数据归档、保留规则和相关归档文件
利益相关方联系信息 文件格式模式定义 服务水平协议(SLA)要求和规定
数据的安全/隐私级别 源到目标的映射文档 容量和使用模式
已知的数据问题 恢复和备份规则 备份、保留、创建日期、灾备恢复预案
数据使用说明 ETL作业详细信息 清洗标准