- 数据集成:作为大数据平台上下云的核心枢纽,将不同系统的数据相互打通,实现数据自由离线或实时流动, 并致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动能力,繁杂业务背景下的数据同步解决方案。
- 数据综合治理:数据综合治理涵盖资产全景、数据地图、智能监控、数据质量、数据安全、资源优化等多个功能模块,提供多种聚焦视角来助力构建、管理数据,洞察和挖掘数据价值。可有效支撑离线大数据仓库构建、数据联邦查询和处理分析、海量数据低频交互式查询&智能报表构建和数据湖方案落地。
一、数据分析/挖掘
1、一个完整的数据分析流程
1.1 问题界定
- 边界:明确问题的边界:业务目标、分析目标、结果导向;
- 确定业务的关键指标和逻辑:逻辑细分、维度界定、业务关键指标;
-
1.2 分析模型
基于经典模型
- 5W2H、SWOT、4P管理模型、STAR模型、波士顿五力模型等。
基于业务模型
关系型数据库:Mysql、Oracle、SqlSever
- 键值存储数据库:Redis
- 列存储数据库:HBase
- 面向文档数据库:MongoDB、CouchDB、 Terrastore、RavenDB和OrientDB等
- 图形数据库:Neo4J、ArangoDB、OrientDB、FlockDB、GraphDB、InfiniteGraph、Titan和Cayley等
-
2.2 SQL基本语句
具体SQL操作请参考本文档体系SQL部分
3、统计学基础
3.1 描述性统计
集中趋势:均值、中位数、众数
离散趋势:极差、方差、四分位值、四分位距3.2 推断型统计
概率分布:几何分布、二项分布、破松分布、正态分布
- 假设检验
4.3 数据分析方法
- 描述性统计
- 假设检验
- 信度分析
- 列联表分析
- 相关分析
- 方差分析
- 回归分析
- 聚类分析
- 判别分析
- 主成分分析
- 因子分析
- ROC分析
- 时间序列分析
- 生存分析
- 对应分析
- 决策树分析
5、常见业务分析模型
5.1 RFM模型
围绕客户近期消费时间(R)、消费频率(F)、消费金额(M)三维度对客户分类,对不同客户有针对性营销。
5.2 ABC分类模型
二八定理,分析哪些项目/产品/客户贡献了大部分价值,重点维护。
5.3 漏斗模型
描述将潜在客户逐步变为客户的转化量化模型,分环节层层量化,并量化相邻环节转化率,以针对性提升各环节。
5.4 波士顿矩阵
通过销售增长率和读占有率来分析决定产品结构。
更多分析模型或方法请参考本文档体系的思维模型部分
6、可视化图表
6.1 可视化图表应用
具体请参考本文档体系的可视化部分。
6.2 数据可视化报表逻辑
- 项目背景:简述项目背影,有什么问题,分析目的是什么。
- 现状描述:对当下的数据结果进行阐述,描述性呈现。
- 提出假设:提出可能存在哪些问题的假设。
- 分析思路:将问题细化到指标,再按不同维度层层分解。
- 数据解释:数据来源,如何取样,指标如何定义等科学解释。
- 结果呈现:呈现数据分析结果,验证假设是否正确。
- 分析结论:汇总数据分析的主要结论。
- 建议:数据结论结合业务,提出问题并给出改进方案。
7 数据分析常用工具
不同的场景、业务和团队资源会有较大的差异。最通用的工具就是Excel+SQL+Python。
具体流程场景 | 常用工具或方法 |
---|---|
数据获取 | SQL、Navicat、DataGrip、Python等 |
数据处理/计算 | Excel、SQL、Python(pandas、numpy)、Java、Golang、R等 |
可视化 | Python(Matplotlib)、Excel、PowerBI、Echarts、Antv、Datav、Tableau、FineBI、PPT等 |
BI分析工具 | Tableau、FineBI、PowerBI、QuickBI等 |
报表自动化 | FineReport、Python、Excel(VBA 或加载项Javascript) |
数据挖掘的商业应用
- 需求确认:源于业务、终于业务、价值明确、应用明确
- 数据收集:内部生产数据、内部业务数据、外部保密数据、外部公开数据
- 数据处理:数据真实性、数据逻辑、数据校正、数据清洗
- 数据分析:相关性、数据分布、维度统计、粒度统计
- 特征工程构建:值处理、特征组合、特征选择
- 模型构建:分类、聚类、回归、NLP、时间序列、关系规则
- 模型应用:模型调用、特征调用、数据自更新、模型自学习
- 业务应用:人为先行、算法先行、业务融合、应用自适应
二、可视化报表/BI
1、企业数据分析
1.1 企业数据分析能力金字塔
1.2 数据价值流向
| 数据不可见 | 业务系统 | 传统数仓 | | —- | —- | —- | | 数据可见 | 报表中心 | 大数据平台 | | 数据可用 | 指标体系 | 报表集市 | | 数据价值 | 综合数据应用 | 管理驾驶舱 |
1.3 企业数据分析全景
总览:综合绩效分析、关键业务指标、业务预算执行监控、应收账龄与周转、业绩地图、供应链运营监控
分析体系 | 分析指向 |
---|---|
销售体系 | 销售预测分析 销售绩效分析 销售盈利分析 销售订货分析 产品销售分析 服务销售分析 销售信用分析 应收账龄与周转分析 客户贡献分析 商机漏斗分析 大数据:服务创新 |
财务体系 | 专业财务分析 杜邦财务分析 预算执行分析 财务风险分析 资金协调分析 盈利能力 营运能力 偿债分析 发展能力 成本分析 全面预算分析 |
供应链分析 | 供产销协同分析 供应商绩效分析 采购计划分析 采购执行分析 预付应付分析 静态库存统计 动态库存统计 库存周转分析 库龄分析 |
生产体系 | 物资供需分析 产销协同分析 生产计划分析 生产执行分析 产生能耗分析 生产延期预警 生产质量分析 生产报工分析 生产产值分析 |
1.4 战略经营管理平台功能框架
某软件某公司基于战略经营管理闭环搭建的平台功能框架
2、报表体系
2.1 报表规划
2.2 报表规划维度
2.3 以绩效为核心的报表体系
业务分类 | 市场与客户管理 | 销售与渠道管理 | 采购和库存管理 |
---|---|---|---|
管理层分析 | 市场与竞争对手对手分析 新业务拓展分析 营销费用与业绩对比 客户拜访分析 市场活动分析 客户满意度分析 |
销售渠道分析 销售预测分析 销售网点分析 销售订单多维分析 产品品类销售分析 产品销售组合分析 |
供应商管理分析 经销商分析 存货分析 采购价格分析 货损/质量分析 采购返利分析 采购预测分析 |
操作层查询 | 市场活动查询 现有大客户信息查询 |
销售订单查询 产品价格/折扣查询 |
采购订单查询 库存查询 |
业务分类 | 生产与技术管理 | 财务管理 | 人力资源管理 |
---|---|---|---|
管理层分析 | 产品质量分析 供应链分析 生产力分析 运营成本分析 价值链分析 产品损耗分析 |
资格性支出分析 业绩指标分析 营业费用分析 盈利能力分析 财务预算分析 现金流分析 |
薪酬福利分析 员工成本分析 招聘管理分析 360度考核分析 培训管理分析 员工管理分析 |
操作层查询 | 生产订单查询 产品供应链查询 |
会计核算查询 现金和票据查询 |
员工招聘查询 员工考核查询 |
三、数据平台
1、数据平台介绍
1.1 为什么搭建数据平台
数据仓库 | 大数据平台 | 数据中台 | |
---|---|---|---|
定义 | 面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 | 以处理海量数据存储、计算及流数据实时计算等场景为主的一套基础设施平台。 | 是全域级、可复用的数据资产中心与数据能力中心,提供干净透明智慧的数据资产与高效易用的数据能力。 |
主要能力 | 数据仓库用表的方式规整了数据,实现了企业数据模型的构建。 | 解决了海量、实时数据的计算和存储问题,实现多源异构数据的整合管控。 | 更多是业务应用而不是平台技术,侧重数据治理、资产管理、统一服务。 |
适用性 | 更适合传统数据库离线采集,数据一般为结构化,处理数据量一般在几十T到几百T以内,一般用于满足内部决策支持分析需求。 | 业务越来越复杂,数据量越来越大,异构化、实时海量数据的计算存储压力,原有数据系统不能承受更大数据量的处理,数据处理效率下降。 | 重心放在解决企业逻辑模型的搭建和存储、数据标准的建立、数据目录的梳理、数据安全的界定、数据资产的开放,知识图谱的构建。 |
业务支持 | 离业务端较远,用于支持管理决策分析,业务价值体现依赖诸多因素。 | 距离业务较近,实时性能、大数据等也是为了加快对业务的响应。 | 距离业务最近,加速企业从数据到业务价值的过程。 |
服务方式 | 提供相关分析报表或数据集。 | 提供相关分析报表,数据集,一些API。 | API或其他共享方式的数据服务。 |
1.3 功能架构
1.3.1 数据仓库通用功能架构
1.3.2 大数据平台功能架构
1.3.3 数据中台功能架构
示例
2、数据中台
1、数据中台架构与数据治理流程
2、数据资产体系——规划
2.1 数据资产体系管理架构
2.1 数据资产管理规范
- 数据治理框架
| 管理办法 | 管理流程 | 技术规范及模板 |
| —- | —- | —- |
| 数据标准管理办法
种类数据标准管理细则 | 数据标准管理相关流程 | 数据标准需求审批表 | |
- 数据质量管理办法
- 数据录入维护管理办法
- 数据模型管理办法
- 元数据管理办法
- 数据流管理办法
- 主数据管理办法
- 数据安全管理细则
- 外部数据管理办法
- 历史数据归档管理办法
|
- 数据质量管理流程
- 数据模型管理流程
- 元数据管理流程
- 数据流管理流程
- 主数据管理流程
- 数据安全管理流程
- 外部数据管理流程
- 历史数据归档管理流程
|
- 数据质量度量规则及检验方法模板
- 数据模型设计评审备案申请表
- IT系统改造、新建或变更股产元数据管理审核单
- 元数据专项服务需求审批单
| |
- 数据平台数据交换管理办法
- 数据平台运维管理办法
- 数据平台ETL开发管理细则
- 数据集市管理办法
- 数据仓库管理办法
- 数据库统一运维管理办法
|
- 数据平台数据交换管理相关流程
- 数据平台运维管理相关流程
- 数据平台ETL开发管理相关流程
- 数据集市管理相关流程
- 数据仓库管理相关流程
- 数据库统一运维管理相关流程
|
- T系统改造、新建或元数据日常变更通知单
- 数据交换需求审批表
- ETL编写规范
| |
- 报表需求管理办法
- 数据服务管理办法
- 数据应用手工数据补录管理办法
- 管理驾驶舱系统数据管理实施细则
- 开放数据服务支持系统管理细则
|
- 报表需求管理相关流程
- 数据服务管理相关流程
- 数据应用手工数据补录管理相关流程
|
- 报表新增需求审批表
- 报表变更需求审批表
| | 数据资产管理与应用绩效管理办法 | 数据资产管理与应用绩效管理流程 | 数据资产管理与应用关键指标及计算说明 |
3、数据模型体系——整合
4、数据技术体系——底座
5、数据治理体系——治理
6、数据服务体系
7、数据运营体系——保障
产品运营团队 | 数据研发团队 | 数据委员会 |
---|---|---|
- 落实核心KPI,制定相关流程和平台工具,督促研发团队进行改善。 - 对接业务和技术团队,根据业务架构和路线图,落实具体场景需求和平台建设需求。 |
- 利用技术手段或业务流程改善围绕KPI所涉及的模型因子,如存储量、表分区期、字段空值等。 - 根据需求,设计IT架构并落实具体项目需求。 |
- 与运营和研发团队商讨制定核心KPI以及相关因子并协商达成共识。 - 联合业务和技术制定企业数据战略目标、路线图、业务架构等。 |
3、大数据平台
3.1 大数据平台架构图示例
4、数据仓库
4.1 前期调研
- 业务调研:座谈业务,梳理业务流程,构建概念数据模型,初步规划数仓DW层主题域。
- 需求调研:梳理现有数据需求,收集整理数据和BI报表需求。
- 数据调研:获取每个数据源、结构说明书,整理数据字典,划分每个表的业务线和所属模板,确定每个库、表ODS层的主题域。
4.2 指标梳理
| 步骤 | 主要内容举例 | | —- | —- | | 罗列业务指标 |
- 公司战略目标分解
- 平衡计分卡分解
- 部门指标分解岗
- 位职贵常规指标
- 工作薄弱方面
- 防范性指标
| | 筛选业务指标 | 总体遵循SMART原则
- 少而精原则:二八原则,业务指标能描述80%以上工作
- 结果导向原则:结果优先,产出中确定主次
- 可衡量性原则:时限、数量、质量、成本
- 一致性原则:业务指标与战略指标保持一致
| | 选择权重 |
- 指标数控制在3~8个之间
- 每个指标权重一般不高于40%
- 每个指标权重一般不低于50%
- 权重一般取5的整数倍
- 得分一般利用线性变化算比例
| | 确定衡量指标 |
- 定量指标需列明详细计算公式
- 定性指标提取出评价要素明确衡量标准,让指标有解读的意义
| | 修改确认 |
- 体系价值:可支撑体系内比较
- 合理合规:确认指标合理合规
- 管理价值:是否能支撑上级管理需求
- 拓展价值:是否支持下级部门指标设定
|
4.3 数仓分层
分层 | 全称 | 简介 |
---|---|---|
ADS数据应用层 | Application Data Store eg:建表ads_uv_count表 |
个性化维度汇总层,对于不是特别通用的统计维度数据会放在这一层中,这里计算只有自身业务才会关注的维度和指标。 |
DWM数据中间层 | Data Warehouse Middle | 宽表集市、跨过业务场景、行为数据组装。 该层是在DWD层的数据基础上,对数据做一些轻微的聚合操作,生成一些列的中间结果表,提升公共指标的复用性,减少重复加工的工作。 |
DWS数据汇总层 | Data Warehouse Service eg:建表dws_uv_detail_day |
轻度聚合对DWD 订阅明细层数据后,会在实时计算任务中计算各个维度的汇总指标。如果维度是各个垂直业务线通用的,则会放在实时通用汇总层,作为通用的数据模型使用。 |
DWD数据明细层 | Data Warehouse Detail | 标准化、维度补全、异常处理 是在ODS层基础上,根据业务过程建模出来的实时事实明细层,对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据,行式存储改为列存储,改压缩格式) |
DIM公共维度层 | 实时维表层的数据基本上都是从离线维表层导出来的,抽取到在线系统中供实时应用调用。 | |
ODS原始数据层 | Operational Data Store | ODS层属于操作数据层,是直接从业务系统采集过来的最原始的数据,包含了所有业务的变更过程,数据粒度也是最细的 |
四、数据治理
确保数据在全生命周期内的高质量,支撑价值化应用企业数据资产管理的基础,助力数据资产化集中管控。
1、数据治理体系
1.1 总体框架
1.2 组织架构——推行保障
1.3 数据治理核心模块
1.3.1 数据标准管理
保障数据内外部使用和交换的一致性和准确性的规范约束。
1.3.1.1 数据标准分类
1.3.1.2 数据标准框架
1.3.1.3 数据标准设计流程
1.3.1.4 数据质量指标
有参考电子政务数据建设规范
分类 | 指标名称 | 描述 | 举例 |
---|---|---|---|
规范性 | 数据标准化 | 数据在命名、创建、定义、更新和归档时遵循的标准,包括国际标准、国家标准、行业标准、地方标准或相关规定等。 | 国家行政区划、行业分类编码等应该参考国标 |
规范性 | 数据格式规范性 | 数据格式(包括数据类型、数值范围、数据长度精度等)是否满足预期要求。 | 示例:性别一栏不能出现男/女以外的内容;身份证号不能出现标点符号;以及对字符编码的一些限制,都需要通过规定内容的格式来实现 |
完整性 | 个别完整性 | 必须列中不可为空 | 列值不能为空 |
完整性 | 条件完整性 | 根据条件列值必须始终存在 | |
唯一性 | 单独唯一性 | 列必须为唯一值 | 唯一标识列值必须唯一,不能重复 |
唯一性 | 条件唯一性 | 根据业务条件,列值必须唯一 | |
一致性 | 数据格式一致性 | 列值数据格式保持一致,额外的转换处理会增加成本和风险 | 反例:日期有2007年下半年、2010年1月、2013.1.4等多种格式 |
一致性 | 相同数据一致性 | 同一数据在不同位置存储或被不同应用或用户使用时,数据的一致性﹔数据发生变化时,存储在不同位置的同一数据被同步修改 | |
一致性 | 关联数据一致性 | 根据一致性约束规则检查关联数据的一致性 | |
一致性 | 基准代码一致性 | 当列以整合代码作为基准代码加以应用的时候,要保证其参照一致性 | |
一致性 | 数据流一致性 | 数据产生或加工之后数据发生移转的时候,相关的数据必须保持一致 | |
有效性 | 值有效性 | ||
有效性 | 时间有效性 | ||
有效性 | 范围有效性 | ||
正确性 | 数据正确性 | 是否预期数据 | |
正确性 | 数据内容正确性 | 数据内容是否是预期数据 | |
正确性 | 数据重复率 | 特定字段、记录、文件或数据集意外重复的度量 | |
正确性 | 脏数据出现率 | 正确字段,记录、文件或数据集之外无效数据的度量。 示例:事务发生回滚时由于回滚机制不健全或不完善导致可能出现脏数据 |
反例:姓名列有张三1、李四2、aadd |
1.3.2 元数据管理
1.3.2.1 元数据管理框架
1.3.2.2 元数据概念
元数据是描述数据的数据,主要作用是让数据相关方了解数据如何生产、如何定义、如何分布,如何演变,数据之间有什么关系,以及相互之间的影响。可以为数据说明其属性(名称、大小、数据类型等),或结构(字段、类型、长度等),或其相关数据(位于何处、拥有者、产出任务、访问权限等),包括对数据的业务、结构、定义、存储、安全等各方面对数据的描述。为了准确的描述我们拥有的所有数据,其核心的目的是降低人与数据之间的沟通成本。描述的越准确,我们使用数据的成本就越低。
业务需求/需求方 | 产品开发/实现方 | 产品运维和使用/操作方 |
---|---|---|
业务元数据 | 技术元数据 | 操作元数据 |
数据集、表和字段的定义和描述 | 物理数据库表名和字段名 | 批处理程序的作业执行日志 |
业务规则、转换规则、计算公式和推导公式 | 字段属性 | 抽取历史和结果 |
数据模型 | 数据库对象的属性 | 调度异常处理 |
数据质量规则和检核结果。 | 访问权限 | 审计、平衡、控制度量的结果 |
数据溯源和数据血缘 | 数据CRUD(增、删、改、查)规则 | 错误日志 |
数据标准 | 物理数据模型,包括数据表名、键和索引 | 报表和查询的访问模式、频率和执行时间 |
特定的数据元素记录系统。 | 记录数据模型与实物资产之间的关系 | 补丁和版本的维护计划和执行情况,以及当前的补丁级别 |
有效值约束 | 数据血缘文档,包括上游和下游变更影响的信息 | 数据归档、保留规则和相关归档文件 |
利益相关方联系信息 | 文件格式模式定义 | 服务水平协议(SLA)要求和规定 |
数据的安全/隐私级别 | 源到目标的映射文档 | 容量和使用模式 |
已知的数据问题 | 恢复和备份规则 | 备份、保留、创建日期、灾备恢复预案 |
数据使用说明 | ETL作业详细信息 | 清洗标准 |