数据库
特征
- 存储二元关系
- 结构化程度高、独立性强、冗余度低
结构化数据和非结构化数据
结构化数据:(Structured Data)
存储在数据库中,是行数据,可以用二维表结构来逻辑表达实现的数据。
非结构化数据:(Unstructured Data)
不方便用数据库二维逻辑来表现的数据
(eg:所有格式化的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息)数据库分类

- 两类数据库在技术和功能上差别巨大,进行物理隔离。
操作型数据库:面向应用型数据库
用于业务支撑,比如Oracle、MySQL、SQL Server
用于业务支撑,数据库保存着公司的日常操作数据。
特点:
数据:
- 数据时间:一般存放90天以内的数据
- 数据细节:存放细节数据(对于汇总需求,不存储数据本身只存储生成公式,每次查询时动态生成汇总数据)
- 数据时间:反应的是现实世界的当前状态
- 数据查询:数据量少,频率多。
技术:
- 允许增删改查
- 减少数据冗余,避免更新异常
功能:
- 使用者:业务环境中的各个角色(用户,商家,进货商等)
-
分析型数据库:面向主题型数据库
用于历史数据分析,数据库作为公司的单独数据存储,可利用历史数据对公司各主题领域进行统计分析。
特点:
数据: 数据时间:一般存放数年的数据
- 数据细节:存放细节数据+汇总数据,重点关注的是汇总数据,存储汇总数据
(对于分析型数据库,汇总数据比较稳定不会改变,时间跨度大导致计算量也比较大,汇总数据事先计算好,避免重复计算)
- 数据时间:既有当前,又有过去时刻的快照,数据库的使用者可以综合所有快照对历史阶段进行分析。
- 数据查询:数据量多,频率少
技术:
- 只允许查。
- 没有数据更新操作,不需要过度考虑减少数据冗余
(eg: 数据仓库(与分析型数据库,关系紧密) 关系表不完全满足完整/参照性约束,也不要求满足范式要求,只提供查询接口,不提供更新接口,eg:Hive)
功能:
- 使用者:用于综合性决策分析。
-
OLTP / OLAP
OLTP(Online Transcation Processing 联机事务处理):
数据库的增删改查,要求查询速度很快并且是高可靠的在线操作,涉及的数据量不会特别大
- 应用于高并发但是数据量不大的查询,主要用于管理事务(transaction-oriented)
- 以实事对象模型来存储数据,满足范式要要求
OLAP(Online analytical Processing 联机分析处理)
- 查询频率低,通常涉及复杂的聚合计算
- 以唯独模型来存储历史数据,主要存储描述性的数据并且在结构上是同质的
-
数据仓库(Data Warehouse)
定义:
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定。
特征:
面向主题:数据仓库内的信息是按主题进行组织的,而不是像业务支持系统那样按照业务功能进行组织的。
集成性:数据仓库讲不同源数据库中的数据汇总到一起(注意是经过加工整理汇总的,不是简单的抽取)
企业范围:数据仓库内的数据是面向公司全局的
历史性:数据仓库的时间跨度通常较长
时变性:时变性指的是数据仓库包含来自其时间范围内不同时间段的数据快照。
数据仓库构成: 数据仓库平台逐渐从BI 报表为主到分析为主,到预测为主,再到只能操作为目标
- 数据仓库的核心组件有四个:业务系统各源数据库、ETL、数据仓库、前端应用
目的:
- 研究数据之间的关系,挖掘数据隐藏的价值,需要使用OLAP为决策者提供可靠的数据分析,探究深层次的关系和信息
- 不同的数据库之间做不到数据共享,最主要的问题是庞大的数据如何有效的合并存储.
- 数据仓库
数据集市
一般是数据仓库子集,数据来源于 数据仓库+其他源
定义:
数据集市可以理解为一种”小型的数据仓库”,它只是包含单个主题,并且关注范围也并非全局。
分类:
- 独立数据集市(indepdependent data mart): 这类数据集市有自己的源数据和ELT架构
非独立数据集市(depdependent data mart):数据集市没有自己的源系统,数据来自数据仓库。
数据湖
数据仓库(有目的构建): ETL,加工完再进行数据库放入。
数据湖 : ELT,先存放,根据使用再进行加工。
定义:
数据湖(Data Lake)是一个存储企业各式各样原始数据的大型仓库,其中的数据可供存取、处理、分析以及传输。数据湖是以其自然格式存储的数据的系统或者存储库,通常对象是blob或文件。
目前,HDFS是最常见的部署数据湖的技术(数据湖是一个概念,HDFS 是实现这个概念的技术)
特点:数据获取方面: 获取的机制是多样的(批处理/流处理等);获取不同类型的数据(结构/半结构等);获取原始数据的副本,不进行处理。
- 数据处理方面:先获取数据,然后再进行处理;完善的数据管理能力(元数据管理,数据格式,链接,权限等);完整的数据生命周期管理能力,分析过程可追溯;完善的数据获取和数据发布能力
- 数据存储方面:可以存储海量数据
- 数据分析方面:具备多样化的分析能力,包括但不限于批处理、流式计算;
与数据仓库的差异性:
- 数仓必须处理历史的、结构化的数据,且这些数据必须与数仓事先定义的模型吻合;数据湖可以处理所有类型的数据,包括非结构化数据,数据的类型依赖于原系统的原始数据格式。
- 数仓处理结构化数据,将其转换为多维数据或者报表,用以满足后续的高级报表和数据分析需求;数据湖拥有强大的计算能力用于处理和分析所有类型的数据,分析后的数据也会被存储。
- 数仓通常存储和维护长期数据,因此数据可以按需访问;数据湖包含信息更多,这些信息有大概率被访问(不一定),为企业挖掘新的运行需求。
数据中台
与数据仓库的概念界定
- 数仓是数据中台的一个重要组成部分,也是元数据的一个重要来源
- 数据中台,不同于数据平台,在业务侧包含数据触手(埋点),数据接入(标准化)、数据仓库(抽象化)、数据治理(可靠性)、数据服务(产品化),整体是一个闭环的解决方案。
- 数据中台是指数据采集交换、共享融合、组织处理、建模分析、管理治理和服务应用于一体的综合性数据能力平台,在大数据生态中处于承上启下的功能,提供面向数据应用支撑的底座能力。
- 企业级别广义上的定义: 聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念。
- 中台战略核心是数据服务的共享
- 中台战略是构建符合DT时代的更剧本创新性和灵活性的组织机制和业务机制,实现管理模式的创新。
前中后台 概念界定
前台:由各类前台系统组成的前端平台,每个前端系统就是一个用户触点,即企业的最终用户直接使用或者交互的系统,是企业与最终用户的交点。eg:手机app,微信,公众号等
中台:”中台”提炼各个业务条线的共性需求,并将这些打造成组件化的资源包,以接口的形式提供给前台各业务部门使用,使产品再更新迭代、创新拓展的过程中研发更灵活、业务更敏捷,最大限度地减少”重复造轮子”的KPI项目。
后台:由后台系统组成的后端平台。每个后台系统一般管理了企业的一类核心资源(数据+计算),例如财务系统,产品系统,客户管理系统,仓库物流管理系统等,这类系统构成了企业的后台。后台更多解决的是企业管理效率问题,而中台要解决的才是前台的创新问题。
