这是数据仓库详细介绍的最后一篇,后续还会在补充一些,把遗漏的或者没讲清楚的追加进来。

1. 前言

数据仓库是一种数据管理的方法论,理论概念很早就提出来了,而且各个行业都有广泛深入的应用。因此到目前为止该方法论的理论和实践体系已经非常完善了。深入了解过数仓而且有一定实践经验的人,应该能够在数据中台、数据治理、数据资产管理、数据中心,以及 DAMA、DCMM 等知识体系中,看到许许多多的数据仓库的知识。

任何的数据管理活动都应该是带有功利性的,企业不可能铺好多人力耗费很多资源,然后花上好几年,却看不到与之匹配的产出(部分项目制的项目除外,有的甲方建数仓目的就是提前的把数据归集管理起来然后象征性的出些低频使用的报表或者大屏)。

因此,不管数据应用是否属于数据仓库范畴,做为数据仓库从业者都要把数据应用摆在最最重要的位置,所有数据管理工作也都应该优先服务于上层的数据应用。

数据仓库详细介绍(二.架构)
image.png
通用的数仓业务架构

左边的资产管理我们后续会专门补一篇,本篇我们主要分类介绍下右边的数据应用。

主要分两个角度展开:

  1. 数据如何发挥价值?
  2. 常见的数据应用有哪些?

2. 数据如何发挥价值

image.png

了解现状

主要是通过各种运营分析报表以及对应的图标展示,报表主要是各种维度下的日周月季年汇总,图标主要是占比分析、同比环比分析等。

辅助决策

经典案例就是“啤酒尿布的故事”。上世纪 90 年代(大概 1993-1995 年之间吧),沃尔玛尝试将 Aprior 算法引入到 POS 机数据分析中(实际上是一种商品的关联分析算法),当时发现跟尿布一起购买最多的商品竟然是啤酒,最后经过进一步市场调研发现,美国的太太们经常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫在买完尿布后又随手带回了他们喜欢的啤酒。后来,沃尔玛把尿布与啤酒放到相邻的货架上从而实现了啤酒与尿布销量的双双增长。

预测未来

通过对现有数据的分析挖掘,有时候是可以预测出通过改变某个变量后对结果的影响的。

比如通过对商品价格的调整,会引起销量的变化,最终通过合理的定价达到利润或销售额最大化的目的。

上图还列了一个我刚毕业时候做过的一个案例:废水经过污水处理厂处理后最终都会流到附近的某条河里,污水处理厂的出口会有水质检测设备,每条河流上也会有若干个水质检测站,因为水质的自然净化因素,距离检测站点越远对水质检测结果的影响越小。当时我们通过一个数学模型去预测想要保证某个检测站点主要污染物含量达标,结合其上游临近的若干个污水处理厂的距离,反推各个污水处理厂出口需保证的水质标准。

还有我们之前做过的一个院线行业项目:总部需要根据不同影片的热度、放映天数、影片引入协议条款、相似影片历史票房走势等预测影片大致票房,用于辅助影院经理日常排片决策。

精细化运营

推荐系统将合适的信息推荐给合适的人提高用户体验增强用户粘性。

用户画像在用户运营的整个生命周期(拉新、活跃、付费、留存、召回等)都起到关键性的作用。

策略分析对大量的底层数据进行分析挖掘,指导产品设计和用户交互设计等。

商业化变现

在之前的传统数仓时,就有人考虑拿自己的数据去跟其他团队去做交易,以换取自己需要的其它数据,或者在保证数据安全的前提下把多个不同组织的数据汇集到一个权威公立的平台,进行联合建模,大家各取所需。

移动互联网时代,天上真的会掉馅饼了,也出现了很多免费的午餐。一方面是通过砸钱快速占领市场,另一方面是要搜集极可能多的数据,市场占有率和海量的数据通常带来的是天价的估值。

海量的数据搜集进来后,很多公司会基于这些数据做深入的分析加工,提炼出有价值的信息,在数据合规的前提下进行售卖,比如分析报告、标签结果,或者对外直接提供数据营销服务帮助广告主获客。

3. 常见的数据应用有哪些

运营分析系统

数据应用特别是数仓应用,大家首先想到的都是先做一批报表,方便一线业务、各级别领导及时的查看业务发展。我们需要深入的与相关负责人沟通确认需求,尽量让他们参与进来。

完成经营分析系统需求的同时,我们也需要面向中短期规划,完成数据仓库底层能力的建设。
image.png
上图的黄色和蓝色部分是该阶段的重点实现目标,运营监控和部分数据服务也可以做一些,这些需要根据业务那边的优先级去做取舍,数仓er切不可想当然。

专题分析

我们需要带着目的去做专题分析,将业务目标拆解成一个个可量化的业务指标,抓住核心指标努力去提升它,从而带动业务增长,实现精细化运营。
image.png
image.png
image.png

综合发布系统

我刚毕业做的那个项目就叫做“*数据中心和综合分析发布系统”,今年杭州市也对外开放了部分政务数据,凡是符合条件的公司都可以到该平台获取数据。

该系统会做为统一的对外数据出口,展现形式可以是表格、文件、接口、数据报告等等。

用户画像

用户画像就是分析用户群体的物理属性、行为数据等,给相似的用户群体打上一系列标签,以便我们更深入的了解客户偏好和行为习惯,从而更加精准的开展获客和运营,拿更少的投入取得更大的增长。

4. 最后的话

以上介绍的,只是我过去项目上的经验,相信其它公司也会有别的更好的数据应用。

我接下来也希望能在这方面做点事情,希望能与广大网友做更深度的链接,我们共同成长。

到此“数据仓库详细介绍”系列终于更新完了,后续我还会再补充两篇:数据资产管理、数仓建模维度和事实详解。

感谢大家!