什么是 数据需求
?
在移动互联网年代,数据需求随处可见,以至于我们会忘了这是个需求:
- 我累死了 > 有多累? > 晒出微信步数:我走了25000步
- 我在做饭,忙得要死 > 忙什么? > 包了60个饺子,还要再包20个
- 我很快到 > 多久到? > 我25分钟内到
有精细化管理需要的地方,就有数据需求。没有数据,会让判断/决策失灵。
有决策的地方就会有数据需求。
数据需求:用数据(非数字)**量化**描述一个具体事务的需求。
企业里有特别多的数据需求:
- 有好多客户都在投诉了 —— 多少人在投诉???
- 产品销量好的不行 —— 到底卖了多少?
- 你们要赶快做 —— 到底要求多少时间内完成?
特别涉及多人合作,分工执行时,就特别需要数据,不然大家就是一团热锅上的蚂蚁。所以总能听到企业里有人在要数据。
量化管理,使工作更高效,决策更精准。
数据需求的基本规范
以女生了解相亲对象为例:
身高多少? 收入多少? 好看吗? 基础指标:年龄、学历、住址、籍贯
- 数据最适合描述的是
连续型变量
,比如身高(158、159),年龄,工资…… - 数据可以描述
定序变量
,比如VP1,VIP2,VIP3。虽然不知道具体高多少,但是次序是明确的:VIP3>VIP2>VIP1。 - 剩下的是
分类变量
,比如不同风格的“帅”,没有度量没有次序,只能作为一个个类别,这些类别可作为分析的标签。但这不属于数据需求,属于分类需求,需要人工标注。
一个完整的数据需求,需要有以下基本内容:
- 取数对象:张小凡
- 取数指标:身高,年龄收入产负债
- 取数二级指标:工资收入、股票收入、房产价值、贷款数量、贷款每月还款
- 用户标签:长相一般但过得去,斯文国个范
- 当取数不是一个人,而是一群的时候,还能做分类维度
| 取数对象:XX企业适婚男性 | | 取数指标 | | | | | | :—-: | :—-: | —- | —- | —- | —- | —- | | | 年龄 | 身高 | 学历 | 工资收入 | 房产 | | 分类维度 | 小凡 | | | | | | | | 小李 | | | | | | | | 小王 | | | | | | | | 小陈 | | | | | |
【注意】数据需求的时效性**
- 过去时:他毕业的时候(具体xx年-xx年)有多少钱?
- 进行时:他现在(日/月,更新周期)有多少钱
- 将来时:他以后工资能到多少?(以后多久?考虑不考虑跳槽?)
数据表+时间要求+附加说明(如预测依据),就是完整的数据需求内容了。但是, 数据需求
不是 数据分析需求
。“身高175”只是一个数据,没有说明任何问题。
什么是 数据分析需求
?
- 分析问题:分析了什么?疑问、假设、困惑……
- 分析过程:怎么分析的?推导、思路……
- 分析结论:结论是什么?不是简单地给出一个数字
数据分析,就是把分析过程、结果进一步量化。
分析可能不需要数据,如柯南破案,但数据分析需要把数据融入其中。
相亲时,女生问男生身高,其实想问的是“适合不适合我”。
- 他身高多少? > 数据需求,175cm
- 他高不高? > 数据分析需求
- “我身高170,男方至少要180往上吧?” > 复杂度1:看一个指标,给一个评价
- 身高175cm是个数据,“高”是个判断
- 单维度-定量-评估类分析
- 分析问题:是否打到某一个评估标准?
- 分析过程:差异值=标准值-实际值,差异值是否达到标准?
- 分析结论:是/否达标
- “我也不知道多高才合适” > 复杂度2:如何给评价制定一个标准
- 没有标准,先找标准,并且这个标准要得到相关方的认可
- 分析问题:是否作为参照标准?
- 分析过程:根据业务场景/经验总结如下……
- 分析结论:是/否可作为标准
- “合适不合适?除了身高,富吗?帅吗?学历如何?哪里人?” > 复杂度3:连看n个指标,做一个综合评价
- 指标太多,就得做个综合判断
- 综合评估类分析需求,把一堆指标归纳为一个综合性的
定量结果
- “他是哪一类型的男人?鲜肉/大叔” > 复杂度3:不能用一个数值评价时,就得分类贴标签
- 综合评估的结果不是一个连续型变量或有序变量(好/中/差),这时候就是一个
分类(分群)问题
- 如用户细分、用户画像
- 综合评估的结果不是一个连续型变量或有序变量(好/中/差),这时候就是一个
- “他这么好,为什么没有女朋友?会不会是有其他问题?” > 复杂度4:我不光想知道他是几分,还想知道为什么?
- 为什么 > 探索性分析
- 分析问题:XXX的原因是什么?
- 分析过程:有/无假设
- 分析结论:XXX的原因有几种,每一种……
- “未来这人有发展前途吗?” > 复杂度5:预测未来
- “我身高170,男方至少要180往上吧?” > 复杂度1:看一个指标,给一个评价
数据分析需求的基本规范
数据分析需求的格式,比数据需求的简单很多。当我们取一个具体的数据时,业务方很可能不清楚数据来源、格式、字段、计算过程。但在数据分析需求中,有对象、有问题、有可量化可记录的数据,业务方只需讲清楚想解决的问题,具体用哪些数据、如何论证问题都是数据分析师考虑的事情。
- 有对象(针对XX部门的XX工作)
- 有问题(是什么,为什么,会怎样)
- 有可量化、可记录的数据
评估类
评估类注意事项
掌握现状和业务方期望
比如,女生问“他够不够高”,至少得知道三个数据才能分析:
- 女生身高
- 女生期望的身高差
- 目标男生的身高
女生身高和期望身高差属于需求范畴,要沟通才能知道。
找到相关方都认可的标准
如果没有标准,就得先制定标准。
- 根据经验判断:一米八就够高
- 根据业务场景分析:“你需要什么效果?”“这样能不能接受?”
无论采用哪种方法,都需要需求方认账。
处理问题是否要体现人的意志
评估时(特别是多维度评估)谁说了算最重要。
- 主观法:人工确认权重(专家法、AHP)
- 客观法:机器计算,人不参与(神经网络)
评估类沟通要点
- 有对象(针对XX部门的XX工作)
- 有问题(评价做得好不好,得几分,属于什么标准)
- 评价标准是否已确认(是,继续;否,先解决标准)
- 多指标评价时,权重如何来是否确认(主观/客观)
- 业务方期望值(主观上认为好还是不好)
原因类
原因类注意事项
先问是不是,再问为什么
- 提问要基于事实,而不是瞎猜。如果不清楚现状,先设法搞清楚现状再提问题。
- 找原因类需求往往是建立在评估基础上的。
确认是否有假设
- 如果已有假设,直接验证假设。
- 如果没有假设,先探索可能的假设。
漫无目的的提原因很容易,难在导出结论。
关注可被解决的原因
费力气研究不可解决的问题是自寻烦恼,所以提前知道解决问题的范围很重要。
除非这是一个甩锅的分析……
原因类沟通要点
- 有对象(针对XX部门的XX工作)
- 有问题(XX问题的原因是什么,XX问题和XX是否有关)
- 问题是真实存在(是,继续;否,停止)
- 是否有假设(有,验证假设;没有,探索潜在)
- 如果发现问题,业务方能有什么解决手段(缩小探索范围,聚焦可改进的措施)
预测类
预测类注意事项
先确认预测的前提
预测的前提越细致,预测的结果越准确。一定要沟通清楚。
预测逻辑要获得业务方的认可
- 只要业务对未来情况有判断,就基于业务判断进行预测
- 除非业务完全搞不定,否则不要上类似黑箱的算法
- 脱离了业务逻辑,预测结果很难落地,而且如果业务不参与,锅全是你的
关注预测结果会导致的行为
例子:下面哪个预测,更容易对控制饮酒产生效果?