什么是 数据需求

在移动互联网年代,数据需求随处可见,以至于我们会忘了这是个需求:

  • 我累死了 > 有多累? > 晒出微信步数:我走了25000步
  • 我在做饭,忙得要死 > 忙什么? > 包了60个饺子,还要再包20个
  • 我很快到 > 多久到? > 我25分钟内到

有精细化管理需要的地方,就有数据需求。没有数据,会让判断/决策失灵。 什么是“数据分析需求”? - 图1有决策的地方就会有数据需求。
数据需求:用数据(非数字)**量化**描述一个具体事务的需求。
企业里有特别多的数据需求:

  • 有好多客户都在投诉了 —— 多少人在投诉???
  • 产品销量好的不行 —— 到底卖了多少?
  • 你们要赶快做 —— 到底要求多少时间内完成?

特别涉及多人合作,分工执行时,就特别需要数据,不然大家就是一团热锅上的蚂蚁。所以总能听到企业里有人在要数据。
量化管理,使工作更高效,决策更精准。

数据需求的基本规范

以女生了解相亲对象为例:

身高多少? 收入多少? 好看吗? 基础指标:年龄、学历、住址、籍贯

什么是“数据分析需求”? - 图2

  • 数据最适合描述的是 连续型变量 ,比如身高(158、159),年龄,工资……
  • 数据可以描述 定序变量 ,比如VP1,VIP2,VIP3。虽然不知道具体高多少,但是次序是明确的:VIP3>VIP2>VIP1。
  • 剩下的是 分类变量 ,比如不同风格的“帅”,没有度量没有次序,只能作为一个个类别,这些类别可作为分析的标签。但这不属于数据需求,属于分类需求,需要人工标注。

一个完整的数据需求,需要有以下基本内容:

  • 取数对象:张小凡
  • 取数指标:身高,年龄收入产负债
  • 取数二级指标:工资收入、股票收入、房产价值、贷款数量、贷款每月还款
  • 用户标签:长相一般但过得去,斯文国个范
  • 当取数不是一个人,而是一群的时候,还能做分类维度
    | 取数对象:XX企业适婚男性 | | 取数指标 | | | | | | :—-: | :—-: | —- | —- | —- | —- | —- | | | 年龄 | 身高 | 学历 | 工资收入 | 房产 | | 分类维度 | 小凡 | | | | | | | | 小李 | | | | | | | | 小王 | | | | | | | | 小陈 | | | | | |


【注意】数据需求的时效性**

  • 过去时:他毕业的时候(具体xx年-xx年)有多少钱?
  • 进行时:他现在(日/月,更新周期)有多少钱
  • 将来时:他以后工资能到多少?(以后多久?考虑不考虑跳槽?)

数据表+时间要求+附加说明(如预测依据),就是完整的数据需求内容了。但是, 数据需求 不是 数据分析需求 。“身高175”只是一个数据,没有说明任何问题。

什么是 数据分析需求

  • 分析问题:分析了什么?疑问、假设、困惑……
  • 分析过程:怎么分析的?推导、思路……
  • 分析结论:结论是什么?不是简单地给出一个数字

数据分析,就是把分析过程、结果进一步量化。
分析可能不需要数据,如柯南破案,但数据分析需要把数据融入其中。

相亲时,女生问男生身高,其实想问的是“适合不适合我”。

  • 他身高多少? > 数据需求,175cm
  • 他高不高? > 数据分析需求
    • “我身高170,男方至少要180往上吧?” > 复杂度1:看一个指标,给一个评价
      • 身高175cm是个数据,“高”是个判断
      • 单维度-定量-评估类分析
      • 分析问题:是否打到某一个评估标准?
      • 分析过程:差异值=标准值-实际值,差异值是否达到标准?
      • 分析结论:是/否达标
    • “我也不知道多高才合适” > 复杂度2:如何给评价制定一个标准
      • 没有标准,先找标准,并且这个标准要得到相关方的认可
      • 分析问题:是否作为参照标准?
      • 分析过程:根据业务场景/经验总结如下……
      • 分析结论:是/否可作为标准
    • “合适不合适?除了身高,富吗?帅吗?学历如何?哪里人?” > 复杂度3:连看n个指标,做一个综合评价
      • 指标太多,就得做个综合判断
      • 综合评估类分析需求,把一堆指标归纳为一个综合性的 定量结果
    • “他是哪一类型的男人?鲜肉/大叔” > 复杂度3:不能用一个数值评价时,就得分类贴标签
      • 综合评估的结果不是一个连续型变量或有序变量(好/中/差),这时候就是一个 分类(分群)问题
      • 如用户细分、用户画像
    • “他这么好,为什么没有女朋友?会不会是有其他问题?” > 复杂度4:我不光想知道他是几分,还想知道为什么?
      • 为什么 > 探索性分析
      • 分析问题:XXX的原因是什么?
      • 分析过程:有/无假设
      • 分析结论:XXX的原因有几种,每一种……
    • “未来这人有发展前途吗?” > 复杂度5:预测未来
      • 会怎样 > 预测问题
      • 分析问题:XXX的未来预计如何?
      • 分析过程:根据趋势/驱动原因,分析推测如下……
      • 分析结论:XXX的未来预计是……

        常见数据分析需求——基本形态

        什么是“数据分析需求”? - 图3在分析实际问题时,光凭表象是不靠谱的,往往需要构建复杂的分析逻辑。

        你为什么不喜欢我? 因为你不是一个金发碧眼的外国人

什么是“数据分析需求”? - 图4

数据分析需求的基本规范

数据分析需求的格式,比数据需求的简单很多。当我们取一个具体的数据时,业务方很可能不清楚数据来源、格式、字段、计算过程。但在数据分析需求中,有对象、有问题、有可量化可记录的数据,业务方只需讲清楚想解决的问题,具体用哪些数据、如何论证问题都是数据分析师考虑的事情。

  1. 有对象(针对XX部门的XX工作)
  2. 有问题(是什么,为什么,会怎样)
  3. 有可量化、可记录的数据

评估类

评估类注意事项

掌握现状和业务方期望
比如,女生问“他够不够高”,至少得知道三个数据才能分析:

  1. 女生身高
  2. 女生期望的身高差
  3. 目标男生的身高

女生身高和期望身高差属于需求范畴,要沟通才能知道。
找到相关方都认可的标准
如果没有标准,就得先制定标准。

  • 根据经验判断:一米八就够高
  • 根据业务场景分析:“你需要什么效果?”“这样能不能接受?”

无论采用哪种方法,都需要需求方认账。
处理问题是否要体现人的意志
评估时(特别是多维度评估)谁说了算最重要。

  • 主观法:人工确认权重(专家法、AHP)
  • 客观法:机器计算,人不参与(神经网络)

无论采用哪种方法,都需要需求方认账。

评估类沟通要点
  1. 有对象(针对XX部门的XX工作)
  2. 有问题(评价做得好不好,得几分,属于什么标准)
  3. 评价标准是否已确认(是,继续;否,先解决标准)
  4. 多指标评价时,权重如何来是否确认(主观/客观)
  5. 业务方期望值(主观上认为好还是不好)

原因类

原因类注意事项

先问是不是,再问为什么

  • 提问要基于事实,而不是瞎猜。如果不清楚现状,先设法搞清楚现状再提问题。
  • 找原因类需求往往是建立在评估基础上的。

确认是否有假设

  • 如果已有假设,直接验证假设。
  • 如果没有假设,先探索可能的假设。

漫无目的的提原因很容易,难在导出结论。
关注可被解决的原因
费力气研究不可解决的问题是自寻烦恼,所以提前知道解决问题的范围很重要。
除非这是一个甩锅的分析……

原因类沟通要点
  1. 有对象(针对XX部门的XX工作)
  2. 有问题(XX问题的原因是什么,XX问题和XX是否有关)
  3. 问题是真实存在(是,继续;否,停止)
  4. 是否有假设(有,验证假设;没有,探索潜在)
  5. 如果发现问题,业务方能有什么解决手段(缩小探索范围,聚焦可改进的措施)

预测类

预测类注意事项

先确认预测的前提
预测的前提越细致,预测的结果越准确。一定要沟通清楚。
预测逻辑要获得业务方的认可

  • 只要业务对未来情况有判断,就基于业务判断进行预测
  • 除非业务完全搞不定,否则不要上类似黑箱的算法
  • 脱离了业务逻辑,预测结果很难落地,而且如果业务不参与,锅全是你的

关注预测结果会导致的行为
例子:下面哪个预测,更容易对控制饮酒产生效果?

  1. 预测:一个人喝酒喝死需要喝多少杯?986525杯。
    应用:我停在986524杯就不会死了。
  2. 预测:一个人一年喝超过多少瓶酒,死亡概率超过50%?不能超过40瓶,折合一天1.5杯。应用:自己喝,一天喝一杯;和朋友喝,一周一场。

    预测类沟通要点
  3. 有对象(针对XX部门的XX工作)

  4. 有问题(XX预计会涨/跌,XX预计数量是多少)
  5. 预测前提尽可能清晰(请尽可能详细的描述XXX的特征)
  6. 预测的基本假设,业务方是否认可(趋势/因果)
  7. 如果预测数量为XXX,业务方相应的有什么行动(确认 容错空间

什么是“数据分析需求”? - 图5