什么是“定义问题”?

我们如何定义问题,决定了我们会如何解决这个问题。
例如,一个病人说肚子疼,怎么办?

  • 肚子疼 → 止疼药拿去吃!
  • 肚子疼 → 治肚子的药拿去吃!
  • 肚子疼 → 肚子?疼? → 哪里(肚子/胃)疼?什么感觉的疼?什么时候开始疼的?

这是种常见的内行服务外行的情况。讲清楚问题是一个内行才有的能力,所以不要轻信外行的要求,要去理解他们的处境,分析他们的需求。

定义问题的步骤

  1. 清晰描述问题:用专业的维度描述问题,消除不确定性,剔除伪命题
    1. 哪疼?(确认具体位置)
    2. 这些地方疼不疼?(不会只按一个部分,而是周边部分都确认一遍)
    3. 这样疼的厉害些吗?(用力按,确认是肠子疼还是肌肉疼)
    4. 什么时候开始疼的?连续性疼还是周期性的?(排查原因)
    5. 肚子疼之前有吃过什么?做过什么事情?(排查原因)
    6. 之前有没有疼过?有没有做过手术之类的?(排查原因)
  2. 划分问题边界
    例:一个7岁的宝宝,每天7点钟准时肚子疼,其他时间吃喝跑跳完全没问题,肚子疼的位置每次都不一样,按下去还疼得轻重不一。请问他肚子有什么问题?
    医学问题,医学解决;不想上学的问题,棍子解决。
  3. 区分问题类型:要具体到一个很明确的问题,才能做针对性解答
    定义问题,设计方案 - 图1
  4. 明确输出产物:有可能需要多次跟进,每一次的开始结束要有明确标准
    1. 已诊断:喝凉水过多引起的急性肠炎,挂点滴。因为是急性病,挂完点滴不要立即走,留下观察2小时内,止疼止泄以后可离院。
    2. 万一有不良反应:送急诊抢救,专家会诊。

所谓“定义问题”,就是:

  • 把一个日常发生的具体事件,转化为要解决的问题
  • 用清晰的描述和具体的数据,替代随意的、口头的表达
  • 用专业的判断,定义问题的发生场景,问题类型
  • 预判解决问题的方向,设定评价标准,管理期望值

数据分析中的“定义问题”

  1. 清晰描述问题:要分析的事情,而不是分析方法
    1. “做聚类分析”——对着《统计学》书做!
    2. 不清晰业务模式的,先整明白业务模式是什么(这就是为什么要先讲能力一,连业务是啥都不知道,分析个啥)
    3. 清晰业务模式的,描述清楚问题是哪个部门,什么时间,什么区域发生的(这就是为啥要先讲能力二,基础的取数时间,对象要搞清楚)
  2. 划分问题边界:到底是不是数据分析可以解决的问题
    1. 数据分析可以解决的:是什么,为什么,会怎样(设想 → 分析 → 执行)
    2. 数据分析不能解决的:想不想,怎么做(设想 → 分析 → 执行)
      1. 设想的问题,可以转化为分析问题
        1. 原问题:我要不要买房(设想)
        2. 转化问题:我下不了决心买房,是因为我担心父母反对,筹不够首付
          1. 子问题1:目前欠多少首付,是否真实需要找父母筹钱(“是什么”问题,属于分析问题)
          2. 子问题2:除了父母,是否有其他渠道可以筹钱(执行问题,非分析)
        3. 输出目标:“父母反对就无法筹够首付”是否是个真命题。是,想办法解 决;否,不要纠结了
      2. 执行的问题,可以转化为分析问题
        1. 原问题:我要怎么买房 (第一步:去售楼处,第二步:掏钱,第三步,拿钥匙)
        2. 转化后问题:我要怎么最低融资成本的买房
          1. 子问题:有哪些融资渠道(执行问题)哪个成本最低(“是什么”问题,属于分析问题)
        3. 输出目标:估算成本,在ABCDE个渠道中选最低的那一个
  3. 细分问题类型:是什么,为什么,会怎样,到底归属哪一类
    1. 如果不清楚现状 (描述性统计)→ 是多少
    2. 如果想给现状找标准(什么算好,多少算好)→ 是什么
    3. 如果想给现状下判断(好坏,多少,涨跌,类别)→ 是什么
    4. 如果想多个方案选一个 (根据标准打分)→ 是什么
    5. 如果想知道问题原因 → 为什么
    6. 如果想预测未来 → 会怎样
    7. 问题很复杂的时候,需要多个分析层次,比如分析下当前的销售情况
      1. 描述现状:卖了多少,销售金额,变化趋势
      2. 树立标杆:根据历史习惯/KPI达成率/领导期望判断到底算不算好
      3. 下判断:好的话,能不能持续;不好的话,为什么不好
      4. 好的话,为什么能持续:先找好的原因,再看能否持续
      5. 不好的话,为什么不好:先找到问题点,再看原因
  4. 明确输出产物**:如何判断每一步分析得准不准?**
    1. 是多少 → 数据,数据报表
    2. 是什么 → 判断标准,判断依据
    3. 为什么 → 原因1 ,原因2,原因3,原因4,哪个原因影响最大
    4. 会怎样 → 预计1 ,预计2,预计3,预计4

1. 清晰描述问题

如果有人让你分析下现在的房价,你会怎么分析?

  • 城市(一线,一线卫星,二线,区域中心,净流出地)
  • 区域(CBD,新区,老区,近郊,远郊)
  • 资源(交通,教育,医疗,其他配套)
  • 产品(产权,楼龄,朝向,户型,景观)

讲完房价类型,很多人自己都会分析了。
很多情况下,能描述清楚问题,就完成了八成分析,因为这些指标背后带有明确的业务含义。这也是为什么描述性统计,取数占了数据分析师八成时间。

基本:4W1H

When,who,where,what,how。没有why和how much。
因为4W1H是在描述问题本身,是描述性的内容,而why是问题原因,是分析要干的事;how much是对问题程度的判断,也是分析干的事。

进阶:找到关键业务指标

比如影响房价的关键要素:

  • 城市:一线,一线卫星,二线,区域中心,净流出地
  • 区域:CBD,新区,老区,近郊,远郊
  • 资源:交通,教育,医疗,其他配套
  • 产品:产权,楼龄,朝向,户型,景观

分两个层面描述影响业务的关键因素:

  • 宏观层面:行业、部门、业务模式(能力一)
  • 微观层面:流程,操作,数据记录(能力四)

步骤:

  • 先确认行业,部门
  • 再看问题细节
  • 再确认指标
  • 最后才分析问题

2. 划分问题边界及转化问题

设想类问题

明显的标志:“我想,我觉得,我要不要……”
潜伏的标志:在对问题做描述的时候,缺乏事实,充斥个人感觉

  • 为什么许多优秀的女生找不到对象?
  • 为什么我认为许多优秀的女生找不到对象?

所以,遇到设想类问题,首先要确认真实性。先问是不是,再问为什么。

  • 没有事实依据 → 呵呵,你爱怎么认为怎么认为
  • 有事实依据 → 转化为分析问题
    • 我觉得房价会跌 → 目前有没有在掉的?(是多少)
    • 我觉得房价会跌 → 最近3年内波动幅度有多少?(是多少)
    • 我觉得房价会跌 → 一般房价什么情况会掉?(为什么)
    • 我觉得房价会跌 → 上次房价跌的时候有什么特征?(是什么)

用数据替代感觉,用分析过程替代愿望。

执行类问题

“怎么做”的问题,都是执行问题。

  • 执行人:谁来做
  • 执行方式:怎么做
  • 执行目标:做到什么程度

以买房为例:

  • 执行人:我有多少钱(现金,工资)?
  • 执行方式:什么渠道买?什么方式融资?
  • 执行目标:投资?自住?婚房?养娃房?改善房?


接下来如何转化成分析问题?**

  1. 如果还不知道怎么执行,找样板参考,做描述性统计(是多少)。

    “我不知道我这个收入该怎么买房”:

    • 小A和你收入差不多,他工资XXX现金XXX,买的XX地方的房
    • 小B也和你收入差不多,她工资XXX现金XXX,买的XX地方的房
  2. 如果知道怎么执行,意味着有选择,可以评估选择的优劣(是什么)。

    “我看中两套房,不知道怎么挑”

    • A房 VS 目标
    • B房 VS 目标

这其实是两个问题。第一个问题是,我们要看哪些指标?第二个问题是,这些指标的标准是什么?
做评估先定标准,这是个两阶段分析,不能一步到位。

  1. 如果知道可以怎么做,但执行出现问题,可以找原因(为什么)。

    “我不知道为啥我爸不肯出钱,首付不够咋办?”

    • 搞得掂老爸 → 分析老爸不给钱的原因 → 晓之以情动之以理 分析类问题
    • 搞不掂老爸 → 还有哪些融资渠道? → 找别的融资渠道 执行类问题

找原因,向着推动执行的方向找。原因本身不重要,能执行下去最重要。

  1. 一个隐藏的分析:目标和现状不匹配。

    “为啥我同学都买房了,我却买不起” 羡慕互联网企业高薪,忽视公务员福利;你才毕业一年,家里非官非富,买不起也很正常。

3. 细分问题,构建思路

将设想和执行类问题,转化为分析类问题后,再将分析问题细分到有明确输出的程度,依次分析是多少、是什么、为什么、会怎样。

我目前月收入10000,家里可以出30万,想在广州离珠江新城地铁1 小时以内的区域买房,可以怎么买?

  1. 评估财力(输出:可以承担多少房价) 分析类问题
  2. 找房源,范围内有多少可承担的起的房子 执行类问题
  3. 确认标准(输出:主要考察哪些指标,是否有必选项) 分析类问题
  4. 综合评估(价格,距离,户型,配套) 分析类问题

设想类问题的思路

定义问题,设计方案 - 图2

分析类问题的思路

定义问题,设计方案 - 图3

执行类问题的思路

执行类问题首先要确认是谁来做,不同的人权限不同。然后再确认是否有目标。 定义问题,设计方案 - 图4

4. 确认输出形式,规划资源投入

  1. 是多少:输出数据或数据报表。注意表格格式。难度不大,但若不符合格式要求,可能要返工。
  2. 是什么:输出判断标准或判断依据。注意提前统一标准。

    分析前:“为什么销量下降了,分析下” 分析后:“老板说了,这点下降幅度属于正常波动,不纠结”

这种亏吃一次就够了,到底标准是同比,环比,KPI完成率还是老板心中的一个数字,一定要提前问清楚。

  1. 为什么:输出原因,并分析哪个原因影响最大。

在“为什么”的需求中,往往隐含了对“是什么”和“怎么办”的需求,所以分析前先问清楚是否有那些需求。

事前:“帮忙分析下这个月活跃率下降的原因” 事后:“哦,原因是这几个,那我要怎么做呢?”

比如发生产品改版这种大动作,必然会影响用户行为,不同部门有不同的职责和对策。

  1. 会怎样:输出预测结果。注意区分时间状态。预测需要预测场景。

    口头:“看一下过去XX时间内有消费的用户,他们的消费习惯” 心里:“未来这批人还一样会消费吧” 过去的消费行为就是过去的,不代表未来也是这样。

  2. 面对多步骤的复杂问题,每一步结束后小结。比如做一个会员制度优化项目,一般有如下几步:

    1. 现状有什么问题(为什么) 汇报节点
    2. 未来准备达到什么目标
    3. 有哪些优化方案
    4. 每个方案预计带来的效益(会怎样) 汇报节点
    5. 综合评估,最后选哪个方案(是什么) 汇报节点

切忌憋大招,一定憋死掉。比如专题分析,很多分析师喜欢憋一个前无古人后无来者的答案。特别是模型项目,很多同学醉心建模,忘了时间进度和待解决的问题。
在企业里,解决问题的时间是有限的,有可能过几个月问题都变了。越是复杂问题,汇报的次数一定要越多,每个月汇报2次阶段性成果。

“定义问题”的重要性

第一,许多数据分析师脑子只有数据,没有业务问题,一提到“数据分析”就联想到一大堆指标的计算。
指标只是分析的起点,终点是解决一个个具体问题。
指标: 定义问题,设计方案 - 图5问题:

  • 为了让平台销量打败京东,应该配多少SKU?
  • 为了减少库存积压,应该控制在多少SKU以内?

例如,医疗精准营销怎么做?
罗列基础信息、浏览行为、搜索行为、挂号行为、体检行为这一长串数据指标,是没有用的。

  • “如果做关联分析的话,只要订单数据就够了”
  • “如果做慢病管理的话,只要基础信息+挂号行为就够了”
  • “如果做联合用药的话,只要搜索行为就够了”

当清楚明白要解决什么问题时,往往几个指标就足够了。

第二,只记得找数据,忘了分析。最常见的就是抱怨“这个月销量又低了”。
那么问题来了,“凭什么这个月销量不能低?” “如果不能低,多高算是高?” “持续低还是偶然低?”
销量多少只是一个数据,销量低是一个结论,给结论之前需要分析。
例如:

“做智能设备的分析,我把做智能设备的企业分作三类,发现他们主打的卖点都是高科技,没有安全。我就觉得可以从安全切入……”

分析的过程呢?

  • “是什么”,凭什么可以分三类,有什么特别?
  • “为什么”,为什么安全就可以切入了?只是因为没人做吗?有想过他们是做不了还是忽略了吗?

正确的做法是:

从业务模式上看……从销量、产品上看……从未来合作前景上看……综合三个维度,有三类企业特点突出,我把做智能设备的企业分作三类。我发现他们主打的卖点都是高科技,没有安全。 安全这个点,本身很有市场,不做安全这个点,会失去一些市场。综合测评,发现做安全可争取到XX客户,能达成目标。而且,在非安全领域,我们很难和别人竞争。我觉得安全是个很好的切入点。

第三,只会扒拉数据,不会解决问题。脑子里只有数据,没有策略,区分不了什么是分析,什么是执行。
遇到执行问题,要先知道怎么做,才能知道到使用哪些数据。
新手找模型,老手找指标,高手找问题。

锻炼定义问题的能力

定义问题是新人们最弱一环,有以下几点原因:

  1. 平时取数多,思考少,不知道数据啥用
  2. 偶尔做专题,没有清晰思路,往往一锅炖,既想找原因,又想找方法
  3. 知识积累少,分不清是否是真实问题,也想不到该做什么
  4. 不会和需求部门沟通,更不敢主动提分析思路,他们说啥就是啥

最好的方法是复盘,而不是学现成的套路。
复盘的关键,是理清“数据”与“用途”之间的关系,找出规律。比如XX部门的XX岗位,看了XX数据,有XX用途。专题分析的用途比较清晰,然而大部分同学还是在跑数,所以得自己总结用途。

  • 专题类、模型类工作:目标集中,容易总结经验
  • 报表类、取数类工作:目标不明,需要自己提炼


专题类本身有个题目,比如用户流失原因分析,销售下降问题分析, 促销活动响应分析等等,因此容易归类到是什么,为什么,会怎样里;模型类一般有明确方向,比如有\无监督分类问题,综合评分问题, 预测问题,也容易归类。因此,复盘这两类工作,关键是抓主线和思路,先找到方向。

专题类复盘基本格式

分析目标:找到销量下降原因,并提出提升销量建议。
分析思路:

  1. 清晰描述问题(描述性统计)
  2. 判断问题严重性(是什么)
  3. 寻找问题原因(为什么)
  4. 评估提升策略(是什么)

分析结论:销售下降原因有X条,最重要的是XX,策略评估中XX策略更优。

模型类复盘基本格式

分析目标:预测用户促销响应率。
分析思路:

  1. 判断模型类型(二分类问题,逻辑回归)
  2. 制作与选择特征
  3. 构建模型
  4. 检验效果

分析结论:预测准确率为X%,模型可稳定使用。

报表类复盘

只有报表,是不知道有啥用处的。想知道报表的用途,得干三件事:

  1. 了解 业务流程 (为什么监控这几个指标,监控了有什么用)
  2. 了解 常规趋势 (老业务看三年比,新业务看环比增速)
  3. 了解 异常波动 (多大范围算波动,异动时会再看哪些指标来检验)

    基本格式:针对指标构建问题

    我是XX行业的XX企业,我服务XX部门,他们监控指标一般看X个维度,这X个维度的用处分别是XXX,XXX……

先明确报表的基础用途。

基本格式:针对规律问题

我们的销售一般是1、3月高,春节低,4、5月有个小高峰,6、7、8平着走,9月开始提升,11、12月冲业绩 我们的用户结构是埃菲尔铁塔型的,TOP10%提供60%收入 我们的产品3个月留存率是5%

掌握了规律,才能快速地定义新问题,这是分析的知识积累。

基本格式:针对波动问题

一般销量波动大于X%算是不正常。波动大于X%的时候需要找到原因,一般从X方面找 最快速提升销量的方法有三种,分别是A、B、C……

有了标准、初步的原因假设、解决问题的手段,定义问题时就能得心应手。

讲一个故事

最终输出产物是一个完整的故事:

XX行业销售一般看5个维度,一般规律是XXX,如果波动大于X%就要预警,可以从X个方面关注。 所以现在的问题是什么?我们可以针对解决…… …………

准备至少1个专题分析的分析思路,1个报表的思路,参考上文中的格式。
如果能讲清楚一个案例没有破绽,至少这一个案例里的几个环节是定义清晰的。