什么是“定义问题”?
我们如何定义问题,决定了我们会如何解决这个问题。
例如,一个病人说肚子疼,怎么办?
- 肚子疼 → 止疼药拿去吃!
- 肚子疼 → 治肚子的药拿去吃!
- 肚子疼 → 肚子?疼? → 哪里(肚子/胃)疼?什么感觉的疼?什么时候开始疼的?
这是种常见的内行服务外行的情况。讲清楚问题是一个内行才有的能力,所以不要轻信外行的要求,要去理解他们的处境,分析他们的需求。
定义问题的步骤
- 清晰描述问题:用专业的维度描述问题,消除不确定性,剔除伪命题
- 哪疼?(确认具体位置)
- 这些地方疼不疼?(不会只按一个部分,而是周边部分都确认一遍)
- 这样疼的厉害些吗?(用力按,确认是肠子疼还是肌肉疼)
- 什么时候开始疼的?连续性疼还是周期性的?(排查原因)
- 肚子疼之前有吃过什么?做过什么事情?(排查原因)
- 之前有没有疼过?有没有做过手术之类的?(排查原因)
- 划分问题边界
例:一个7岁的宝宝,每天7点钟准时肚子疼,其他时间吃喝跑跳完全没问题,肚子疼的位置每次都不一样,按下去还疼得轻重不一。请问他肚子有什么问题?
医学问题,医学解决;不想上学的问题,棍子解决。 - 区分问题类型:要具体到一个很明确的问题,才能做针对性解答
- 明确输出产物:有可能需要多次跟进,每一次的开始结束要有明确标准
- 已诊断:喝凉水过多引起的急性肠炎,挂点滴。因为是急性病,挂完点滴不要立即走,留下观察2小时内,止疼止泄以后可离院。
- 万一有不良反应:送急诊抢救,专家会诊。
所谓“定义问题”,就是:
- 把一个日常发生的具体事件,转化为要解决的问题
- 用清晰的描述和具体的数据,替代随意的、口头的表达
- 用专业的判断,定义问题的发生场景,问题类型
- 预判解决问题的方向,设定评价标准,管理期望值
数据分析中的“定义问题”
- 清晰描述问题:要分析的事情,而不是分析方法
- “做聚类分析”——对着《统计学》书做!
- 不清晰业务模式的,先整明白业务模式是什么(这就是为什么要先讲能力一,连业务是啥都不知道,分析个啥)
- 清晰业务模式的,描述清楚问题是哪个部门,什么时间,什么区域发生的(这就是为啥要先讲能力二,基础的取数时间,对象要搞清楚)
- 划分问题边界:到底是不是数据分析可以解决的问题
- 数据分析可以解决的:是什么,为什么,会怎样(设想 → 分析 → 执行)
- 数据分析不能解决的:想不想,怎么做(设想 → 分析 → 执行)
- 设想的问题,可以转化为分析问题
- 原问题:我要不要买房(设想)
- 转化问题:我下不了决心买房,是因为我担心父母反对,筹不够首付
- 子问题1:目前欠多少首付,是否真实需要找父母筹钱(“是什么”问题,属于分析问题)
- 子问题2:除了父母,是否有其他渠道可以筹钱(执行问题,非分析)
- 输出目标:“父母反对就无法筹够首付”是否是个真命题。是,想办法解 决;否,不要纠结了
- 执行的问题,可以转化为分析问题
- 原问题:我要怎么买房 (第一步:去售楼处,第二步:掏钱,第三步,拿钥匙)
- 转化后问题:我要怎么最低融资成本的买房
- 子问题:有哪些融资渠道(执行问题)哪个成本最低(“是什么”问题,属于分析问题)
- 输出目标:估算成本,在ABCDE个渠道中选最低的那一个
- 设想的问题,可以转化为分析问题
- 细分问题类型:是什么,为什么,会怎样,到底归属哪一类
- 如果不清楚现状 (描述性统计)→ 是多少
- 如果想给现状找标准(什么算好,多少算好)→ 是什么
- 如果想给现状下判断(好坏,多少,涨跌,类别)→ 是什么
- 如果想多个方案选一个 (根据标准打分)→ 是什么
- 如果想知道问题原因 → 为什么
- 如果想预测未来 → 会怎样
- 问题很复杂的时候,需要多个分析层次,比如分析下当前的销售情况
- 描述现状:卖了多少,销售金额,变化趋势
- 树立标杆:根据历史习惯/KPI达成率/领导期望判断到底算不算好
- 下判断:好的话,能不能持续;不好的话,为什么不好
- 好的话,为什么能持续:先找好的原因,再看能否持续
- 不好的话,为什么不好:先找到问题点,再看原因
- 明确输出产物**:如何判断每一步分析得准不准?**
- 是多少 → 数据,数据报表
- 是什么 → 判断标准,判断依据
- 为什么 → 原因1 ,原因2,原因3,原因4,哪个原因影响最大
- 会怎样 → 预计1 ,预计2,预计3,预计4
1. 清晰描述问题
如果有人让你分析下现在的房价,你会怎么分析?
- 城市(一线,一线卫星,二线,区域中心,净流出地)
- 区域(CBD,新区,老区,近郊,远郊)
- 资源(交通,教育,医疗,其他配套)
- 产品(产权,楼龄,朝向,户型,景观)
讲完房价类型,很多人自己都会分析了。
很多情况下,能描述清楚问题,就完成了八成分析,因为这些指标背后带有明确的业务含义。这也是为什么描述性统计,取数占了数据分析师八成时间。
基本:4W1H
When,who,where,what,how。没有why和how much。
因为4W1H是在描述问题本身,是描述性的内容,而why是问题原因,是分析要干的事;how much是对问题程度的判断,也是分析干的事。
进阶:找到关键业务指标
比如影响房价的关键要素:
- 城市:一线,一线卫星,二线,区域中心,净流出地
- 区域:CBD,新区,老区,近郊,远郊
- 资源:交通,教育,医疗,其他配套
- 产品:产权,楼龄,朝向,户型,景观
分两个层面描述影响业务的关键因素:
- 宏观层面:行业、部门、业务模式(能力一)
- 微观层面:流程,操作,数据记录(能力四)
步骤:
- 先确认行业,部门
- 再看问题细节
- 再确认指标
- 最后才分析问题
2. 划分问题边界及转化问题
设想类问题
明显的标志:“我想,我觉得,我要不要……”
潜伏的标志:在对问题做描述的时候,缺乏事实,充斥个人感觉
- 为什么许多优秀的女生找不到对象?
- 为什么我认为许多优秀的女生找不到对象?
所以,遇到设想类问题,首先要确认真实性。先问是不是,再问为什么。
- 没有事实依据 → 呵呵,你爱怎么认为怎么认为
- 有事实依据 → 转化为分析问题
- 我觉得房价会跌 → 目前有没有在掉的?(是多少)
- 我觉得房价会跌 → 最近3年内波动幅度有多少?(是多少)
- 我觉得房价会跌 → 一般房价什么情况会掉?(为什么)
- 我觉得房价会跌 → 上次房价跌的时候有什么特征?(是什么)
执行类问题
“怎么做”的问题,都是执行问题。
- 执行人:谁来做
- 执行方式:怎么做
- 执行目标:做到什么程度
以买房为例:
- 执行人:我有多少钱(现金,工资)?
- 执行方式:什么渠道买?什么方式融资?
- 执行目标:投资?自住?婚房?养娃房?改善房?
接下来如何转化成分析问题?**
如果还不知道怎么执行,找样板参考,做描述性统计(是多少)。
“我不知道我这个收入该怎么买房”:
- 小A和你收入差不多,他工资XXX现金XXX,买的XX地方的房
- 小B也和你收入差不多,她工资XXX现金XXX,买的XX地方的房
如果知道怎么执行,意味着有选择,可以评估选择的优劣(是什么)。
“我看中两套房,不知道怎么挑”
- A房 VS 目标
- B房 VS 目标
这其实是两个问题。第一个问题是,我们要看哪些指标?第二个问题是,这些指标的标准是什么?
做评估先定标准,这是个两阶段分析,不能一步到位。
- 如果知道可以怎么做,但执行出现问题,可以找原因(为什么)。
“我不知道为啥我爸不肯出钱,首付不够咋办?”
- 搞得掂老爸 → 分析老爸不给钱的原因 → 晓之以情动之以理 分析类问题
- 搞不掂老爸 → 还有哪些融资渠道? → 找别的融资渠道 执行类问题
找原因,向着推动执行的方向找。原因本身不重要,能执行下去最重要。
- 一个隐藏的分析:目标和现状不匹配。
“为啥我同学都买房了,我却买不起” 羡慕互联网企业高薪,忽视公务员福利;你才毕业一年,家里非官非富,买不起也很正常。
3. 细分问题,构建思路
将设想和执行类问题,转化为分析类问题后,再将分析问题细分到有明确输出的程度,依次分析是多少、是什么、为什么、会怎样。
我目前月收入10000,家里可以出30万,想在广州离珠江新城地铁1 小时以内的区域买房,可以怎么买?
- 评估财力(输出:可以承担多少房价) 分析类问题
- 找房源,范围内有多少可承担的起的房子 执行类问题
- 确认标准(输出:主要考察哪些指标,是否有必选项) 分析类问题
- 综合评估(价格,距离,户型,配套) 分析类问题
设想类问题的思路
分析类问题的思路
执行类问题的思路
执行类问题首先要确认是谁来做,不同的人权限不同。然后再确认是否有目标。
4. 确认输出形式,规划资源投入
- 是多少:输出数据或数据报表。注意表格格式。难度不大,但若不符合格式要求,可能要返工。
- 是什么:输出判断标准或判断依据。注意提前统一标准。
分析前:“为什么销量下降了,分析下” 分析后:“老板说了,这点下降幅度属于正常波动,不纠结”
这种亏吃一次就够了,到底标准是同比,环比,KPI完成率还是老板心中的一个数字,一定要提前问清楚。
- 为什么:输出原因,并分析哪个原因影响最大。
在“为什么”的需求中,往往隐含了对“是什么”和“怎么办”的需求,所以分析前先问清楚是否有那些需求。
事前:“帮忙分析下这个月活跃率下降的原因” 事后:“哦,原因是这几个,那我要怎么做呢?”
比如发生产品改版这种大动作,必然会影响用户行为,不同部门有不同的职责和对策。
会怎样:输出预测结果。注意区分时间状态。预测需要预测场景。
口头:“看一下过去XX时间内有消费的用户,他们的消费习惯” 心里:“未来这批人还一样会消费吧” 过去的消费行为就是过去的,不代表未来也是这样。
面对多步骤的复杂问题,每一步结束后小结。比如做一个会员制度优化项目,一般有如下几步:
- 现状有什么问题(为什么) 汇报节点
- 未来准备达到什么目标
- 有哪些优化方案
- 每个方案预计带来的效益(会怎样) 汇报节点
- 综合评估,最后选哪个方案(是什么) 汇报节点
切忌憋大招,一定憋死掉。比如专题分析,很多分析师喜欢憋一个前无古人后无来者的答案。特别是模型项目,很多同学醉心建模,忘了时间进度和待解决的问题。
在企业里,解决问题的时间是有限的,有可能过几个月问题都变了。越是复杂问题,汇报的次数一定要越多,每个月汇报2次阶段性成果。
“定义问题”的重要性
第一,许多数据分析师脑子只有数据,没有业务问题,一提到“数据分析”就联想到一大堆指标的计算。
指标只是分析的起点,终点是解决一个个具体问题。
指标:
问题:
- 为了让平台销量打败京东,应该配多少SKU?
- 为了减少库存积压,应该控制在多少SKU以内?
例如,医疗精准营销怎么做?
罗列基础信息、浏览行为、搜索行为、挂号行为、体检行为这一长串数据指标,是没有用的。
- “如果做关联分析的话,只要订单数据就够了”
- “如果做慢病管理的话,只要基础信息+挂号行为就够了”
- “如果做联合用药的话,只要搜索行为就够了”
当清楚明白要解决什么问题时,往往几个指标就足够了。
第二,只记得找数据,忘了分析。最常见的就是抱怨“这个月销量又低了”。
那么问题来了,“凭什么这个月销量不能低?”
“如果不能低,多高算是高?”
“持续低还是偶然低?”
销量多少只是一个数据,销量低是一个结论,给结论之前需要分析。
例如:
“做智能设备的分析,我把做智能设备的企业分作三类,发现他们主打的卖点都是高科技,没有安全。我就觉得可以从安全切入……”
分析的过程呢?
- “是什么”,凭什么可以分三类,有什么特别?
- “为什么”,为什么安全就可以切入了?只是因为没人做吗?有想过他们是做不了还是忽略了吗?
正确的做法是:
从业务模式上看……从销量、产品上看……从未来合作前景上看……综合三个维度,有三类企业特点突出,我把做智能设备的企业分作三类。我发现他们主打的卖点都是高科技,没有安全。 安全这个点,本身很有市场,不做安全这个点,会失去一些市场。综合测评,发现做安全可争取到XX客户,能达成目标。而且,在非安全领域,我们很难和别人竞争。我觉得安全是个很好的切入点。
第三,只会扒拉数据,不会解决问题。脑子里只有数据,没有策略,区分不了什么是分析,什么是执行。
遇到执行问题,要先知道怎么做,才能知道到使用哪些数据。
新手找模型,老手找指标,高手找问题。
锻炼定义问题的能力
定义问题是新人们最弱一环,有以下几点原因:
- 平时取数多,思考少,不知道数据啥用
- 偶尔做专题,没有清晰思路,往往一锅炖,既想找原因,又想找方法
- 知识积累少,分不清是否是真实问题,也想不到该做什么
- 不会和需求部门沟通,更不敢主动提分析思路,他们说啥就是啥
最好的方法是复盘,而不是学现成的套路。
复盘的关键,是理清“数据”与“用途”之间的关系,找出规律。比如XX部门的XX岗位,看了XX数据,有XX用途。专题分析的用途比较清晰,然而大部分同学还是在跑数,所以得自己总结用途。
- 专题类、模型类工作:目标集中,容易总结经验
- 报表类、取数类工作:目标不明,需要自己提炼
专题类本身有个题目,比如用户流失原因分析,销售下降问题分析,
促销活动响应分析等等,因此容易归类到是什么,为什么,会怎样里;模型类一般有明确方向,比如有\无监督分类问题,综合评分问题,
预测问题,也容易归类。因此,复盘这两类工作,关键是抓主线和思路,先找到方向。
专题类复盘基本格式
分析目标:找到销量下降原因,并提出提升销量建议。
分析思路:
- 清晰描述问题(描述性统计)
- 判断问题严重性(是什么)
- 寻找问题原因(为什么)
- 评估提升策略(是什么)
分析结论:销售下降原因有X条,最重要的是XX,策略评估中XX策略更优。
模型类复盘基本格式
分析目标:预测用户促销响应率。
分析思路:
- 判断模型类型(二分类问题,逻辑回归)
- 制作与选择特征
- 构建模型
- 检验效果
报表类复盘
只有报表,是不知道有啥用处的。想知道报表的用途,得干三件事:
- 了解
业务流程
(为什么监控这几个指标,监控了有什么用) - 了解
常规趋势
(老业务看三年比,新业务看环比增速) - 了解
异常波动
(多大范围算波动,异动时会再看哪些指标来检验)基本格式:针对指标构建问题
我是XX行业的XX企业,我服务XX部门,他们监控指标一般看X个维度,这X个维度的用处分别是XXX,XXX……
基本格式:针对规律问题
我们的销售一般是1、3月高,春节低,4、5月有个小高峰,6、7、8平着走,9月开始提升,11、12月冲业绩 我们的用户结构是埃菲尔铁塔型的,TOP10%提供60%收入 我们的产品3个月留存率是5%
基本格式:针对波动问题
一般销量波动大于X%算是不正常。波动大于X%的时候需要找到原因,一般从X方面找 最快速提升销量的方法有三种,分别是A、B、C……
有了标准、初步的原因假设、解决问题的手段,定义问题时就能得心应手。
讲一个故事
最终输出产物是一个完整的故事:
XX行业销售一般看5个维度,一般规律是XXX,如果波动大于X%就要预警,可以从X个方面关注。 所以现在的问题是什么?我们可以针对解决…… …………
准备至少1个专题分析的分析思路,1个报表的思路,参考上文中的格式。
如果能讲清楚一个案例没有破绽,至少这一个案例里的几个环节是定义清晰的。