本书的是英文书名的副标题,更契合书中的内容:How Anyone Can Use Business Analytics to Turn Data into Profitable Insight。说明书的结构是以商业分析实施的方方面面来组织的。而且书中拥有大量的案例,且整体篇幅不长,非常适合理解如何使用数据分析能力在商业分析中的运用和价值。
不足之处是本书中文版虽然在2018年出版,其实英文版本实在2014年出版的,时间有一些久远。不过书中的结构逻辑到还挺禁得起考验,案例建议适度参考。
C01 要么分析,要么灭亡
什么是分析
所谓分析,是运用结构化的方法来解决商业问题,用数据和分析来产生影响力的科学。许多企业正努力面对战略性的经营问题,比如成本削减和业务创新。要解决这些问题,往往会影响企业预算和组织结构。数据分析在这类决策中可以成为一个强大的工具。正确的分析方法是以数据和观点为支撑的明智的解决方案。直觉+数据=强大的洞察力→良好的决策
像宝洁公司(Procter & Gamble)、亚马逊(Amazon)、领英(LinkedIn)和Capital One等企业领袖,就是通过采用数据引领、假设驱动和分析支撑的策略来支持想象和直觉,称霸各自的领域。
什么是假设驱动的分析?想象一下,假设你在太平洋里游来游去想寻找金子。你难道不希望将目标缩小到最有可能找到金子的那个地方吗?这样你就不必在广阔如从中国到美国的水域里大海捞针了。
与此类似,数据就是一片海洋,假设可以有助于缩小范围,将我们定位到最有可能找到答案的地方。假设是由人类的直觉产生的,它是依靠集体智慧和利益相关者的经验以及对业务和周边环境的理解而做出的。利用数据对假设的有效性进行验证,可以得出一致的解决方案。这种解决方案的优势在于两点:数据和假设
假设性分析策略
+ 目的:”你想做什么?” “本不应该发生却发生了的是什么?”
- 这个问题的答案决定了你的初始目标。接下来它会为你设置背景,将你的想法按既定目标去进行调整。
- 它为优化和有效转化提供了理论基础,因此推动了战略决策和行动的积极性。
- 这个问题也可以帮助你深入到难题或是紧迫事务的根部,它们需要得到立即的关注和有效的解决方案。
- 它也可以帮助你确定各种参与者,更重要的是,明确影响成功的障碍。
-
+ 假设:”是什么在影响某事件?” “为什么某事件会发生?”
回答这些问题能让你明确你的潜在催化剂和关键影响因素,帮助确定关键的利益相关者和他们的目标。
- 有一点要铭记于心:这个问题的答案是不明确的。
- 即它仍然是一个假设,但这是你能得到的最好线索。
-
+ 分析:”我们可以做A或B来解决这个问题” “根据分析做A和B可能会增加利润率”
进行分析用数据证明或证伪假设并得出具有可操作性的结论观点。
这些结论观点告诉你需要解决什么样的问题,禁止什么样的举措,以及需要采取什么样的行动来解决手头的问题。
+ 测试:”根据分析,B可以增加X%的利润率而A可以增加Y%的利润率” “消费者调查告诉我们,消费者只是喜欢B”
论点的可操作性是很重要的。消费者在决定一个产品的可行性和其未来的销售前景中起了关键作用。
- 你可能通过”什么”和”为什么”已经发现了一个产品功能需求,这些结论或观点可以支持你的假设。
- 精心地设计一个试验产品,展示潜在客户群的想法和购买力。
-
分析可以为每个人服务
日常管理者到领导者到科学家再到想买车的某个人,分析可以为每个人服务。如果你希望以最高的效率和最佳的效果经营你的公司,让做出最明智的商业决策变为可能;如果你是某企业的一员,而这个企业越来越无法容忍决策失误;如果你正为企业寻找新的优势和差异性;如果你正在极复杂的全球环境中苦苦挣扎,竞争加剧,产品上市时间加快,客户愈发挑剔;如果不管所有的外部挑战和不断减少的预算,你仍希望提升你的业务;如果你想买一辆车,那么你是时候和分析打个招呼了。
C02 什么是分析
数据驱动的决策定制
我们可以用提问来开始:哪里发生了故障?是不是所有的生产线都在生产有缺陷的产品,或者只是个独立事件?故障是什么时候开始的?产品的故障到底在哪里?故障对应的工艺和设备到底是什么?通过这些问题,你就能找到指引。你并不需要知道所有引导型问题的答案。你可以根据已知信息建立一个可靠的假设,虽然可能并不完全,然后用这个假设去锁定最让人生疑的问题。
分析是高深复杂的吗
你并不需要知道所有引导型问题的答案。你可以根据已知信息建立一个可靠的假设,虽然可能并不完全,然后用这个假设去锁定最让人生疑的问题。事实证明,商业中最有用的分析技术就是少量的简单技巧,大多数专业人士都可以学习并掌握。你会惊讶地发现,实际上,决定交易成败的,其实是联结商业和数学之间的一些大众技能。
商业中的分析
只有当能够产生影响力的时候,分析才是有用的。根据你的商业业务,这种影响可以是收入增长、流程效率或者是产品改良。
以产生影响为目的的分析=数据科学+决策科学
数据科学:技术环节,旨在从数据中获取观点。
- 决策科学:商业环节,旨在联合利益相关者,将通过数据科学环节获取的观点融入决策过程,并将它们转化为行动。
好的分析不仅仅有炫酷复杂的模型,也涉及使用软技能、了解业务并呈现在商业环境中有益的相关见解,从而驱动商业影响。除非分析可以驱动商业影响,否则它就不能被称为分析,而只是统计,只是数据科学。深陷于数据之中的分析师往往只专注于获得最酷的观点,却忽略了人为因素的影响。
成功的商业分析专家并不是统计学家,而是能够热情而恰当地与向他们求助的商业伙伴相处的人。确实,分析师需要选择正确的技术去分析并提供见解。但是一个成功的分析师还会利用他的影响力和软技能,与利益相关者或商业同行建立结盟。
成功的分析师使用问答的形式和相关人员研讨,了解他们应当要求什么样的数据(真正的商业问题)和可能的答案线索(假设)。他们可以利用这些答案去挖掘合适的数据,做适当的分析,并提出可行的建议。这并不代表技术分析和建模技巧就不重要,但没有商业掌舵能力和人际交往技巧,分析就成了一艘迷航之船。
分析不是报告
商业智能和分析实际上是两个不同的过程,涉及不同的工具,也出于不同的目的。当用户与某系统交互时,数据将被生成、收集、清理,然后通过Teradata、Hadoop和Oracle这些数据仓库解决方案被存储下来。接下来,可以通过报表,但现在越来越多的是图形仪表板来访问数据。商业智能包括从收集数据到访问数据的所有操作。
商业智能提供的数据将被分析所用。然后,分析将数据转化为论点、决策、行动,并且最终到收入或其他影响指标。SAS、R和Excel等分析工具可用来将数据转换为论点。
分析与测试(AB测试)
增长黑客推动用户增长
增长黑客团队作为公司内的启动部门而发挥作用。他们是集少数专家,用小额预算快速做出决策的创新型团队,通常涵盖了产品开发、设计、分析和营销专长,努力确认出增长指标的影响因素,然后实施以推动指数级的增长。最为关键的原则是:这种增长是可扩展的,而不是一次性的。使可扩展性成为可能,要通过大量实验,快速学习,从所学中进行连续迭代,然后再频繁地实施以学习更多,所有这些都是通过创造性分析来实现的。
这样做的结果是通过汇聚的方法将所有领域的投入都聚合进来,全面加速增长目标的实现。增长黑客团队使用“拉动”战略来吸引消费者。也就是说,它通过产品体验来提高参与度,从而了解用户的动机和行为,并使参与客户立即感受到价值。这种方法不同于传统的模块化方法,营销部门不必等产品组构建了一个产品版本之后才联系接洽客户。在确认客户行为数据的模式和持续验证产品变化影响方面,分析是一个强大的工具。
C03 七大分析方法
分析方法
分析方法 | 描述 | 应用 |
---|---|---|
综合/总量 分析(分组分析) | 用于描述总体或分部,或对两个分部进行比较 | 描述性分析、性能分析、深度营销分析、赢家输家分析 - 我的客户是谁? - 不同地区的客户有什么不同? - 年轻人与老年人相比,会更多地通过平板电脑访问我们的数码产品吗? - 在上一次的营销活动中,哪些措施起作用,哪些不起作用? |
相关分析 | 寻找两种或两种以上事物之间的关 系,以期能够用一种事物解释另一种 事物或者驱动另一种事物 | 前后对比,控制测试、 驱动因素、仪表盘 - 通过某些葡萄酒指南和谷歌付费搜索能找到更好的客源。 - 移动用户有更好的客源。 - 看到定价页面会破坏客源。 - 某些地点能产生更好的客源,比如俄勒冈当地 你对每一个假设使用相关分析:影响是否成交的因素包括流量来源、移动用户与非移动用户、人们看没看到定价页面,以及客户的地理位置。通过这一分析,你能够迅速否决两个假设,留下两个有待进一步探索:不同的流量来源确实会影响最后是否成交,地理位置也是一个很大的因素。 ![]() 根据商机资源的好坏来重新分配预算,可以帮助你增加收益。 1. 对商机薄弱的网站来源,要减少投资——必应搜索、Facebook页面和某些葡萄酒指南的每次点击成本。 1. 增加对三个特定访问工具的投资,它们都是能够带来高效商机的网站来源:谷歌付费竞价排名和某些婚礼指南网站。 1. 通过简单的相关性分析,你会发现同样还是使用27000美元的营销预算,却能实现了山葡萄酒厂12%(即120000美元)的收入增加额。 1. 当然,要注意每个渠道的饱和情况,以及询价成交率在一定极限后会出现下降。 |
趋势分析 | 一段时间内进行的总量分析或相关 分析,即在一段时间内的趋势 | 销售、收入趋势;趋势的改变或分部趋势,或在 段时间内的影响因素 1. 我们的客户群已经转移到年轻人身上了吗?(按时间的推移的年龄趋势。) 1. 为什么增长趋势在下滑?(通过查看一段时间内的增长趋势,并按不同的部门划分,找到令增长放缓的相关因素。) 1. 为什么iPhone 5销售放缓?(通过查看iPhone 5在过去几个月的销售情况,识别影响销售的内部和外部的相关因素。) |
估算 | 缺乏历史数据时,用结构性方法来 做一个近乎准确的推测 | 内部数据有限的商业案例,依赖外部数据和假设的商业案例 1. 在美国,每年销售多少网络路由器,其中成功卖给消费者的比例是多少? 1. ·在洛杉矶,每年销售多少婚纱,我们能占领多少市场? |
预测分析/ 时间序列 | 根据当前和历史数据,对未来事件的预测 | 转换、消费者参与的影响因素、预测。 时间序列是预测分析的一个特殊应用,它不使用其他的相关因素,而是使用目标值自身的历史数据进行估值。这种关联关系称为自相关或与自我关联。 1. 客户流失的影响因素是什么? 1. 什么因素促使客户参与? 1. 为什么成交率会下降?是哪些因素造成的? 1. 什么环境因素导致了人类自身免疫性问题? |
细分 | 将客户或产品进行有意义的划分, 确定更好的目标市场,通过用户定制 实现更高价值 | 对客户或产品分组,以实现目标和定制。 细分是一种分析方法,它将客户或产品进行划分为有意义的分部,通过客户定制,驱动更高的价值,实现更好的目标。被划分到同一个分部的人或产品彼此相似,与其他分部的特征具有明显差异。 简单的细分方法有很多,如RFM(最近购买、频率、金额)分析、产品版本与人口统计。在营销中,RFM是一种最常见的细分技术。它的标准方法是按这三个变量各自划分三个层次(低、中、高),然后将客户分为27类。 1. 如何定制我们的产品或服务?(向谁提供哪些产品?) 1. 如何定制购买激励措施?(向谁提供10美元折扣,向谁提供50美元折扣?) 1. 我们的产品组合是什么样子的?(更有利可图的产品组合与其他组合比较会有何区别?) |
客户生命周期分析 | 着眼于购买过程的不同阶段,可以 确定某类客户处于什么阶段,以及知道如何将他们转移到下一个购买阶段 | 客户进展阶段,包含 考察、购买、使用及销售渠道。客户生命周期(CLC)分析是判断客户购买过程的不同阶段,以确定客户群目前正处于什么阶段,并且决策如何将他们转移到下一个阶段。 组群分析(cohort analysis,也称断代分析、人口特性分析)是一种特殊类型的客户生命周期分析,它将客户起始日或激活日进行分类。例如,7月群组可能需要15天来适应你的产品,但12月群组可能需要30天。销售管道分析也是客户生命周期分析的另一个应用。 1. 客户是如何改善我们的产品的? 1. 苹果产品的用户是如何体验苹果产品的?也许一些是先使用iTunes,然后是iCloud,在大概90天左右会购买,然后一年以后可能购买iPhone。 |
分析方法应用
+ 营销部门
行业的广度:金融服务、消费品、电子商务、汽车、技术、媒体等。首席营销官希望寻求更广泛的首选目标销售漏斗,实现每个阶段更高的转化率。这将能使收入最大化,实现最佳投资报酬率。以山葡萄酒为代表。公司通过以下这些问题,可以让最优销售漏斗得到数据的支持。
- 向谁和到哪里营销?
- 在每个渠道上花费多少钱?
- 什么因素会影响响应和成交?
- 谁最能回应什么样的信息、优惠和产品?
- 什么导致客户流失
首席营销官(CMO)对业务计划通常期望以下三个关键结果:
- 以最具成本-效益的方式带来更多上门的未来顾客
- 根据现有客户简介,通过识别新渠道增加适销对路的市场(综合分析估算)
- 根据过去的营销活动采用更好的目标信息和优惠以提高响应(测试 相关分析)
- 优化渠道,提高投资回报率,降低客户获取成本(相关分析)
- 把更多上门的人变成顾客
- 识别转换影响因素。是否要做某些履行选项、用户体验、审查选项、购物车选项、付款选项、优惠和促销来提高客户转化率(测试 相关分析)
留住现有顾客
为各种客户群识别新的产品和功能:了解每一分部的消费者需求,并提供针对性的产品:
- 划分客户群,了解需求差异。根据过去的产品使用、人口统计等。(简单细分)
- 识别不同客户群的产品和特性差异(测试)
- 优化新产品想法或特性(估算)
- 考虑优先包括哪些产品功能,可以通过了解预期的业务影响确定(估算)
通过激励消费者采取行动(如购买产品或注册)来优化客户体验,提高产品使用率(测试 相关分析)
优化最珍贵的资源:通过客户细分优化FCR(首次呼叫解决)和NPS(净推荐值)等指标,以及成本(相关分析 简单细分)
- 圆满解决客户来电问题,这反过来意味着了解首要问题和解决驱动因素(综合分析 相关分析)
- 谁是最有价值的客户?每个客户群的特点是什么?每个客户群的保障援助等级是什么(综合分析 相关分析)
- 在呼叫前转移客户到自我服务,以减少客户服务开销,这需要了 解客户呼叫和创建有效自我服务的主要原因(相关分析)
总结
在大多数情况下,简单商业分析是非常有效率的,你不用等待分析团队来给你答案。在多数情况下,你需要的数据已经在手边,你只需要将它们找出来,正视它们就行了。
C04 BADIR:商业分析的五步框架
BADIR分析框架,它将通过一组五个精简的步骤,简化从数据到决策的过程,用简单但功能强大的分析解决80%的商业问题。这里的BADIR,分别代表商业问题(business question)、分析计划(analysis plan)、数据收集(data collection)、得出结论(insights)和提出建议(recommendations)。
步骤1:商业问题
这个框架是从理解数据需要回答的真正商业问题开始的。而且,不是任何问题都行。提出错误的问题,可能导致无用的解决方案。越接近分析需要解决的核心商业问题,就能越快得到正确的答案。正确的商业问题能做出更明智的决策并产生影响,让你直接走上通往既定目标的康庄大道。通过减少重复劳动,加速整个过程,并帮助提供可行性建议,从而实现商业价值。因此,你和你的团队将被视为有价值的商业合作伙伴。但是这一切都始于花时间去了解现在正在发生什么,并提出相关问题。
从既定目标到真正商业问题的框架
不要用传统的六个问题框架为:何事、何人、何处、何时、何缘由以及何方法。在这里,你应该使用侦探性方法。提出相关问题,使你马上就能够了解当前因素、过去事件或推动分析请求的未来战略。
+ 步骤1:商业问题 - 数据科学层面
+ 步骤1:商业问题 - 决策科学层面
“需要做什么决定”和“在什么时候做出决定”等一系列问题的答案将告诉你,你有多少时间来完成你的分析。你是否需要在一夜之间或3个月之内或某段时限内完成些什么?通过了解“谁在要求我们做分析”“谁会受分析和后续建议的影响”和“谁会根据结果采取行动”等,确定利益相关者。最重要的是,通过分析,还可以了解你的利益相关者准备采取什么行动。
如果通过对这些问题的思考,你发现利益相关者无法采取行动,那么则无须进行此项分析。如果正确完成步骤1,能过滤掉十之八九的对数据和结论的需求,因为这些信息或许证明“知道也挺好,但是没什么用”,因为它们不能回答驱动商业发展的关键问题。
将意图与商业考量相结合,有利于将技术层面与商业层面合并,从而改进真正的商业问题,更好地瞄准你的分析。这样做可以节省时间,增加相关性,并有效地利用资源,从而降低成本并减轻工作量。
步骤2:分析计划
在这一步,你可以获得:
- 与关键利益相关者进行协调。
- 管理范围。
- 根据达成一致的时间安排分配资源。
- 确定分析任务完成的范围和时间。
- 影响的视野
理清事情的来龙去脉,写出一份计划。这些感觉确实像是零星的琐事,但却是确保分析工作成功的关键步骤。该计划至少有助于使你的分析与业务需求保持一致。它也迫使你按照时间计划表来思考,而不是把某个任务强加给你,然后要求马上完成。这让你有机会去找到并排列整合各种任务所需的资源。最后,让你理清问题,达成一致并获得认同。
+ 步骤2:分析计划 - 数据科学层面
- 分析目标
首先创建一个SMART(明确的、可测量的、可实现的、相关的和有时限的)分析目标,回答步骤1明确的商业问题或其子问题。它能告诉你根据既有数据可以直接回答的问题有哪些。如果商业问题是“我们如何在三年内将1亿美元的业务增长到3亿美元”,那么这实在是一个很重要的问题。为了解决这个问题,除了分析之外,还需要融合商业的许多方面,包括战略、竞争格局分析、内部流程审核、技术审核、测试、市场研究、客户需求等。
即使全部商业问题都可以用分析来解决,你也可以选择将项目分成多个子部分来提高效率。在这种情况下,单个部分的分析目标将是整个商业问题的一个子集。例如,如果业务问题是“我如何把我最新的次贷产品推向市场”,第一部分可能是“谁是新产品的最佳目标细分客户群”,第二部分可能是“应该使用哪些营销渠道——电子邮件、直接邮递广告、电话、网站,以及以什么频率的推广能避免取消订阅”。
Pets & Pets公司的亚历克斯和他的团队在准备分析计划时注意到:
- 商业问题:在英国推出狗绳在线结账功能后,导致用户访问成交率下降的原因有哪些?质检员、产品设计师和产品经理可以采取哪些行动来解决?
- 分析目标:确定访问成交率的影响因素,以及测试群体中的访问成交率低于对照组中的访问成交率的区段。
- 假设
在确定应收集哪些数据之前,提出假设、定好标准来证明或证伪每个假设。每个假设都是有根据的猜测,猜想你通过数据分析试图解决问题的诱因是什么。假设描述了一个可能的答案,例如商业问题背后的影响因素或原因。人们经常认为假设来自数据,但其实并不是这样。假设大多来自所有关键利益相关者之间的广泛研讨,基于他们认为可能影响现状的因素。研讨的目标是找出多种可能的假设。在这个阶段,不应反驳任何假设,哪怕是那些看起来牵强或荒谬的假设。你也不必找出所有的假设,只需将你已经收集的所有假设进行优先排序,按照合理性或可测试性以及它们可能造成的影响进行排列。
建议举行两次单独会议:
- 第一次会议应该生成假设。提出假设的最佳来源是工作在业务第一线的人,通常是产品经理、营销经理,还有能提出问题的客服或销售人员,或是根据研究结论将真正采取行动的人。
- 第二次会议应该能将假设按优先顺序排好。排列优先级的会议可以有少量权威人士参加,通常以资深利益相关者居多。他们应该首先商定优先级标准,如潜在的影响力或获取数据的难易程度,然后每个人投票表决哪些是最佳选择。
Pets & Pets公司的亚历克斯和他的团队得出了几个假设,均来自与网络产品团队、开发和营销团队研讨时的收获。然后,他们优先选出其中三个假设:软件漏洞、未经测试的IE6浏览器代码的问题,以及新版Chrome浏览器的问题。这是排在前三位的,可能解释在英国推出新功能后访问成交率下降原因的假设。
- 方法
商业问题的类型决定了你应选择的分析方法或途径。就像第3章所讨论的,常用的分析方法一共有7种,其中最常被使用的是综合分析、相关分析、趋势分析和估算。
Pets & Pets公司的亚历克斯和他的团队确定相关分析方法适用于这个项目,因为他们需要找到与访问成交率相关的事件来解释下降的原因。
- 数据规范
根据假设、证明或证伪的标准,以及所选择的方法,收集必要的数据进行分析(见图4-10)。数据采集时应该注意两点:
- 只收集有助于证明或证伪某个假设的相关数据。
- 在进行数据收集之前,应先写明数据规范。
数据收集只有在主要利益相关者商定好完整的分析计划后才能开始。首先明确每个假设所需的数据,然后将其输入到一个主要数据规范中。在编写数据规范时,确定与此分析相关的粒度级别——按时间、地理位置、事件或部门来表示的粒度。假如你正在搜集销售数据,你是按照每周、每月还是每年来提取数据?根据所需的聚合级别和所提取的原始数据的级别,你可能需要相应地将数据进行汇总。在这样做时,要确保将它绑定到唯一的ID。比如,如果你已确定以每月为粒度级别,那么Month_ID将成为你唯一的ID,你假设中的所有不同的数据元素都会绑定到这个ID上,例如漏洞、不兼容的浏览器等。
Pets & Pets案例:假设与所需数据:
在Pets & Pets的案例中,他们需要得到交易尝试这一级的数据,因为他们要了解为什么某些交易尝试留下来成为用户,而其他交易尝试却没有。他们的数据规范如下:
- 项目计划
项目计划中包括的关键要素有:
- 资源:这个项目可能需要哪些人员、预算、硬件、软件、其他IT资源、其他公司资源和外部资源(如果有)?
- RASCI:谁负责(Responsible)推动这个项目、谁是有责任的(accountable)、谁扮演支持(supportive)角色、需要向谁请教(consulted)和谁需要知情(informed)。这些角色是至关重要的,应该定义在前面,这样人们才不会凌驾在彼此之上或事后指责别人。有些公司使用此模型的变体,如DACI、RACI和ARCI,它们具有相同的元素。我们还发现了将支持部门纳入进来也有价值,因为这可能涉及整个部门,例如IT或项目管理。
- 时间表:时间表包括与利益相关者有关的时间节点和适当的登记点,确保每个人都明确了解他应在何时履行职责以及何时需要做出关键决策。对于每个项目,不论项目大小,我们都建议设置至少三个时间节点:项目开始、有结论后初次报告和最终报告。
- 风险:在此阶段识别所有潜在风险非常有价值。例如,项目越长,与资源缺失或意外事项相关的风险就越大。当计划A失败或者不能按时完成时,拥有计划B甚至计划C总是好的。
- 阶段:将可交付成果分成更小的阶段,可以快速得出第一套具有操作性的结论,同时确保你处于正确的轨道。例如,前5个假设可以构成阶段1,并且一旦阶段1结果返回,接下来的5个假设可以是阶段2的一部分。然后,执行团队可以在阶段2还在工作时,就先执行阶段1的结论。
- 确定优先级:最后,需要确保该项目相对所有参与者的优先级,以便满足此项目的时间安排。正在进行的项目可能必须重新确定优先级,以适应这个新项目。这需要与各利益相关者适当进行协商。
+ 步骤2:分析计划 - 决策科学层面
你会注意到,分析计划的所有组成部分都涉及内部团队对话和利益相关者对话,以产生各自的结果——从分析目标的协调,到项目计划的签订。在构建分析计划时,请确保内部团队和利益相关者都在你的工作路线安排之中。与内部团队可以讨论协作的角色、职责、资源和以前的报告等。与利益相关者则可以讨论你的分析计划,特别强调在目标、方法、优先假设和时间进程安排方面去达成一致。分析计划的顶点是一个正式的启动会议——强烈推荐。在这次会议上,应确保让利益相关者签署分析计划,并取得那些将投身配合分析工作的人的承诺。分析计划不是解决方案,而是所有相关各方都能看到的清晰路径。Pets & Pets公司的亚历克斯利用他在与布兰妮第一次会议中得到的信息,以及随后与其他利益相关者的头脑风暴会议信息制订计划。这个计划给了亚历克斯他需要的信息以有效地开展工作,比如,提出了可能的假设,确定了适当的方法(相关分析,在本案例中),且合并了项目计划。最后,他咨询了布兰妮的意见,然后稍微调整了计划。带着充满信心的计划,布兰妮第二天会见了公司CEO。在那次会议上,她提出了拟议的分析计划,而不是解决这个问题的办法。亚历克斯明确表示,他的团队需要一周的时间来解决核心问题,并提出了建议,布兰妮和CEO都同意了。随着计划被确定下来,他们正在一步步接近答案。
步骤3:收集数据
+ 步骤3:数据收集 - 数据科学层面
- 数据拉取
根据分析计划中的数据规范去收集数据,而分析计划又是由分析目标、假设和所选方法决定的。根据你所处的角色,该过程可能会有所不同。
- 如果你是商业专业人士,请让分析人员根据规范提取数据,或者从Tableau、Pentahoe或MicroStrategy等商业智能工具中提取数据则更好(请参阅第6章)。虽然通过这些数据仓库获得的只是综合数据,但这样的数据对于大多数简单分析是足够的,因此它不是什么重大的限制。
- 如果你是分析人员,则可能直接使用SQL或类似语言从数据库中提取数据,然后进行整合。
(书中未提出)如果所需核心数据没有,则需要进行收集,所需时间和资源不定。
- 据清理和验证
在准备开始收集数据前需要验证数据。首先对小数据样本进行完整性检查,并将它与你期望的内容进行比较。
检查空值与基数。
- 确保数据类型符合你的期望。
- 通过目察50个奇数行进行样本健全性检查。
- 通过检查总金额之间的勾稽,检查收入和其他关键指标与其他报表中的数据是否相匹配。
- 进行快速单变量分析,并观察大部分空、零、无效或相同的值,以及分类为“其他”的值
Pets & Pets公司的亚历克斯完成了他的计划,提交给他的经理。然后,团队基于分析计划中的数据规范,仅仅收集必要的有效数据,这只需要很少的时间来完成和验证。他们不必工作一整夜。相反,他们正在计划一个愉快的周末。
步骤4:得出结论
+ 步骤4:得出结论 - 数据科学层面
当处于最高级别时,一旦你获得了数据,就可以选择任意的分析方法。
- 模式复核:可以帮助验证数据模式,判断是否真的存在商业问题,或者关键变量中是否存在异常模式。
- 证明或证伪假设:查看每个假设,一次只检查一个,并检查证明或证伪每个假设所需的相关数据。这将有助于去除一些假设,并确定你应该将精力集中在哪里。
- 报告结果:最后,用量化语言报告分析结果,以指导分析假设的优先级设定。
- 综合分析、相关分析、趋势分析以及预估是其中最常用的四种。
- 综合分析
模式复核:使用此方法时,请查看相关的指标,并按不同的分部将数据分类。常见的例子是判断哪个营销活动是成功的,以及发生在哪个部门。通过查看最佳和最差网站跳出率、退订率、开放率和点击率(CTR),就可以解决此问题。
Zameify是一家游戏公司,它的营销团队希望从人群类别和参与度两个方面确定iPhone玩家是否比台式机玩家更有价值。这将直接影响公司的营销策略和目标。在他们的分析计划中,营销和分析团队成员确定了他们想要查看的关键属性、分析期、iPhone应用中的访问次数与网站访问次数和用户消费金额。他们收集了台式机和iPhone用户在产品整个生命周期内的数据元素。按照最常见的访问渠道(iPhone与台式机)进行分类,然后比较每个独立用户(UU)的综合关键指标。
从上面的比较可以看出,iPhone用户比台式机用户更富裕和更有价值。因此,专门针对这些用户展开营销应该是有意义的。
分析结果:一旦你查看了感兴趣的指标,并提出了关于关注点或战略变化的清晰见解,就可以量化此类变更对商业的潜在影响。
对于Zameify公司来说,这意味着如果公司专注于扩大iPhone用户的范围,使用户总数从100万增加到200万,那么公司的收入可能增加4200万美元。这是一个很好的理由,说明公司完全可以花10万美元的营销支出在iPhone用户上。
- 相关分析
在相关分析中,你需要考察与企业希望影响的目标相关的变量。此分析方法最常用于解决与理解商业或某事件的影响因素相关的商业问题。
Pets & Pets公司,存在的问题是功能发布后访问成交率不明原因的下降。亚历克斯和他的团队确定了分析目标,概述了三个假设,确定了证明或证伪每一个假设所需的标准,并确定了所需的数据的范围。一旦团队完成了数据收集,就只需按照相关分析的三个步骤操作,证明或证伪这三个假设。
模式复核
相关分析从单变量分析开始,通过观察关键目标变量和其他与假设相关变量的分布,来判断是否存在问题。它也是在实验中,可以利用相关分析来比较测试数据与对照数据,例如测试总体与对照总体的访问成交率。
证明或证伪假设
下一步是双变量分析,一次检查两个变量之间的关系。一个好的例子是分别查看访问成交率和浏览器类型、错误和关键产品之间的关系,确定哪些变量与访问成交率的下降相关。多变量分析考察两个或多个假设变量与因变量之间的关系,并判断那些被证实的假设之间的交互影响。
亚历克斯的团队接受了第一个假设,即错误导致访问成交率下降。团队成员查看了测试组与对照组的访问成交率出现错误交易和无错误交易的比率。结果表明,出现错误会话后测试–控制总体的访问成交率都出现下降,这表明编程错误绝对是访问成交降低的因素之一。类似地,他们检验了所有其他假设,证明IE6浏览器也导致了访问成交率下降,而Chrome则没有。
亚历克斯的团队随后进行了三变量分析,以查看被证明影响访问成交率的变量组合,确定这两个变量的组合效果是否对访问成交率有影响。结果表明,当使用IE6浏览器同时又碰到错误会话时,访问成交率是最低的,
注意(原中文版书中表格数字极具迷惑性):
- 下面的比例,指的是测试组对比同等条件下的控制组的百分比。
- 例如94%说明两者相差不多,75%说明相差很多。
分析结果
最后,量化已证实假设的影响,即根据结论来提出建议。将结论量化表示有助于建立案例,使其具有行动能力。要做到这一点,将所有的结论都按时序、相互依赖性或大小来排序。然后,量化第一结论的影响(即在一系列事件中首先发生的事件,其他所有事件都会受此事件的影响),接下来,在去除第一个事件的影响之后,再量化第二个事件,依此类推,直到所有的结论都被处理。
快速提示:将任何指标量化为用美元影响表示,能吸引利益相关者,因为这是每个小组都能理解的通用语言。例如,1%的下降导致200万美元的收入下降。
PS:本部分的原图完全错误,以下为根据逻辑推断。根据上面内容描述,相关事实总结如下:
- 测试组转化率53%,控制组转换率60%
- 相差的因素中从【出错-正常】(原书中错误-非错误)分类考量,为第二张图,84%和90%为变化比率。如果有了具体数量,
再增加一个维度【是否IE6】,则可以看到IE6在出现错误时影响更大。这4类情况,根据具体数量,可以计算出测试组下降的原因占比:
- 第二列【转换增量】逻辑为【测试组】对比【控制组】在百分比的增量,但数值表述不对。按照前面的【双变量表格】这里的表格记录,只说了每种情下降的比率(这里图表中转换为【转换增量】从逻辑上是进行了反向计算,更加迷惑)。
- 我们按照这里第二列是正确的数字(最后的7%对应的是实验组下降的7%平均比率)。那么这个数字应该这样计算:每种分类的变化百分比*分类的占比
- 分类占比即这种情况占总数的数量,实际上可以根据第一列计算得出。
- 观察第一列数据,实际上其他就是无错误(非IE)这个分类,表述十分迷惑)。这个分类数量巨大,所以最后折算后才能占到60%这么大的比率。
- 【转换影响】和【影响】,为将各组按照7%和100%维度计算的占比。
- 至此再将IE6的两项合并,得出下面的饼图。于是才能得出下面的瀑布图:
- 趋势分析
趋势分析是第三种常用的分析方法。它可用于分析销量和收入的趋势,以及趋势的改变。它还可以用于在一段时间内分析各个分部的情况和各种影响因素。趋势分析的步骤与相关分析的步骤类似。关键的区别是,需要查看一段时间内的数据。
模式复核:查看趋势的中断和一段时期内的模式规律。
- 证明或证伪假设:通过双变量分析和三变量分析证明或证伪关于这些趋势的关键假设。有时候,关键指标的趋势本身的趋势并不明显。在这些情况下,需要查看增长率和类似指标的趋势,以了解趋势线变化情况。
- 分析结果:量化每个结论的影响,如在相关分析中所做的那样(同样,表格是错的):
- 少了Poker线上的统计。左侧月收入加起来和总量不匹配。
- 而且第二列最后的1.9%,需要上面有一个很大数量,低于这个比例的才能最后得出这个数值,上面的都是大于这个比例,无法得出。
- 所以最后的瀑布图也少一个Poker线上的下降。
- 其实还有Mafia的两个没有算进来。
我们之前介绍的游戏公司Zameify正在查找其收入增长放缓的原因。刚开始,该公司假定只是特定产品或渠道的收入放缓。调查人员发现,虽然总收入仍在增长,但收入增长率却明显下降。Zameify公司研究了各种产品随时间推移的收入分布情况,发现StarrBattle这种产品的增长率在最近几个月都持续下降,而Mafia的销售则正在增长。同样,在查看各个销售渠道的收入分布情况时,Zameify公司发现线下销售的收入增长开始变得艰难。
利用三变量分析(增长率下降、产品、渠道),将产品因素和渠道因素结合,Zameify公司发现,StarrBattle产品的增长率在线上和线下都有下降。此外,Poker产品的线下销售做得不是太好。接下来,Zameify公司开始量化每个结论的影响。该公司发现,有84%的收入增长下降是由StarrBattle导致的,影响金额高达450万美元。这显然是公司需要集中精力采取行动的地方。
- 估算
Edulane是一家为小学儿童提供在线夏令营解决方案的软件公司,目前正打算在加利福尼亚州湾区开展业务。市场营销经理马克认为,由于很多拥有高科技知识背景的父母在硅谷工作,因此硅谷将是一个线上夏令营的绝佳地点。在这之前,马克首先需要确定市场的规模。是100所学校还是1000所学校?他无法使用可用的开源数据来获得该湾区的准确小学数量。因此,他很快预估了该地区的小学数量(费曼问题)。
任何估算都包含五部分内容:
- 分层:将问题划分为更小的分层,并识别与你所要估计的内容相关的但表现不同的分组。
- 相关性和影响因素:确定什么指标和因素可能对你正在估算的指标产生影响,用方程式来予以表达。
- 假设:对于方程中的各种因素,我们了解多少呢?对于在分层中确定的各个分组,可以采用不同的假设。
- 计算:通过数学来完成对每个分组学校数量的估计,同时设定高、中和低三种情况,以帮助设置边界。
- 交叉稽核/正交实验法:意味着用完全不同的影响因子来处理相同的估算问题。交叉稽核是一种很好的方法,能方便我们对先前的假设和计算进行现实的检查。为此,你将再次重复前四个动作,同时选择一个完全不同的方程来证实第一个方程的结果。如果它们不匹配,那么你可能需要重新评估你的假设或提出另一种交叉稽核的方法。
+ 步骤4:得出结论 - 决策科学层面
由于决策科学层面要求,我们找到结论,因此,现在该向关键相关利益者进行求证了。这也是一个利用这些结论去找出更多其他假设的绝佳机会。有时,可以用来证明或者证伪这些额外假设的数据已是现成的了,如果是这样,那么在最终的报告演示之前将这些数据与论点结合是非常必要的。如果这些数据不可用或者不容易被提取,则可将这些假设放在分析计划的下一个阶段,并在演示中具体命名为“下一步”呈现给利益相关者,使他们对分析状态清楚明了。在Pets & Pets公司,亚历克斯和他的团队做事一直力求准确。他们发现了系统漏洞,而IE6是罪魁祸首。随后亚历克斯又与产品开发团队证实了这些研究结果。尽管工程师因被发现了错误感到尴尬,但却对亚历克斯的发现并不感到惊讶。他们在短时间内匆忙地启动了英国市场的试点。虽然他们想到过一些修改可能不利于IE6浏览器运行效果的措施,但是他们仍旧选择在最后期限前完成浏览器的优化和测试。接着为解决这个问题亚历克斯提出了自己的建议。工程团队的成员不仅予以支持,并且为他提供了估算时间和资源帮助完成这些修改。对此他们承诺一旦得到布兰妮的赞同,他们将会最优先考虑此事。随着他的研究结果得到验证,亚历克斯计划在两天内与布兰妮会面,并准备了可行性建议,其中包括一个解决问题的预估时间表
步骤5:提出建议
杰夫向汤姆演示了80张幻灯片,通过强大的模型说明了技术明细(例如,错误分类、ROC曲线等),并且凸显了团队的建模能力。五分钟后,汤姆打断了幻灯片演示,问道:“利用这个模型,我们能做些什么不同的事情吗?”杰夫回答不出这个问题,所以汤姆失望地走了出去。杰夫不知道为什么汤姆不满意这样一个复杂的模型,这可是他的团队争分夺秒、加班熬夜,在很短的时间内建立的。
因为组织要求分析过程的首要目的是解决问题。如果你已经很好地完成了分析过程,那么你的建议对团队来说将会变得实用,而建议“提出”这一步将是你推动利益相关者采取行动的机会。除了解决问题之外,你还可以用你的建议达到三个目的:
- 想要打动你的听众。这意味着你的建议需要简短、有见地,不要纠结细节。当然你自己需要知道细节,但除非对方发问,否则不需要说明。
- 你希望被视为一个有价值的业务合作伙伴,如果你的提议被认为是合理和可信的,这点将会实现。
- 你想促使听众按照你的建议采取行动,并有所成效,如帮助他们成功地解决商业问题。
《如何做出正确决策》(Source of Power:How People Make Decisions)(麻省理工学院出版社,1999)一书中的观点,你的客户不会自己花时间去整合你所有的论点。因为他们已经委托你根据商业背景来做最好的解决方案,他们将会偏向第一个合理建议以寻求解决方案。因此你的推荐必须经过充分的研究,力求精准。
+ 步骤5:提出建议- 数据科学层面
开头就提出行动纲要,且应该简短、清晰、有吸引力。最重要的是为听众给出以下关键问题的答案:“这对我有什么作用?”
- 目的:商业问题和/或分析目标是什么?
- 背景(可选):你想让大家知道怎样的分析背景?
- 范围(可选):分析中包括哪些和不包括哪些?
- 方法(可选):哪些定义(指标、分析对象)和方法应该解释一下?
- 建议:你希望利益相关者对你的发现做出怎样的反应?建议应当实用且产生积极影响。
- 有影响的关键论点:关键结论从哪里得出?支持你建议的每个观点的影响是什么?
- 下一步:接下来预计该做什么?时间表是什么?
最好能有一张幻灯片来演示行动纲要。遵照行动纲要,接下来的幻灯片则报告论点和建议的其他必要细节。确保幻灯片的所有细节都联系实例,围绕关键信息,有论据进行支撑。最佳的决策会议一般最看重前几张幻灯片,并且几乎所有讨论都围绕第一张幻灯片展开。
+ 步骤5:提出建议 - 决策科学层面
准备报告时须时刻记住你的报告对象是谁,了解他们想知道什么。为不同的客户制作不同的幻灯片。另外,需要注意幻灯片发布方式——人工发布或者通过电子邮件和企业内部网发布。如果你在一群真人面前演示报告,则需要给对方消化吸收的时间。你可以提出问题引发讨论。一个成功的演示报告应该会引发很多讨论,因此是需要提倡的。
亚历克斯在一个四页的幻灯片上报告了具体的建议,以内容提要开始,随后引出具体行动。正式建议是具体的、可操作的并且得到利益相关者认可的。
- 通过研发产品修复系统漏洞,诊断IE6执行问题。这样,700万美元损失中的290万美元可得到修复。预计5个工作日完成开发,所需成本为15000美元。
- 在研发产品解决上述问题时,进行假设驱动分析,解释其余访问成交率的下降原因。
测试(下一章)
如果你使用BADIR分析框架去获取论点,那么,在你完全推出产品或服务之前,需要进行测试以减轻风险。测试将对你基于分析所得的结果是否可真正发生进行验证。换言之,分析和结果之间是否真的有必然关系。例如,负责“高价值客户”的URetailnline产品经理发现,注册URetailnline会员(年度会员,两天免费送货)的客户就是高价值客户。这是一个很棒的论点,产品经理可以利用这一点去激励客户注册URetailnline会员。
C05 预测分析
预测分析及其常见应用
+ 什么是预测分析
预测分析最常用的统计技术是回归法和分类方法。回归法为一个连续的变量(我们的预测目标)建立模型,通常使用线性回归,比如,建模说明一个客户的终身价值。分类法则是通过决策树或逻辑回归着眼于离散的目标。
以销售服装和配件的网上电子商务公司为例。公司拥有40%的购物车成交转化率。也就是说,100个把东西放在他们的购物车中的人,有40%会实际结账和支付。产品经理正试图确定最终成交的影响因素,以此增加成交率。用不同颜色的购物车按钮进行测试,分析测试数据显示,蓝色按钮有高出2%的成交转化率,这是强大的信息。因为经理只需使用一个蓝色的购物车按钮就可以从相同的起始访问者中赚取到增量收入。此外,三步结账(控制)与两步结账(试验)之间的一个相关分析测试也让他发现三步结账具有较高的成交转化率。
还有更多的变量会对成交转化率产生影响。要了解每个变量的相对影响,管理者需要借助一个组合方程,其中包括所有的影响变量,这样才能解释成交转化率的变化。因此,产品经理与数据科学家合作,建立了一个预测模型,使他能够理解成交转换的影响因素。在这个模型中,可以将这些假设属性放在一起,分析和理解一个变量(行为或事件)和成交转化率之间的预测相关性。然后,他只需简单地通过一个或多个预测变量就可影响最终的成交转化率。
他们发现,首要影响因素是谷歌结账的使用。它的结账过程中没有横幅广告,是主要的支付方式选择。此外,人们使用蓝色购物车按钮,三步结账,并且网页加载时间小于7秒。如果能做到上述几点,模型预测出成交转化率将增加7%。带着这些结论,产品经理现在可以进行测试,然后将这些变化运用到结账过程中,去获得成交转化率的增加。因此,预测分析通常会比单独使用商业分析更能产生成效,因为在这个过程中对大量的变量和它们之间的相互作用进行了评价。
在日常生活中,我们其实经常遇到预测分析,只是没有进行确认罢了。FICO评级是美国最有名的和最广泛使用的信用评级模型。随着你消费并支付账单(或不支付账单),人口和行为数据就被收集,而FICO正是基于这些数据在进行预测分析。FICO评分或者更准确地说,是FICO评分模型能使银行和信贷机构了解其客户的信用程度。
+ 预测分析的常见商业应用
除了信贷行业,传统上营销和广告会使用预测分析,目标是增加销售空间和提高营销活动的投资回报率。例如,基于信用模型(比如FICO和一个响应模型)的调查结果,你收到了信用卡优惠办理邀请。根据这些调查,适当的优惠会发给最有可能回应的具有顶级信誉的人。但问题是,公司是如何知道你是有信用的,为什么你更有可能做出回应?这是由你之前的活动和行为,以及其他具有相似属性的个人的活动和行为来判断的。
预测分析被广泛地应用在改善客户体验方面,例如保留和流失模型、客户服务操作、客户体验优化模型等。当客户放弃一个产品或服务时就产生流失,这是行业都担心的事情,但这是能被预测的。因为在客户放弃一件产品前会留下迹象,预测分析可以检测出这些迹象,接着主动识别出这些客户,并相应地重新激发他们的购买欲望。
你打电话给你的电话公司,可能被传送给一个远程在线的客户代表、一个国内客户运营中心或坐落于巴西的近海客户运营部。具体转接到哪里,是根据你的预测终生价值,以及特定的客户体验属性来决定的,比如你和一个非英语为母语的人交谈是否会感到舒服。
+ 建立预测模型 - 理论和实践
- 相关术语
时间窗口
观察窗口是你的一段观察期以及收集独立变量进行分析的阶段。你需要确定观察窗口的起点T0
,确保建模所用的样本数据来自观察期。以我们的购物车为例,如果你决定对所有的购物车活动观察一个星期,那么你的观察窗口即为一个星期。预测窗口是用来预测因变量的时间段。
你需要T2时刻的因变量值,即在预测窗口结束时的值。预测时间窗口可长可短,取决于你要预测的未来有多远。一般来说,预测窗口越长,预测的误差越大。然而,一个较短的预测窗口对商业的作用也较小,因为在预测的目前状态之前,业务采取行动的时间很短。在预测窗口,你可以设定30分钟的预测期,预测各段对话的成交转换率。在这段时间内,你将观察成交是否发生。
相关性
指两个或多个随机变量之间的线性关系的统计测量,以相关系数(r)来表示,取值在+1和-1之间。预测模型是利用T2时刻的因变量和T1时刻的独立变量之间的内在关系。如果相关性越强或是找出越多的潜在相关因素,模型的准确性就越高,这就是为什么一定要提出一系列好的假设。
混淆矩阵
一个评价模型性能的方式。这是错误预测总数和预测总数之间的比例。它是扩大容忍度以获得更多可能的结果(敏感性)和收紧容忍度以得到更具体的结果之间的权衡(准确性)。错误分类率越低,模型就越好。
- 常用的预测技术(前3个蕞常用)
线性回归法
一种对连续因变量(y)与一个或多个连续的独立变量(x1,x2,…)之间的关系进行量化建模的统计方法。最常见的应用是预测客户终生价值(CLV),例如预测一个客户一生能带来的总收入(y=CLV)。通过建立模型,你发现CLV的首要预测因子是客户至今为止的历史年收入x1、年度所得x2等。线性回归预测y是x1,x2,…,xn的一个函数。这条函数线能使每个数据点到它的距离平方和最小。用公式表达如下:
逻辑回归法
这是回归法的一种特例,在逻辑回归中,因变量是不连续的(见图5-3)。逻辑回归的因变量是离散的或分类的,主要为0-1二分变量。当面对一系列独立的决策或离散的行为,如客户流失和舞弊预测时,逻辑回归法是最常用的。假设我们正在预测一位客户是否会流失。在这个等式中,p表示流失概率,用流失发生率log(p(1-p))取代上面公式中的y即可。当你建立模型时,你会发现客户是否流失的首要预测因素是花费在帮助页面的时间x1
、收入水平x2等。逻辑回归模型预测客户是否流失是x1,x2,…,xn的一个函数。用公式表达的话,它看起来像这样:
决策树
根据递归划分产生的数据,制成自上向下的分类结构。即通过反复的评估和每个节点划分,直到该模型能够提供所需的结果。决策树是一种贪心算法,有助于迅速确定最重要的预测因素。这是最直观的技术,使自己融入有规则的情境中。在我们的例子中,我们用决策树来帮助金融机构预测向客户扩大信用的风险。如果客户有超过40000美元的收入,没有高负债,或如果客户的收入虽然低于40000美元,但他们不是租赁人,那么决策树会输出规则:他们的信用良好,可以信贷给他们。在这里,因变量为风险(好与坏)、收入、高负债,信贷者状况则为预测因素。
- 怎样建立预测模型
无论是预测分析还是商业分析,BADIR框架均与利用数据驱动决策有关。当用作预测分析时,使用的具体活动和事件会在BADIR步骤2到步骤5中有所区分。
预测分析和商业分析在这一步是一样的,在确定使用什么方法之前,这一步是非常关键的。如果你的分析没有出错的话,你应从第一阶段描述的简单商业分析方法开始,到后续阶段中,再使用更先进的技术(如预测分析)来证明。
步骤1:商业问题
上面的示例中,我们通过优化次优产品的(NBP)建议,帮助支付公司降低了70%的营销支出,利润增值为2000万美元。产品团队已经使用简单的分析观察到,多项产品所有者比单一产品所有者更有利可图。他们在过去进行大规模销售,将每个产品推荐给每个商人,结果增加了退订率,使商家烦恼该采用哪种支付方式。在步骤1中,我们使用商业问题框架,发现真正的商业问题是:“我们应该给哪些人(商家)提供哪种次优产品,以及这样会获得多少利润?”产品开发主管是关键角色,但营销主管也是一个关键利益相关者,因为她的团队将利用该模型去向商家营销。如果有必要的话,也可以进行未来三个月的预测分析。
如果选择预测分析,则还需要额外的参数,包括时间窗口和样本送取战略,这些将被列入数据规范内。确定项目计划时,要与内部和外部都进行了交谈,分析计划才算是完整的。然后,在启动会议上,还需要利益相关者同意此计划,相关人员要同意加入。
步骤2:分析计划
仍以上述支付公司为例,我们将分析目标缩小为:“依据一个积极的商家经历,将其过去采用的产品作为指标对其进行优化,对个别商家做出次优产品评估,增加利润。”我们基于利益相关者的头脑风暴,产生超过200个假设,并选择将他们全包括进这一阶段,因为这对预测分析是有利的。相比于商业分析,预测分析的重要优势在于评估大量假设的能力,并使用先进的统计方法来快速地完成。但请记住,如果你有更多的假设,无论你采用哪种方法,数据收集都会花费更多的时间。当下一个最好产品是一个离散的结果时,我们决定使用决策树和逻辑回归作为预测分析方法。有时候,使用不同的技术可建立多个模型,从而选择错误率最低的最佳模型。我们为所需历史数据进行数据规范。为优化公司利润和体验的推荐引擎,我们设计了一个创新的启发式近似法,为下一个具体产品的采用概率添加利润指标。在启动会议上,客户非常看重我们的方法,因为这为他们提供了一个简单的解决方案来优化客户体验,客户通过下一个产品的采用实现了利润的增加。一旦我们的客户达成既定的目标,利益相关者将承诺给出他们的最优资源和时间来促成这个项目的成功,这是任何分析项目实施和成功的关键。
步骤3:数据收集
步骤4:得出结论
本部分介绍了的内容其实就是特征工程。关于分类等方面的机器学习应用描述比较笼统。
预测分析需经过大量的统计过程,包括变量的选取(选择最优独立变量),建立模型来确认自变量与因变量之间的关系,以及模型验证,直到最终确定方程和独立变量。
变量的选择是一个迭代的过程,其中需要不停地转换和处理独立变量,以增加对因变量的预测能力。对于NBP模型,其中的一个独立变量是账户创建日期。处于原始状态的变量(如日期)是不能用于建立模型的,因为它不是一个连续变量,也是没有意义的离散值。因此,用账龄代替账户创建日期变量,即商家变成客户需要多久。然后,我们计算账龄与NBP之间的相关性。在此基础上,还需要对账龄进一步变换。我们发现,比起其他形式的数学变换,账龄的平方根与NBP有更高的相关性。类似地,对所有200多个变量,都像这个变量一样被适当地进行了变换,并选取与NBP具有最高相关关系的变量形式。
模型的建立也是迭代的,以上过程需要被不断重复,直到模型被确立下来。在这过程中,需不断检查错误分类和误差的影响,直到从商业视角来看,模型可被接受为止。在训练样本的基础上建立了模型之后,还需要在观察期内验证模型的稳定性。而利用观察期外的样本再次验证确认该模型,则可以确保训练样本没有受季节性因素或临时干扰的影响。
一旦模型被验证确立,就该与利益相关者进行沟通,以确保能取得最终需要的预测因子等输入变量,保障模型的性能。然后,你可能需要适当地进行调整,比如,由于商业背景发生了变化,那么就需要去掉某些预测因素,因此历史数据的收集或模型参数也会发生改变。
例如,对于支付公司,我们开始有200多个变量(从约200个假设中开始)。我们将训练样本根据商户目前选择的支付方式,将基础产品类型分成许多子样本,然后使用变量选择将其缩小到60个变量,并用逻辑回归法确定前35个。接下来,我们为每个分组建立一个多级决策树(见图5-6)。一个多级决策树中自变量有超过两个的离散值,如产品A、产品B、产品C等。在最后一组决策树中,我们使用了30个随机的预测因素去制造规则,以方便利用数据库信息进行评分。例如某条规则为,如果商家使用的基础产品A,年销售额已经超过500000美元,在最后6个月要求客户服务超过3次,在过去6个月中的损失额超过20000美元,那么,NBP=产品Y;预计每年能带来增量利润(EIP)=300美元。
步骤5:提出建议
BADIR框架的最后这一步是向利益相关者展示模型,提出建议,促使其付出行动。这可能涉及模型的部署,例如在NBP评分案例中,需在数据库中评估模型逻辑;或在客户流失模型中,需靠学习来解决问题,对客户流失模型往往不采取数据库评分的方式,因为通过模型学习到的内容是用来控制流失影响因素的,例如,糟糕的客户服务体验。
- 预测分析功能强大,但要小心过度使用
预测分析需要耗费的资源和时间是简单分析的10~20倍。它需要先进的工具和技巧、历史数据的支持、可操作化、现场验证和持续的维护。这就是为什么我们不能利用预测分析先发制人地解决每一个业务问题。如果做对了,可通过商业分析发现机会,为预测分析奠定基础。而且,它需要有较大的成功概率和显著回报的承诺,并得到组织的支持,然后才能让预测分析有意义。
一个金融B2B客户让我们调查它的风险政策和对客户体验的影响。风险小组要求客户一旦达到一定的信贷限额即须核实他们的身份,并提供额外的文件。客户发现这一要求后十分沮丧,因此该政策造成了每年1200万美元的客户流失。为拯救他们的客户,风险团队建立了生存模型(预测分析技术)来预测每个客户达到信用限额所需要的时间,这样公司可以主动向客户提供额外的文件,把代理时间侧重于处理传入的文件。该模型的建立预计需要三四个月,并且我们的项目将把预测时间作为输入变量放到影响分析中。(在强制要求文件前,提前沟通,减少阻力)
利用BADIR框架的相关分析(商业分析技术),我们在10天之内建立了一个简单的逻辑分析,正确地预测了在未来3个月将有80%的客户达到他们的信用限额。我们分享了调查结果和其中的原理,然后开始执行此项目。风险小组迅速采用并实施了我们的逻辑分析,将其用作预先检测机制。这导致生存模型项目报废,虽然它尤其能为个别客户更准确地预测达到限额的时间,但我们的整体水平预测结果对风险团队来说已足够了。它使用简单的逻辑模型为团队节约了4个月的时间,节约了有关的成本和资源。此外,还立刻能为客户节省1200万美元的收入流失,并减少与客户之间的冲突发生。(简单的速赢项目)
场营销人员、产品经理或运营经理将BADIR数据运用到决策框架中,通过数据可以优化他们80%的日常工作流程(如上面的例子),并且不需要依赖于稀缺和昂贵的分析资源。对于剩下的20%,潜在的投资回报率证明了预测技术的作用,他们可以与同行分析人员一起合作。这展现了分析可以为组织获得良好的运营。相反,当组织和他们的领导人被围绕的大数据和预测性分析的炒作误导,最终一边倒地去投资先进数据分析工具和资源时,经常导致较差的投资回报率。
- 更多的预测分析资源
介绍了一些数据挖掘的资源,其实数据挖掘是传统厂商对于数据分析的定义。商业分析BADIR、数据分析流程、数据挖掘流程互有重叠,侧重点不同。
Data mining:
- SAP https://www.sap.com/insights/what-is-data-mining.html
- SAS https://www.sas.com/en_us/insights/analytics/data-mining.html
- IBM https://www.ibm.com/cloud/learn/data-mining
- 3Party https://bootcamp.rutgers.edu/blog/what-is-data-mining/
- 3party https://www.investopedia.com/terms/d/datamining.asp
:::info
Part3:领导工具包
:::
C07 分析和领导者
定义你所在企业的分析成熟度
+ 第一个方面:领导力
麦肯锡(McKinsey)在2011年关于大数据的报告中指出:“分析大数据集……将成为竞争的关键基础,支撑生产力增长、创新和消费者盈余的新浪潮……每个领域的领导者,而不仅仅是数据导向型管理者,都必须应对大数据的影响。”
此外,数据装备型领导必须在进行关键决策时,坚持以数据作为决策依据。他们不仅要依靠数据来证明或反驳他们自己关于商业机会的假设,而且还应从数据中学习以发现新的机会并识别差距。如果你的企业还处于分析成熟阶段的早期阶段,那么可在构建企业愿景时,将企业的开发分析能力纳入其中,用来指导全公司的投资决策。
可能还有其他方法可用来优化决策,比如运气、胆量、宗教、魔法,但这些都不能提供一致的、可重复的结果。基于可计量数据和文档分析,可以帮助你做出更明智的决策,从而实现一致的、可重复的成功,你可以在这些成功的基础上继续学习并利用其成长。
+ 第二个方面:分析人才
麦肯锡大数据还预测,到2018年,企业需要收集待处理的数据量将会增多,因此会产生140000~190000个数据分析人员和高达150万个分析商业经理的人才缺口。事实上,人才短缺问题已显而易见。这既是挑战也是机遇。3
随着更多的商业专业人士具备数据–决策的技能,且分析能力又成为企业对其人员的核心需求,这一缺口是可以消除的。
- 商业方面的分析人才
无论你是每天从事分析工作的商业专业人员,还是企业主或领导者,你都需要使用数据来查找可为你和你的企业带来更好结果的各类信息。无论是为大型商铺进行季节性库存规划还是为零售店配备员工,了解数据趋势(例如过往销售量或每日客流量)都有助于优化库存和资源。参与决策的商业专业人员需要通过某种工具轻松访问数据。此外,他们还需要发展三种重要的能力:
- 实践商业分析和测试:商业专业人员需要对一个结合数据科学和决策科学的数据–决策框架进行理解并亲身实践。对于数据科学,他们应了解基本的商业分析方法,能够在Excel中执行操作,并且对A/B测试有基本的了解。这将有助于解决他们80%的商业问题。
- 与分析师有效合作:他们需要与数据科学家和分析师有效地合作,以取得他们(对于80%的可解决问题)对实际工作的支持,并与他们合作解决需要高级分析的复杂问题。
引导性高级分析:他们需要对预测分析(包括回归、决策树和细分分析)进行全面的了解,以便在需要时能有效地与分析师交流。
- 数据方面的分析人才
分析专业人士还需要数据和决策科学技能来分析数据并开发人际交往和商业技能,以弥合数据与商业之间的差距。大多数企业发现,招聘受过商业分析培训的人很不容易,因为正式的分析教育直到最近才出现。但是,你可以对那些表现出分析能力的内部人士进行培养。
实践商业分析和测试:分析师还需要具备对于包含基本商业分析方法的数据–决策框架的实践经验。他们特别需要强大的决策科学技能,通过影响力和沟通来建立同盟,从而显著影响商业。如果企业涉及测试,他们需要有坚实的测试和学习基础,也称为A/B测试。
- SQL技能:数据分析师必须熟练地从多个来源提取和整理数据。编写SQL查询以及掌握Teradata和Oracle等工具的经验非常重要。对大数据工具(如Hadoop)拥有一些了解也将起到帮助作用。
- 实践高级分析:分析师需要具有先进分析技术的实践经验,例如预测分析,包括回归和决策树、时间序列,以及根据商业需要,对所获得的文本进行分析的实践经验。
- 统计工具:要执行高级统计分析,分析师需要具有一个或多个统计工具(例如SAS、R语言、SPSS或Knime)的使用经验。
+ 第三个方面:决策
在诸如战略、营销、产品、运营、设计和创新的商业功能中有许多机会,使用数据分析可以做出更好的决策。例如,公司的营销预算分配是一个良好的决策机会,因为在这个过程中有很多方法来划分预算,并存在许多目标群体和子群体。你是想要增加客户的终生价值还是希望获得新客户?大多数公司看到很多可能性,但没有足够的预算来实现这些可能性,而这正是数据驱动型决策的价值所在。
例如,CEO不能在企业的所有职能和层面上做出个人决策。公司内部的有效决策结构将授权商业负责人以及广大成员,通过了解其所处的商业环境并清楚知悉公司愿景来做出决策。解决方案是建立一个让企业中每个人都理解的透明决策过程。在战略层面上,这一过程应清楚地表明:
- 获得资助的项目类型。
- 项目选择的评估标准。这可以包括财务和非财务指标,如客户满意度、创新、可持续性和社区影响。
+ 第四个方面:数据成熟度
Capital One的另一个突出之处在于它投资建立了一个坚实的数据成熟度基础。仅有少数企业能保证它们的大多数数据在到达数据仓库时仍是清楚的,而Capital One便是这样的企业之一。事实上,因为数据非常清楚和可靠,当趋势发生突变时,Capital One不需要再次去验证数据。相反,趋势的突变意味着肯定发生了某件事。
我们的许多例子证明,对数据分析的投资是值得的。然而,为了获得回报,数据团队必须能够收集和存储适当的数据,并确保分析师和商业用户能够无缝访问这些数据。然后,企业可以生成那种带来制胜决策和成功策略的数据指引。这是分析回报的来源,也就是我们所指的投资回报率。
数据成熟度包括四个主要方面:基础设施、访问、可用性和仪器化过程(可以理解为平台)。
有效的数据基础设施应具有如下品质:
- 设计和结构开放、灵活、安全。
- 可扩展处理更多的数据和用户。
- 可扩展处理更多和不同类型的数据。
- 可处理复杂查询和大量数据。
- 可以与大量且不断变化的系统、技术和工具进行交互。
- 授权用户(无论是数据分析师还是商业用户)都可轻松安全访问。
开发有效的数据基础设施最困难的方面并不是硬件或技术的选择,而是你的信息系统的设计和架构。如果你的企业中没有信息架构人才,请聘请外部顾问来设计能让你的内部团队可以理解的信息流。但是请注意,不需要过度投资收集所有可能的数据。如果你正确解决了这3个关键问题,那么你和你的领导团队将会确定你们在商业理解上的差距,突出所需的数据类型,并且请记住,随着你的商业发展,所需的数据也将增加。
C08 分析竞争
一个精心制定的分析议程有助于通过管理和重新校准企业驱动因素,将企业的目标与关键绩效指标(KPI)结合起来。让我们谈谈如何利用“3个关键问题”框架创建一个最佳分析议程,然后再来看看你的企业结构可以如何来支持这个议程。
三个关键问题框架
在进行分析成熟度评估后,你确定你的企业已准备好成为数据赋能型企业。现在的重要问题是:“你应该从哪里开始,你应该如何处理这些数据?”显然,你需要一个分析议程。本章将告诉你为实现分析目标,你预期将需完成的事项,我们将其视为整个企业的高级分析计划。最重要的是,如果要让这项计划有效的话,那么就一定应当包含在企业跨职能计划当中。
需要对你的数据提出以下3个关键问题,然后再根据问题答案去运行你的业务:
- 用一个测量框架来回答:我现在做得怎么样?
- 用投资组合分析来回答:业务驱动因素是什么?
- 用客户分析来回答:我的客户是谁?他们的需求是什么
+ 第一个支柱因素:测量框架(做得怎么样)
通常的回答是财务方面的,例如收入、交易利润率、投资回报率等。但是,我们还可以用其他方式来回答这个问题。例如,你可以使用平衡计分卡,它能将财务信息与非财务指标(如客户满意度和股东价值)相结合。无论在哪种情况下,你都希望定义主要指标或KPI,然后确定二级和三级影响因素。这些可以是企业内部单位的个别指标,但应与总体商业目标和优先级相一致。
测量框架建立全面和可重复的步骤,用于评估公司是否达到了你自己设定的目标。一旦创建了测量框架,你就可以选择最有可能推动公司KPI的正确项目(分析或其他)。关键是要将指标分解到可以受项目影响的水平。如图所示,交易利润率可以作为KPI。所有其他指标,例如收入、流失的客户数量等,都是影响因素。在这里,我们从数据中得出的结论是:减少流失的客户数量可以增加收入和利润。一旦确定,你可以调整内部项目,比如进行客户流失分析,以处理这些影响因素。
+ 第二个支柱因素:组合分析(驱动因素是什么)
这个问题能让你理解你的商业动力。你的各个不同产品的绩效如何?根据它们之间的相对绩效,你能发现哪些新的机会?现在你已经从测量框架中确认了正确的影响因素,你可以观察这些影响因素在不同的产品或服务分部的表现,开始了解你的投资组合的动力。一般来说,首先要查看整体利润报表,了解你的产品、服务、商业单位或其他业务部门的相对业绩,然后通过创建一系列2×2或2×2×2矩阵来进行比较,从而以不同的计量指标反映公司的组合情况。
一旦你对产品组合有了充分的了解,就可以利用数据来分析你的风险和机会,并推动那些对公司有所助益的项目。例如,通过查看图中对增长和利润有推动力的产品,你可能会发现某种产品(产品C)具有高增长和高利润。因此在确定你的黄金产品或明星产品后,你可以构建一个交叉销售预测模型来识别那些有可能购买黄金产品的重要客户。这是一个如何通过分析使项目对业务产生推动影响的例子。这种分析矩阵还可以提供进一步的论点,比如想一想为什么产品G是一个具有高利润但低增长的产品。只要理解了为什么它的增长会低于平均水平,就能帮助你最大限度地改进产品。
+ 第三个支柱因素:客户分析
客户的行为是怎样的?他们如何使用我的产品?他们需要什么?这些是你在进行客户分析时的关键问题。客户的特点跨几个类别,包括人口统计特征、需求和行为。
通过查看相关客户数据,你将获得关于客户的新观点。很快你会拥有大量不同属性的客户。不同客户属性所构成的大矩阵意味着有很多客户信息可供提炼,但由于矩阵很大,这些客户属性往往混合在一起。你可以使用简单的细分,例如RFM(近期、频次、货币金额)或高级细分,例如聚类技术,将你的客户群分成5~7个最有意义的细分群体。在图8-5中,我们将客户群分为7个细分群体。
一旦将客户按有意义的属性进行细分之后,可将客户群体绘制成有意义的2×2矩阵,用以指导公司的客户吸引策略。图中显示了如何按不同的客户群体去确定项目从而吸引客户。例如,你可以针对公司的获利情况和成长阶段,并根据客户类型(国际客户、奖励爱好者或是技术专家)制定定价策略。
团队组成
在一家公司中,如果商业专业人员不具备数据–决策的技能,则一个分析团队可以由3名商业分析师、2名数据分析师和1名预测分析专家组成,这样可支持一个由20名商业专业人士组成的团队,包括营销、产品、运营、设计、策略和其他功能。
·在一家公司中,如果商业专业人员已经拥有数据–决策的技能,那么分析团队可以由数据分析师和预测分析专家组成,可以支持多达20名商业专业人员。
C09 分析师领导者的攻略手册
现在你已完成了之前的步骤,评估了企业的分析成熟度,确定了你的分析议程,为分析目标调整了适当的企业组织结构,并确定了人员配置、角色和技能。那么,你该如何将这些协调起来呢?这个攻略手册,对于新上任的分析部门责任人特别有用。我们建议以下面这两个简单的步骤设置分析型的企业.。
C11 常见的陷阱
本章包括作为商业领袖、分析领导者、商业用户或分析师,你可能犯的关键错误是什么?如何避免犯这些错误? :::info Part4:实践中的分析:十个案例研究 :::
- 奥巴马赢得连任
- 美国女子场地自行车赛赢得奥运比赛
- 孟菲斯市打击犯罪
- 控制疾病暴发
- 揭露J.K.罗琳化名出新书
- 本书书名的确定
- 谷歌的创新秘诀
- 扭转汉弥尔顿县高中的辍学率
- 防制洗钱
-
附录 商业统计101
平均值
- 标准差
- Z值
- 误差
- 相关性
Plus
本书作者的咨询公司Aryng的链接:https://aryng.com/,同时也有不少高质量的文章,可以参考。
BADIR的框架与传统商业分析框架相比,更侧重于加入了商业分析的内容,将整个分析工作在企业中的闭环描述得非常清楚。