无论是身处什么行业什么领域,数据分析越来越成为一向必不可少的技能,而运用数据思维进行决策更能产生形成高质量的决策结果。
数据分析正在渗入到各行各业的商业活动中以及各种细小决策中,判断一个人了是否有数据思维,最核心的因素是看他有没有通过数据分析做决策的习惯。
一个合格的数据分析师要掌握各种数据分析模型和算法以及熟悉SAS、R、Python等统计工具。有些人可能会说,数据分析的门槛太高了,其实除了数据工作相关产品经理和分析师,并非所有产品经理都需要熟悉数据分析模型和工具,日常大部分数据分析都能够通过Excel分析出来,如果是比较复杂的数据,产品经理可以通过自己了解业务知识与数据分析师有效的协作,做出有数据依据的决策。
但是每个产品经理都需要了解数据分析思维的重要性,以及熟悉数据分析思维工作流程。
数据分析思维的由来
过去人们做决策主要靠定量分析,定量分析的决策依据来自于决策者的经验和直觉,这种决策的缺点主要在于决策结果的不可确定性,决策失误的概率很大。
随着互联网的不断发展和物联网设备的不断普及,人们活动的各种数据被有意识的存储下来了,数据的收集,让我们可以通过定量分析数据,利用数据实现更好的决策制定。
比如像很多互联网公司都成立了大数据团队,收集用户的社交、电商、搜索行为等数据,通过所搜集的大数据来制定商业决策依据,以及通过数据挖掘形式,找到创新产品的机会。
大的互联网公司在满足自己内部决策需求的同时,也成了了大数据部门给其它公司进行赋能,比如蚂蚁金服的数据产品芝麻信用,不仅能够成为蚂蚁内部各种金融产品的信用审核依据,也开放给了很多行业如出行、金融、共享服务公司等,极大提高了基于信用服务的门槛和便捷性。
熟悉NBA的球迷都知道,勇士队曾长期以来一直是联盟里的鱼腩球队。但是自从来自硅谷风险投资者拉科布收购勇士之后,把数据分析的思想充分融入到了球队的训练之中,他们雇佣了许多数据分析师,为球队提供咨询帮助,并最先在球馆中引入球馆录像和分析系统,为了更好地监测球员的健康状况。
同时他们根据团队对历年来NBA比赛的统计,发现NBA最有效的进攻是眼花缭乱的传球和准确的投篮,而不是看似观赏性很强的突破和扣篮。在这个思想的指导下,勇士队开创性的发明了小球战术,以三分作为主要进攻手段,开创了四年夺三冠的王朝伟绩。
数据分析流程分为发现问题、数据的收集和加工、数据分析、解决对策四个步骤。
发现问题
在工作中并不是所有的事物都需要用到数据分析,只有出现了问题才需要用到数据分析。一类问题是对现状的不满意,另一类问题是对未来的预测。
在数据分析中,发现现状问题有一个万能的公式,即问题=预期和现状之间的差距,比如当商品广告投入和产品质量没有变化的情况下,本月用户的平均消费金额下降了。如果广告和产品质量没有变化,正常的情况是本月用户的平均消费金额不变才对,现状却是本月用户的平均消费金额减少,那么我们就认为这里有问题需要被挖掘,利用数据分析的方法,去发掘问题背后的原因。
那么如何找到预期和现状之间的差距呢?
有两个办法找到预期和现状之间不符的情况下背后的原因。分别是:将数据分解后观察和将数据比较后观察
1. 将数据分解后观察
一般一个预期结果由多因素决定,可以将现状的数据分解后进行观察什么因素对结果的影响。对数据分析来讲,比较有效的数据分解方式是因素分解方式,即对数据结果进行四则运算分解。
比如:本月平均消费金额=本月消费总额/本月消费人数。
所以本月平均消费金额减少,要么是本月消费总额减少,要么是本月消费人数增加了。接着我们可以去深挖为什么本月平均消费金额减少或者本月消费人数增加,直到找到最根本的原因。
如果数据不能由公式进行分解,那么需要讨论数据结果的所有决定因素,以及每种决定因素影响的大小,然后分析有变化的决定因素。比如产品本月用户满意度降低了,满意度并不能通过因素分解,那么可以分析满意度所有的决定因素,比如涉及满意度的因素可能有售前和售后服务效率、产品质量、品牌影响力等因素,看看是否有因素发生了变化,如果有因素发送了变化,那极有可能是影响满意度的决定因素。
2. 将数据比较后观察
将数据比较后观察指的是发生问题的数据和未发生问题的数据进行比较,从而找到问题的原因。数据比较的方式比较多,比如按时间序列进行比较,比如昨天和今天的比较、上月和本月的比较、上周和本周的比较、去年和今年的比较,以及同一个活动上次和本次的比较等。
也可以空间进行横向比较,比如和竞争对手的数据进行比较,公司内部不同部门之间的数据比较等。
还有一种重要的方式是按照用户的属性数据进行比较,常用的用户属性有用户性别、用户来源、用户操作系统类型、用户手机类型、用户年龄、用户地域、用户偏好等。
数据比较看似原理比较简单,但是解释了为什么我们做的报表和数据分析经常要做比较,因为只有比较才能发现问题。
数据的收集和加工
不管是现状问题还是对未来的预测,数据收集和加工的过程是非常重要的,数据的收集和加工是整个数据分析过程的“原材料”。如果没有丰富的“原材料”,那么“巧妇也难为五米之炊”。
1. 数据收集
一个有数据思维的产品经理,在产品设计阶段就会尽量把数据提前收集,做数据埋点和数据校验,保证数据的精准性和完整性。比如设计一个APP的埋点包括启动次数、页面访问时间、功能点击次数等。
数据校验也很重要,千万不要想着功能先做上去就好了,数据校验可以慢慢做,这样造成的影响就是在数据统计的没有校验的数据统计价值不高。比如下图中的
系统中,在录入车辆品牌的时候,直接是录入操作,而不是品牌选择,这意味着没有做数据校验。
没有做数据校验的字段意味着用户可以随意填写该字段,如下图:
在做数据收集的时候,同样一个车辆型号,有多行记录,在数据收集和分析的时候,就需要去额外的投入去判断哪些数据其实是一个数据。
今日头条作为一款成功的新闻推荐产品,能做到信息推荐的千人千面,这得益于他们数据收集的完整性,完整性体现在头条把用户数据分为人的特征、环境特征、文章特征等。每个特征又分为很多更细化的特征,如文章特征又分为文章时效性、文章热度、相似文章、停留时间、阅读的细节行为等。
头条甚至能通过数据了解用户什么地方快速划过、什么地方仔细阅读过等数据,完整的数据收集为头条众多的算法策略提供了数据原料。
在数据收集时,从数据的获得成本来讲,代价最低的是收集已经保存的数据,所以产品经理在设计产品的时候,就需要考虑数据保存。
代价最高的是从外部去购买数据,比如在互联网金融中,很多平台会从第三方大数据机构中购买反欺诈名单、黑名单、多头借贷等数据,外部购买的数据一般是按每笔收费。
2. 数据加工
数据收集完成之后就是数据加工,大部分数据都零散的存放在数据库中或者文件里面,所以数据加工首先需要将数据整合在一块,如果数据保存在数据库中那么需要用SQL整理,如果数据保存在文件中那么就用Excel或者R语言整理。
数据加工的目标是为了得到数据指标的结果,数据指标是我们日常工作的数据化表现,比如我们上面讲到本月消费总额和本月消费人数。越是数据驱动的产品,数据指标越多,指标越精细,比如上面今日头条的基于人、环境、文章等非常精细的数据指标。
除了常规的数据指标,在数据加工的时候还需要对一些连续数据进行指标离散化,在数据加工阶段,为了在数据分析的时候,方便采取更准确的决策,我们可以把一些连续数值的数据离散化。
阿里巴巴有了用户的历史消费行为、消费能力、支付数据等数据之后,在数据加工阶段,可以把按风险把用户分为不同的层级。如下是网商银行对外输出的客户风险评级:
- A为1-3层用户,属于最优质人群;
- B为4-6层用,属于良好用户;
- C为7-8层,属于风险较高用户,C1为第七层,C2为第八层;
- Other,为拒绝用户。
定义好离散化的数据指标之后,那具体哪些用户属于什么评级呢,这就是数据分析阶段需要做的事情了。
数据分析
在数据分析中,根据问题的难易程度可以用到“决策支持”和“系统优化”的分析方法。
1. 决策支持
决策支持是通过简单的求和以及易于理解的分析模型,帮助用户做出决策,比如对比本月同比和环比用户平均消费金额,从而决定通过什么决策活动来提高本月的用户平均消费金额。比如建立一个广告投入因素和新增用户的关系模型,就能够预测投入多少广告额,能带来多少新增用户。
简单的关系模型产品经理是能通过Excel表格分析出来的,如柱状图、折线图等。
如果一项因素引发问题的因素很复杂,则需要建立一个由多个因素组成的预测模型。通过这个模型,我们可以观察模型中某个因素对整体结果造成的影响。预测模型需要用到的统计方法有交叉列表统计、统计学假设检验 、多元回归分析等,这个阶段大部分产品经理都需要求助数据分析师的帮助了。
2. 系统优化
系统优化指的是帮助用户构建让计算机执行的方案算法,常用的系统优化方法有机器学习。
相比简单模型的决策模型,系统通过机器学习方法分析出系统中更详细的因素,比如系统优化能分析出广告投入多少金额,能带来新用户的快速增长,以及广告投放中具体什么投放渠道,效果最好。
机器学习的优势在于能从数据中学习出其本身包含的模式和规律,并以此来建立模型。比今日头条,就是通过分析我们过去浏览的记录,利用机器学习建立模型,从而给我们推荐类似的内容。系统优化用到的统计方法有逻辑回归分析、聚类、主成分分析、决策树分析等。
解决对策
对于数据分析中决策支持的得出的结果,我们可以通过决策结果直接决定做或者不做某事,对于数据分析中系统优化得出的结果,我们可以在计算机上执行解决问题的决策算法。
无论什么决策结果,都需要评估执行决策结果的成本以及决策风险。
为了评估成本和风险,在做决策的时候,我们可以通过把预估的数据代入到决策模型中,进行模拟仿真,从而得出可能出现的结果。
与此同时,我们还需要不断的和周围的人传达我们整个数据分析的流程,告诉他们我们的决策是有数据依据的,这样有助于推进决策结果的推进。