(这是个人总结的第一个版本,会随着自己的认识变化继续演化。)

分析人员的能力构成

Drew Conway 于 2010 年绘制了下图,流传一时,虽然经常遭受批评,但其概括性仍然上佳。
数据能力的主要构成仍然未变:业务知识 + 分析技能 + 工程化能力

本 Datapedia 的初版目录,基本上约等于这三块内容细节展开。后续我不断增添新的内容,才拓展到更大的范围内。
image.png

思辨

不过,上述三大块能力都还未触及我认为的真正核心能力:思辨
缺乏思辨精神的分析人员,很难长时间维持对某些具体问题的挖掘研究,也很难在工作实践中磨砺提升自己的 skill set,很容易缓慢沦为单纯的工作机器,譬如表哥表姐、调参侠。

分析的核心理念

核心理念的含义是什么?我个人认为下面这些基本意识应当成为分析工作者的本能(Instinct)。它们可能在分析工作的每一步中都有所体现,但更多时候完全融入到工作的每个环节里,并不凸显。短时间违反某一种理念可能不会有什么大问题,但长期违反的话就很可能导致重大的分析失败。

(0)偏重理性

分析师往往号称崇尚理性,但谁又能做到完全的理性。我们的工作当然倚重于理性因素,但感性的力量也常常会发挥正面的价值。直觉、经验、灵感往往可以带来不错的效果,为我们提供一些方向性的意见,帮我们快速排除一些劣质选择等等。当然不能让感性牵引我们的工作,分析师需要学会善用感性因素,准确识别之后利用理性方式分析处理。所以偏重理性,也要会把握感性。理性到目前为止给人类提供的最优势的工具包大概就是科学。

(1)假设驱动

提出一个假设,再设计方案去证实或者证伪。这样的工作方式既有其依据,也有其好处:

  • “假说”一直推动着科学发现。也提醒着假设的求证人要理性科学地求证。
  • 如果无法针对研究的现象提出合理的假设,几乎意味着我们还没能足够理解这个现象,处于无知状态。
  • 假设的提出,天然地要求我们去寻求证实。此时,待研究的现象就被转化成了可工作的问题。
  • 求证假设的工作方式,比起肆意求证东一下西一下的方式,明显地更加有方向性,更有条理。
  • 不同的假设按期预估合理性高低,可以自然地形成工作的优先级。

    (2)循环反复

    循环反复是所有数据分析工作流程介绍文章中都可能提到的。循环,数据分析工作流程本身是个循环上升的知识发现流程,并且大型分析项目又是由多个小的分析循环并列或者衔接而成。反复,出现数据异常、假设无效等情况时要回到之前的步骤,重新执行的过程。循环反复确实体现了数据分析中苦、累的方面,分析人员心里有这个概念,就容易避免一些不切实际的高预期,也更容易坦然接受一些负面因素,专心于分析的核心工作之中。

    (3)流程化

    不少工作都会呈现某次同类重复的情况,数据分析工作流程如此、数据技术相关的工作流程也如此,我们分析的对象—业务流程—也如此。流程化的思维指导我们将一些重复性工作以某种方式固定下来,也指导我们对业务流程的抽象思维。

  • 流程既意味着对顺序的切分,也意味着顺序之间的承接。

  • 流程化可以稳定质量。
  • 流程化可以提高效率。

    (4)回归业务

    “从业务中来,到业务中去”是数据行业老师傅们常给晚辈的教导。忽视分析结论在业务上的真实含义,忽视分析建议在业务上的可行性,是初级分析师无意识下常犯的错误。分析师得努力学会,在设计分析任务之时,就能尽可能准确判断产出的业务价值量和执行可能性。等到拿到分析结论后,不能干巴巴地给出几行建议问题,最好能够带着这份结论先和业务讨论制订一些可能方案,再将结论和建议作为完整的分析交付物给出。

    (5)要事优先

    二八原则明示了我们,工作中小部分事务的价值远大于其他大部分事务。分析师是自己工作价值的最后守卫者,不是你的需求方,也不是你的领导。工作里永远有做不完的事情,将重要的事情先做,实在来不及的小事情,就随风而去了吧。另外一方面,在评估分析工作的业务价值时,也以这个原则将重要的事情挑出,赋予高优先级。要事优先,毕竟是一条还行的“对抗策略”。

    (6)技术提升

    前面 6 条理念,许多同行前辈大概都提出过。而这条则是非常个人的观点:长期看,科技进步推动社会各方面的进步或发展;中短期看,技术手段对于商业社会的价值表现为各类“提升”,如效率的提升、收益的提升,并不能根本地动摇商业逻辑。本质上,商业环境里的分析师的研究对象是各种各样的商业问题,不是技术问题。换句话说,分析是业务本位的,不是技术本位的。和业务无关的分析技术,学得再精通也会成为屠龙之术。支持分析工作的信息技术,最常见的例子就是数据仓库等数据处理技术,和我们的工作若即若离,我们多多少少都要有所涉猎,但要注意学习的 ROI。另外的一些技术,比如在搜索、广告、推荐等业务里算法就是业务本身,算法工程师的有无对于业务来说存在质的差别;而在另外一些业务里,很可能大多数企业的大多数业务里,算法只能起到对业务流程的某个环节的效率提升而已。
    另外一方面,是指分析人员自己的相关技术提升。数据分析需要掌握的技能并不少,不能忽视学习,得做好学习的规划,配合具体工作需求逐步积累。

分析的基本方法

这五种方法可以说是按照标号的顺序逐个自然“生长”出来的,在具体运用中它们又经常互相交织使用。

  • (1)分类
  • (2)对比
  • (3)指标(定量分析的起点)
  • (4)公式化(指标体系)
  • (5)定量分析工具箱

    (1)分类

    分类就是「分析」中的「分」,是最最基本的分析方法,也可能是最最基础的科学思想。分类源于人天生的“辨别事物”的本能。在某个暂时状态中,我们观察的目标事物按照我们理解的性质划分为多个类别,就是“分类”的思想。按照发生或者逻辑的先后顺序辨别一连串的事物,可以归纳为“流程化”思想。

或许,在先民第一次确切地将世界划分天、地、人的时候,我们才真正地成为“人”。五行学说、四元素说分别占据着中西方古代世界世界观的核心。以林奈的分类学为代表的博物学分类工作,加深了人类对自然界的认识,更为生物演化论打下了基础。

分类思想蕴含在各种广为流传的各种数据分析“技法”中。简单的比如 RFM 模型、波士顿矩阵。复杂一些的则作为某一套系统的功能存在,例如 CRM、CDP、用户画像等。

在 BI 等应用场景中,分类这一动作,经常会被叫做:维度拆解。可能80%以上的数据分析工作都可以被认为是围绕着维度展开的:定义维度、实现维度、展示拆分、含义阐释等等。所以本小节和具体操作相关的描述,会十分类似于 BI/OLAP 系统中的描述。

直观的维度

人口普查数据按行政区划拆解,新生儿数量按性别拆解,公司年度营收数据按月份拆解…… 这些都是最为自然、直接能够想到的拆解观察数据的方式,拆解的维度也是天然存在的。

人造的维度

为了解答稍微复杂一些的疑惑,我们会寻找、创造新的拆解维度。为了解本地的人口数据,我们需要将行政区划按省市县乡的顺序逐级拆解,这是通过细化维度进行拆分。为了了解不同地域出生性别比,我们需要增加一个新的地区维度,这是通过添加已有维度进行拆分。为了在更大区域层级观察人口数量的变化,我们可以定义华北、华南等地理区块,这是创造新维度进行拆分。

多层级的维度

上面提到的维度,地区、性别、时间等,基本都很自然。还有类似于组织层级、个人喜好等具备很强人文属性的维度,消费频次、人均消费金额等具有计算属性的维度。由此可见,为了分类而存在的维度本身也可以被分类。相同类型的维度会构成层级维度,我们可以向下细分,观察更细层级的数据,也可以向上汇总,观察总体性的数据。同时观察不同类似的维度,往往叫做交叉分析。丰富的维度交叉,一方面考验分析人员的业务认知和分析直觉,另外一方面也考验着数据分析软件的能力。

在条件允许的情况下,这些维度可以作为标签系统的基础

总之,具体选取哪些维度,完全取决于我们提出的问题和为了解答这个问题想到的观察角度。正确地选取角度可以帮助我们更深地理解现象,选取了错误的角度则可能让问题显得更加捉摸不透。通过新的维度拆解获得了新的认识后,我们还可以进一步提出新的维度要求,以期不断探求新的认识。考察一个分析人员是否掌握理解数据的最简单方法,就是询问他从数据里发现了什么。只有通过数据掌握业务的情况的分析师,才有能力提出更多新颖的维度组合和创造出新的维度。

必须提醒注意的是,无法回归到业务场景、业务需求和业务策略的维度游戏,价值存疑。标签系统中成千上万的标签,指标系统中成百上千的指标,只能体现工程部门的工作量。

分类的原则

(1)MECE(不重不漏)

MECE(Mutually Exclusive, Collectively Exhaustive)原则过分有名了,就是中学数学老师教我们的“不重不漏”。

(2)具备明确具体的含义

分类完成得到的每一个类项(维度值)应该具备明确的含义。无法明确描述的分类是无效的分类。

  • 只有能够通过人类语言清晰明确描述的分类才能被我们理解。如果分类的结果是 GroupA、GroupB,使用者如何能够区别它和随机分类的差异?应该尽量用自然语言确切描述分类的依据,“人均消费金额在50元以下”就比“低消费”要准确。
  • 人工按照自定义规律分类的结果,最好具备足够的区分度,即各个类别直接的差异应该尽可能地鲜明。将消费金额分成高中低三档,可能优于很高、高、中高、中、中低、低、很低这一分类,中高和中低实在难以和临近的分类区分。“鲜明”并不意味着“大”。举一个简单的例子,假设数据在70元、80元、140元出现三个尖峰,从100元处分为高低两档,似乎十分合理。也有可能,这是一个新品牌,它只有70元简单包装和80元礼盒装两款产品,70元和80元是天然的两个类别!换句话说,70元和80元的差距足够鲜明,但是数值上的差距并不够大。
  • 当分类依据过分复杂时,类别名称会十分冗长。此时用随机字符串作为分类名也可能优于GroupA、GroupB这样似乎暗示某种顺序的分类名。

一般情况下,很少有人能够同时观察超过 3 个交叉维度的分类结果,2^4 = 16,至少有16种分类。所以8分类结果的 RFM 模型成为了平衡简单和复杂的常见模型。

(3)有可预见的真实价值

只给出分类但不思考分类可能的用处,是典型的只顾干活不看路的幼稚行为。RFM 模型最大的价值不在于提供了8分类的结果,而是对于每一种结果都给出了大概率似乎可行的行动建议模版。不得不承认,为每一种分类都找到可预见的价值,理论上就不可行,因为总会有一些分类会被认为“无利可图”。但因此就全部放弃对价值可能的寻找,只关注技术实现,而不关注业务价值,更不可行。在维度爆炸的数据源里,工程师可以通过自动分类的技术手段挖掘出成百上千的标签,也可以通过自动的标签解释手段为标签标注可以识读的含义,但如果没有人员和系统尝试理解和使用这些标签,这就只是单纯的数字和技术的游戏,这些分类标签最后只是无人问津的工业垃圾。

流程的分类

本节前述内容都在讲对某研究对象内部的分类,还未提及流程的分类。大部分情况下,事物本身的 sequence、工作中设定的 pipeline 等等流程都较为固定,分析人员对其改动调整的空间很低。相关的流程分析和改造工作更多是由 IT 系统的业务分析师或者企业管理咨询师执行,本文先跳过不管。研究对象自身内部的小流程, 则是我们数据分析师经常关注的了。此类小流程的链路大多不长,业务细节相对不复杂。涉及到的分析技术包含漏斗分析、用户行为检测、用户行为挖掘等。

分类方法案例

象限法

象限法以波士顿矩阵为代表,堪称定性分析方法中的“王者”,只需要横纵两个坐标轴,将“世界”分成四类。只要差异显著,特点明显,你的观点就足够“惊世骇俗”。并且图形化的结论,及其适合互联网传播。

下图是我收藏夹里年代久远的一张截图,创作者(感谢你)的目的我已经忘记,但仍然不难从箭头中体会到对方想要表达的对高频综合类互联网产品的赞许。
image.png

下图也是我忘记从哪里截取的了(感谢分享者)。用户流失问题是所有公司、产品甫一推广就会关注的核心课题。下图将流失和用户价值交叉分析,立马将用户分成了四个群体,也很容易制定针对四类群体的举措。只是图中缺少了第三轴的信息,即是先以什么依据将用户初步分群,然后计算群体的流失度,最后映射到这四象限图中的。只有四个组的分类,似乎不够细致,但足以以此为开端,启动一场严肃的用户流失分析了。

可见,象限法理念简单,但实用中并不粗暴。
image.png

RFM 模型

RFM 模型堪称会员分析的传统艺能了,讨论它的人比真正用它的人多。RFM模型的含义,不用再复述。这篇文章认为 RFM 模型的一个价值是呈现了“良性客户成分占比”,感兴趣的朋友可以一阅。
image.png

同期群 Corhort Analysis

同期群分析法,将分析对象按时间分群,观察他们在同一个行为上的趋势性差异。可以监控某一个小群体的行为随时间变化的趋势,同时也可以观察不同同期群在相同时间窗口里的变化差异。同期群分析的基本假设是:临近时间内都做了某事的用户,即相同 cohort 的用户在主要的特征上应该是相似的,而不同 cohort 的用户后续行为的差异正是业务上寻找的“效果”。最常见的就是对比活动用户和平日用户的后续行为差异。该方法还可以用于监控整体,探查是否可能出现了隐藏的平台级别的影响因素,这个方向上最常见的应用就是互联网产品的用户留存报表。

分类小结

不难感受到,掌握了分类之后,世界变得五彩斑斓了起来,也开始变得“有条理地复杂”了。我们也能感受到下面几点。第一,分类方法的命门在于分类依据的“科学性”。分类依据的提出,依赖于分析者 Analyser 的认识。分类不足以构成科学方法,但它指向严肃的科学方法。第二,分类和对比是交互交织的,不对比寻找差异无法完成分类,不分类就无法进行对比。第三,分类很容易出错,认真的对比可以帮助我们提高分类结果的合理性,但还需回归业务才能验证分类是否有业务效果。第四,比较好理解的是,不能陷入到类似“维度灾难”的分类灾难中去,秉持要事优先的理念,尽快博取80%的收益。

(2)对比

  • 寻找合理的 baseline
  • 解释差异

    (3)指标/定量分析

    (4)公式化(指标体系)

    (5)定量/数学工具箱