数据分析作为一门通用技能,在多个学科和领域里都已经有着长久和深厚的使用,且不同学科和领域都凝结出了独特的分析方法论。因分析场景、分析目标和应用领域等的差异,不同的分析方法论拥有不同的分析侧重点,也形成了差异化的分析流程。一个经验老道的数据分析者也不一定广泛地了解各种分析方法论。何况成为一名优秀的裁缝并不需要会做世界上所有风格的服饰。

好在这些分析流程之间大同小异,了解他们之间的共同点有助于我们把握数据分析的核心过程,了解他们之间的差异有助于我们在不同的分析需求和应用场景下调整优化我们的分析流程。

数据分析的核心思维

分辨能力/MECE

归纳法 & 演绎法

科学方法

  • 复杂的系统就像黑箱,而洞见就像是从黑箱的一侧所开的一扇窗,光可以透过窗照到箱子里正在发生什么。
    • 洞见:任何可以提升你对这个系统的真实运作的理解信息。它填补了你所认为这个系统的运作方式以及它真实的运作方式之间的鸿沟。
  • 这个世界是不可思议地复杂,但是科学家们却有一本已经被尝试和测试过的指南来逐渐提升我们对它的认识,这就是科学方法。
  • 科学方法可用于企业数据分析的基础,两个观念:
    1. 每家企业都可以被视作拥有许多活动的复杂系统。没有人可以100%理解它。即使是最有经验的雇员,他们对企业的理解和企业真正的运作状况之间也仍然存在着鸿沟。而且由于企业一直都在变化,这条鸿沟会不断变宽。
    2. 任何你所拥有的有关企业的数据都描述了这个复杂系统的行为的某些方面。

Back & Forth 思维模式

  • Back,倒退一步总结,不要停留在事情的表面,从感性认知上升到规律性的总结,总结经验和方法论。
    • Back 意味着补充新的知识、总结新的经验、提供新的视角、揭示新的问题,往往这样的信息带给人的是一种礼物,甚至是惊喜,是一种信息加工后的结果。
  • Forth,往前多迈一步,给出行动指南或具体方案。
    • Forth 就更容易理解了,领导希望看到的是你给出行动建议,而不是提出问题,给别人挑毛病不难,但是给出行动建议才是对方真正需要的。

数据分析的基本流程

如果将数据分析和数据挖掘/数据科学视为同一话题,则整体流程可以按下述的 Steps 来概括。
但若将 DA 和 DS 区分对待,则也存在明显不同。

  • 数据分析师的常见工作流程:

定义问题 > 数据采集 > 指标建模 > 观察数据 > 数据分析 > 业务洞察

  • 数据挖掘/数据科学的常见工作流程:
    • 和数据分析流程的主要区别:
      • (1)数据挖掘往往处理大规模数据集,其流程必须考虑数据体量的扩展性,即下图的 scale 之意。
      • (2)数据分析形成洞察后往往需要通过严密的逻辑线索形成业务洞察报告,而数据挖掘更注重模型的精度,即下图中的 report 可能是一种 model。
    • 具体的数据挖掘流程见后续文章。

image.png

Step 1:明确问题

问题的提出

  • 问题可能由分析师提出,更有可能是由业务部门提出。
  • 对于有些数据科学项目,“问题是什么”可能本身就是未知的。

    • 数据科学家可能只被简单地要求去“挖掘数据,并且告诉我一些有趣的事情”。
    • 数据科学家也可能被要求解决一个非常具体而且已经被很好地解决了的问题。这简直就是数据科学的天堂。在这种情况下,有许多种方式可以解决问题。

      问题的明确

  • 分析师需要明确问题,使之成为一个数据问题:能够借由数据分析的手段解决的问题。

  • 这要求分析师:
    • 业务理解
    • 分析能力:将一个业务问题转化为数据问题的能力。
      • 梳理分析思路、形成问题分析框架
      • 在一个错误的分析框架下几乎不可能得到好的分析结论。
    • 基础的数据技能:对已有指标、数据处理过程、历史分析结论等的了解。
    • 沟通:与业务部门就分析的方向和大概的可能结果达成基本的认同。
    • 工程/实践:
      • 设计数据采集方案
  • 切忌:
    • 分析目的不明确,盲目展开分析。
    • 业务基础知识缺乏,分析不着边际
    • 一味追求分析方法的高级,而没有尽可能简单与快捷的方式开展工作。

目标的明确

  • 即明确数据分析师在该事件中的最终任务,主要有 4 类产出,。具体数据产出物,可见后续文章。
    • (1)提出正确的问题:评估现状、寻找问题。
    • (2)找到解决方案:尽量在有限的时间里找到最佳答案。
    • (3)提供细化的方案:“翻译”答案成为可实行的动作、建议。
    • (4)分析数据分析成果: 和决策者交流,使用视觉隐喻和非技术语言将数据成果分享出去。

Step 2:收集数据

Step 3:清洗数据

Step 4:数据探索

第 3 步和第 4 步是互相往返的。

Step 5:数据分析

第 4 步和第 5 步也是相互往返的。

  • 基本分析方法
  • 业务框架的了解
  • 借用图形助力

Step 6:结论与验证

  • A/B 测试

Step 7:形成文档与图表

  • 文档的结构:故事化讲述问题、分析与结论
  • 图像制作:excel、tableau
  • 可重复代码

Step 8:发布与分享

  • PPT
  • Word
  • 代码
  • 演讲
  • 文档