每个人都或多或少做过某种类型的数据分析,因此对于某些朋友来说再次探究数据分析之定义大概毫无必要。但在对于分析从业人来说,准确阐述自己的本职工作仍然是有价值的。数据分析的定义形形色色好好坏坏,大部分都会从其技术方法的角度定义,有的以“数据清洗”、“数据可视化”等流程进行定义,有的则类似 SAS 以涉及的学科进行定义:

At the SAS Institute, analytics is envisioned as an interdisciplinary field combining mathematics, statistics, predictive modeling, and machine learning to identify meaningful patterns and develop knowledge from large collections of data.

这些定义都大有裨益,但本篇中我想在更基本的层次上重新确认一下我们对「数据分析」的认知,准确地说,是对「分析」的认知。

什么是「数据分析」

想必有兴趣和有能力阅读本文的读者肯定都接受过某种程度的教育。我们所接受的教育告诉我们,知识是划分为不同学科的,每个学科都有各自的一套学科理论。如果想要掌握这套学科理论,或者想要从事该学科的相关行业,最好的方式就是获得该学科的学位。长久以来,具有专业背景的数据分析人员大概都来自统计学、数学、计量经济学等量化学科。数据科学兴起之后,业界对专业的数据分析人员的编程能力要求似乎又提高了。学科背景,似乎成了一道“天险”。于是,对于有些人而言,数据分析工作看起来高不可攀。

另外一方面,数据分析工作似乎又是简单地不得了。以 Excel 为代表的电子表格软件在各行各业广泛应用,“熟悉 Office 软件”早已是职场人士的“出厂预置功能”。数字媒体上广泛传播的美观的数据图,看起来也不过是平面设计师美化过的一些文字和数字。画画折线图、柱状图、饼图,写写PPT,拍拍脑袋写个分析结论实在算不上是什么技能。

所以,在对数据分析的方方面面开展讨论前,我们必须认真看待数据分析的含义及其价值。

我们先看看动词部分,「分析」的含义。然后再看看分析的对象是不是只有「数据」。

分析

除了分析「数据」以外,我们还分析「问题」、「现象」。那么,「分析」本身是什么意思呢?

分析:指把一件事物、一种现象、一个概念分成各个部分,找出这些部分的本质属性和彼此之间的关系。跟“综合”相对。— 来自 dict.youdao.com 的《现代汉语大词典》

analyse: to study or examine something in detail, in order to discover more about it. — 来自 dictionary.cambridge.org

「分」有划分、分割的意思,也有分辨、区分的意思。前者更多地是物理上的、机械地分,后者则包含了人的思维过程。从字形上看,就是用刀将某物「分」成两半。

「析」字,从木,从斤。「斤」是砍木的工具。《说文》:析,破木也。又有剖析、辨析等词。

可见,「析」字和「分」字的本意差别并不大。按照现代汉语的组词方式组成的词「分析」,其主要含义则在抽象层面上的关系、联系。

小结一下,如果我们说到「分析」,或者进行「分析」活动,应该说的是这样的内容:

  1. 对某一具体对象(事物、现象)的细致研究,不单单只是浅层次上的观察、了解,而是详细深入的研究,希望能发现表象背后更多的“真相”。
  2. 这样的研究活动,需要把对象进行某种划分,可能是对物理实体的划分,可能是对抽象概念的划分,并且对划分后的各部分展开研究。
  3. 认知对象的构成后,我们还要进一步地研究认识各构成之间的关系。

分析的成果,即我们「看」到的「表象」下的「真相」,是一体两面的:

  1. 构成。即完成对研究对象的合理划分,充分认知其各个组成部分。
  2. 关系。各组成部分之间的各类关系。

构成

在没有划分对象前,我们对研究对象的构成的认识是肤浅的、不充分的,我们对研究对象各构成部分之间的关系的认识是感性的、直觉的、未经检验的。在合理划分对象之后,我们发现各构成部分之间的关系是复杂的。成功正确地划分对象,确实会耗费一些时间,但还是比较容易在短时间内成功的。但对构成之间的关系的研究,则往往需要经年累月的努力,以期不断地获得更加准确和深入的认识。

值得注意的是,对研究对象的划分,不是一蹴而就的。不是一步到位地正确划分好对象,而后再深入研究构成之间的关系。一般而言,只需对研究对象稍加熟悉,我们的大脑就会对其的构成和关系都会产生模糊、不充分但是有一定价值的认识。在这样的初步认知的基础上,我们先假设我们对研究对象的划分是正确的,并观察各构成之间的关系,思考我们对关系的认识是否足以说明我们观察到的现象。如果不足够,是在哪些方面不足够,是需要重新描述我们观察到的关系,还是要重新划分我们的对象,还是需要更加细致的观察。在反反复复地重新划分构成和判断构成之间的关系中,我们会找到当前条件下,我们对研究对象的最深刻的认识。这种循环往复正是「分析」工作本身。

构成的类型

构成的方式,可以粗略归类为几种:

  • 并列。例如同级别的行政区划、一个标签的所有枚举值等。
  • 层级。例如不同层级的行政区划、一类标签组下各种颗粒度的标签。
  • 流程。按事物内涵的前后次序划分。例如流程、时序。

关系

关系,即研究对象各构成之间的联系和区别。

先不引入定量的手段,单纯地从各种性质上就可以将不同的“构成”分门别类。每一种“构成”内部的性质是类似的,各“构成”之间是异质的。

当我们的常识和认知不足以直接识别“构成”,或人力不足以完成“构成”的创建过程时,我们借助量化的手段。统计推断帮助我们从样本中掌握整体的情况,使得我们可以较低的成本达成对整体“构成”的构建。有监督学习的机器学习技术将我们预设的“构成”推广到更大的数据集中。无监督学习的机器学习技术还可以帮助我们在更复杂、更大的数据集中发现“构成”。回归分析等数学方式为我们提供了准确描述构成间关系的手段。

《务虚:分析人员内功心法》的“分析的基本方法”这一小节中,我会尝试在不引入任何复杂定量技术的前提下,展示「构成-关系」思想能将数据分析工作的界限推广到多远。目前市面上主流的数据分析教学材料都仍然局限于这个质朴的思想框架内。

数据

数据,Data 的中文名,我更喜欢台湾的翻译“资料”。出于一些语词的习惯,我们基本上已经将定量的数字和数据直接等同了,提及非量化的数据时往往得增加前缀,如“文本数据”、“音视频数据”。为了揭露这种偏差,有前辈按照拆词法将「数」和定量的资料对应,即约等于结构化数据,同时将「据」和非定量的资料对应,即约等于结构化数据之外的其他数据。这种方法也有一些效果。不过,作为专业的从业者,我们自己心中有数即可。

既然数据本身就是资料,资料提供给我们的其实是信息,信息反映的就是世界本身,那么数据分析师本质上就是“信息分析师”,那么干脆直接叫分析师即可。因为在本文前面我们已经知道了分析的含义就隐隐地指向了“现象世界”。站在这个意义上看,确实“人人都是分析师”,大家差异只在于专业度的差异和水平的高低。

其次,对「数据」认识的扩展,也提示了我们分析人员,要注意关注和收集非结构化数据,特别是信息系统难以捕捉的数据,比如行业风声、业务部门的口头表达,small talks。可惜的是这些零碎信息并没有什么科学的分析手段。我们自然不能捕风捉影,但也得尝试从中榨取一些指向性的含义。

DIKW-信息管理/知识管理的视角

DIKW 体系虽然不能直接指导我们的工作,但是可以帮助我们思考自己的分析、思考成果含金量如何,是处于 I、K、W 的哪一层。或者还是单纯的意淫式分析。

  • Data:通过观察和测量等方式采集到的原始材料。可能是易理解的,可能是难以直观理解的。
  • Information:整理材料,梳理得到的信息。我们可以轻易地用人类语言传达这种信息,可以以降低信息差的方式带来价值了。
  • Knowledge:基于信息,结合人的认知和相应行为,我们进一步总结出知识。某处海域常有鱼群属于信息,鱼群的繁衍洄游规律属于知识。
  • Wisdom:智慧超脱知识的条目限制,它往往已经不是单纯的知识,可能上升到价值观、理念、直觉等更高的层面。我的理解,知识的运用往往有板有眼,智慧更像是一种本能,智慧可以调动知识的运用,不同的智慧会让相同的知识产生不同的运用效果。

image.png