这是一本有关现实生活中的 dashboards 和它们为什么可行的书。在许多场景中,我们讲解了设计者是怎样使用可视化技术去让它们可行。对于这个领域的新人,这一章是数据可视化入门。它提供了足够多的信息帮助你了解为什么我们选择了这些 dashboards。如果你经验比较丰富,这一章可以帮你回顾数据可视化基础概念。

我们为什么要给数据做可视化处理

让我们从表格1.1开始来看为什么可视化数字是至关重要的。这里有4组数字,每组有11对。马上,我们会依据它们创建一个图表,但在这之前,我们看一看这些数字。你能看出什么?它们之间有任何样式或是趋势上的明显差异吗?

我猜:你并不能清楚地看到什么,这太难了。

在我们把这些数字放到一个图表里之前,我们也许应该考虑下它们的统计属性。当我们做了之后,发现每组数字的统计属性都很类似。如果表格看不出什么并且统计也没法透露很多,那么我们把数字绘制成图表会怎样?见图1.1

现在你能看出不同了吗?鉴于数字在图表中能让你看出一些内容而在表格和统计测量中不行。我们对数据进行可视化去驾驭我们可视化系统难以置信的力量用来展现关系和趋势。

这个经典的例子是 Frank Anscombe 发明的,一个英国统计学家。他发明了这组数字—叫做“Anscombe 四重奏”—在他1973的论文“图表在统计分析中的应用”里。在论文中他与整个国家“数学计算是精确的,图表是粗糙的”的这种观念作斗争。

去给数字做可视化的另一个原因是帮助记忆。参考表格1.2,展示了3类销售数字,以季度为单位,横跨4年时间。你能看出什么趋势?

识别趋势就跟识别 Anscombe 四重奏一样难,要想读懂这张表格,我们需要花时间遍历每个数值。不幸的是,我们的短期记忆不是被设计出来存储许多碎片信息的。期间内当我们看到第4个或是第5个数时,我们会忘掉刚才看到的第1个数。

让我们试一试趋势图,就如图1.2所示。

现在我们可以更好地洞察趋势了。办公用品一直是销量最低的产品类型只有2个季度除外。家具的趋势在期间内一直在慢慢下降,但在2015年Q4销售季有个一猛然增长和最后2个季度有所提升。科技产品销售量大部分时间是最高的,除了在开始时间段特别动荡。

表格和折线图各对同样的48个数据点做了可视化,但只有折线图让我们看到了趋势。折线图将48个数据点变作了3块数据,每块包含了16个数据点。将数据做可视化处理修改了我们的短期记忆;它让我们可以马上理解大量数据。

我们怎样给数据做可视化处理

我们刚刚看了一些数据可视化能力的例子。现在我们需要继续了解怎样构建可视化。为了达到这个目的,我们首先需要了解两件事:前意识特征和数据类型。

前意识特征

可视化数据需要我们在画布上将数据转换成标记。什么样的标记是最合理的呢?其中一个答案叫做“前意识特征”。这些内容我们大脑会在调用全部注意力之前用几毫秒来处理。下面有几种不同的类型,我们来看一个例子。

看图1.3中的数字,里面有几个9?

你会怎么做?这个问题很容易回答—你只用遍历所有的值并数出里面的9—但这需要花不少时间。我们可以改变方格其中一处让它变得非常容易。请看图1.4

现在这件事就很容易了,为什么?因为我们改变了颜色:9是红色,其他数字是浅灰色。

色差会显得突出。在上百个数字的表格里找出1个红色的9跟在10乘10方格里一样容易。想一想:你的大脑在你有意识地去在方格里数所有红色的9之前记录了它们。看看图1.5里有2500个数字的方格。你可以看到9吗?

非常容易注意到9。我们的眼睛在注意这样的事情上很有天分。

颜色(在这个例子中,色调)是其中一个前意识特征。当我们关注眼前的一个场景,或是一张图表时,我们会在250毫秒之内处理这些特征。让我们试试另外两个前意识特征用充满9的表格。在图1.6中,我们让9和其他的数字尺寸不一样。

尺寸和色调:它们是不是很神奇?在计算9的个数时它们都很有帮助。如果我们的任务是数出每个数字的个数呢?这是一个更加实际的任务,但我们没办法把色差或尺寸差异用在每个数字上。这将会使单色的自然产生的前意识不再奏效。看看图1.7里的一团糟吧。

这还不完全是一场灾难:如果你寻找里面的6,你只需明白它们是红色的然后快速进行扫描。使用单个颜色在可视化中可以非常有效地突出单个类别。使用一组颜色,就如我们在图1.2中用于区别少量的类别,也是可行的。当你上升到8至10个类别的时候,无论如何,颜色已经多到无法轻易区分彼此了。

为了数出每一个数字的个数,我们需要汇总。可视化可以做到,在它的核心关于编码汇总的部分,就如出现次数,以便于理解。我们需要完全放弃表格并编码每个数字的出现频率。最有效的方法是使用长度,我们可以在一个柱状图中做到。图1.8展示了每个数字的出现频率。我们同样给数字9的柱子上了颜色。

自打任务是从数据源里数出9的个数以后,柱状图成为了最好的观察结果的方式之一。这是因为长度和定位是最适合量化比较的。我们扩展这个例子最后一次,假如要找出最常出现的数,我们可以将柱状图排序,就如图1.9所示。

这一系列关于数字9的例子再度强调了数据可视化的重要性。就如 Anscombe四重奏,我们从难以辨认的数字表格到了容易辨认的柱状图。在排序过的柱状图里,我们不仅能数出9的个数(最开始的任务),并且我们知道9是表格里排名第三经常出现的数。我们还可以看到每个数字的出现频率。

我们刚刚呈现的一系列例子使用了颜色、尺寸和长度来高亮显示数字9。这是其中3个前意识特征。图1.10展示了12个常用在数据可视化的前意识特征。

它们中有一些你在图表中见过会觉得很熟悉。Anscombe四重奏(见图1.1)使用了定位和空间分组。定位使用了 x 和 y 坐标系,空间分组可以让我们看到离群值和模式。

前意识特征为我们提供了将我们的数据编码到图表里的方法。我们可以在一瞬间看出更多的细节,而不用先讨论数据。

总而言之,我们已经看到了可视化系统是多么的强大,并且了解了一些能够有效地呈现数据的可视化特性。现在我们需要了解不同类型的数据,以便于为每个类型挑选出最适合的可视化编码。

数据类型

数据有三种类型:分类、有序、定量。我们用一张照片来帮助我们定义每种类型。

分类数据

分类(或名义)数据代表事物。这些事物是互斥的没有数值的标签。我们可以用什么名义数据来形容图1.11中和我一起的这位先生?

  • 他叫 Brent Spiner
  • 他的职业是一名演员
  • 他曾在电视节目 星际迷航:The Next Generation 中扮演角色 Data

姓名、职业、角色,和电视节目都是分类数据。另一个例子包括性别、产品类别、城市和客户群体。

有序数据

有序数据和分类数据比较类似,除了它有一个明确的顺序之外。说到 Brent Spiner:

  • Brent Spiner 的生日是1949年2月2日、星期三。
  • 他在 星际迷航:The Next Generation 全部7季中都有出现。
  • Data 的军衔是少校。
  • Data 是 Noonien Soong 博士所制造的6个机器人中的第5个。

其他有序数据还包括教育经历、满意度和一个组织的薪资范围。尽管序数值经常和数字相关,但值之间的间隔是随意的。举例来说,一个组织里薪酬标准1跟2之间的差别或许会比4跟6之间的差别要大很多。

定量数据

定量数据是数字,定量(或数值)数据是可被测量和汇总的数据。

  • Brent Spiner 的生日是1949年2月2日、星期三。
  • 他的身高是5英尺9英寸(180cm)。
  • 他在星际迷航剧集中出场了177次。
  • Data 的电子大脑能够在一秒钟处理60兆次。

你可能注意到了生日同时出现在了有序和定量数据里面。时间这个属性不太寻常因为它两者都可以。在31章,我们会深入了解怎样处理时间影响你对可视化类型的选择。

其他类型的定量分析包括销售量、利润、考试成绩、浏览量和一个医院里病人的数量。

定量数据可以用两种方式来表示:离散的或连续的数据。离散数据以预定义的方式呈现,确切点—没有“之间”。举个例子,Brent Spiner 在星际迷航里有177集出场过;他没法出场在177.5集里。连续数据允许有“之间”,因为有无数个有可能的中间值。比如,Brent Spiner 长到5英尺9英寸高但在他人生中的某一刻他只有4英尺7.5英寸高。

将数据编码到图表

我们现在已经见过了前意识特征和三种数据类型。是时候了解怎样结合这些知识去构建图表了。我们来观察一些图表并看它们怎样来编码不同类型的数据。依然是星际迷航,图1.12展示了IMDB.com对星际迷航:The Next Generation每一集的评分。

表格1.3展示了不同的数据类型,哪种数据对应哪种类型,和它是如何被编码的。

让我们观察另一组图表来看前意识特性是怎样被使用的。图1.13来自The Economist。观察每一张图表,看你是否能弄清楚它们属于哪种数据类型,还有它们是怎样被编码的。

表格1.4展示了每种数据类型是怎样被编码的。

我们来看另一个例子。图1.14是 Andy Cotgreave 和 Andy Kriebel 在2016年期间运作的 Makeover Monday 项目的一个部分。这部分来自 Dan Harrison 。它从世界卫生组织收集疟疾死亡数据。表格1.5描述了图表中所使用的数据。

你会怎样去做?当你逐步了解这本书,停下来分析这个场景里的一些视图:思考它使用了哪些数据类型和它们是怎样被编码的。

颜色

颜色是理解数据可视化最重要的因素之一,且经常被误用。你不应该只是为了给一个单调的可视化增添生气而使用颜色。事实上,许多著名的数据可视化从不用颜色,然而都很漂亮且富有信息。

在图1.15中,我们来看 Shine Pulikathara 赢得了2015 Tableau Iron Viz 竞赛的可视化作品。注意他对颜色的简单使用。

颜色应当有明确目的地使用。比如,颜色可以被用于描绘读者的注意力,高亮一部分数据,或是区分不同的类别。

颜色的使用

颜色在数据可视化中应当以如下三种主要方式使用:顺序、分歧、和分类。

此外,还经常会有高亮数据或是提醒读者一些重要内容的需求。图1.16提供了一个以上所有内容配色方案的例子。

顺序颜色是使用单个颜色由浅到深。有一个例子是将州销售总量编码为蓝色,深蓝色表示高销售额,浅蓝色表示低销售额。图1.17使用顺序配色方案展示了州失业率。

分歧颜色用于展示从中间点的一系列分歧。它可以和顺序配色方案以同样的方式使用,但可以编码一个度量的两种不同的范围(正反两面)或是两个类别之间的度量范围。有一个例子是关于各州选民投票民主党或是共和党的意愿程度,就如图1.18所示。

分歧颜色也可以用于展示天气,蓝色表示比较凉快的气温,红色表示比较热的气温。当有正反数值的情况下中间点可以是平均值、目标值或是零。图1.19展示了一个各州收益的例子,收益(正数)用蓝色显示,亏损(负数)用橙色显示。

分类颜色用不同的色调来辨别不同的类别。例如,我们可以建立涉及服装(如鞋、袜、衬衫、帽和外套)或汽车(如轿车、小货车、SUV和摩托车)的分类。图1.20展示了三类办公用品数量。

高亮颜色在有内容需要向读者突出显示时使用,但不是警戒或警告。有多种方式使用高亮,如高亮表格里的某一数据点、文本,折线图里的某一根线,或是柱状图里的特定的某条柱子。图1.21展示了一个坡度图里有单个指标使用蓝色高亮显示。

警戒色在有内容需要引起读者注意时使用。在这种情况下,通常使用明亮的、警醒的、可以快速引起读者注意的颜色是最适合的。如图1.22。

分类-顺序配色方案也是有可能的。在这种情况下,每个类别拥有不同的色调,颜色深浅取决于其所代表的度量值。图1.23展示了一个四区间地图使用分类颜色(即灰、蓝、黄和棕),同时使用顺序颜色在区间内编码一个度量的例子;我们认为深色阴影的州销售额会更高。

色觉缺陷(色盲)

根据研究(Birch 1993),大约8%男性有色觉缺陷(CVD),相比之下女性只有0.4%。人眼看到所有的颜色依赖三个圆锥细胞,缺乏其中的一个导致了这个缺陷。这个缺陷通常被称为“色盲”,但这个叫法并不是完全准确。遭受CVD折磨的人们实际上可以看到颜色,但他们没法像其他人一样来区分颜色。更准确的术语是“色觉缺陷”。取决于缺乏哪一个圆锥细胞,有CVD的人区分某些颜色非常困难,这是他们接受光谱的方式导致的。

CVD有三种类型:

  1. 红色盲缺少长波圆锥细胞(红色弱)。
  2. 绿色盲缺少中波圆锥细胞(绿色弱)。
  3. 蓝色盲缺少短波圆锥细胞(蓝)。(非常罕见,只有不到0.5%的人会得)

CVD大部分是遗传的,并且,就如你从数字里看到的,它的患者主要是男性。8%的男性也许看上来像是个小数目,但想一想每9个男性中,其中1人患有CVD的几率就超过50%。每25个男性中,其中1人患有CVD的几率达到88%。这个比率在高加索人中还会增加,高达11%。在大公司或是向公众展示的数据可视化中,设计者必须了解CVD并且在设计中牢记它。

CVD患者中最主要的问题是

分级统计图

分级统计(也叫填充)图(见图1.32)在预定义的区域里使用阴影或颜色的差异来表示这些区域的数值或类别。

标记图

标记图(见图1.33)展示了特定位置的数值。这些标记可以是大区域的中心点(例如美国各州的中心)或是精确经纬度测量的指定位置。

避免饼图

这里为什么没有饼图?饼图是常用图表,但它是有缺陷的。我们不推荐你使用。详情参见“我们的视觉处理系统何时会出卖我们”部分。

表格

有时候你的确需要查找精确值的能力,表格(见图1.34)在这种情况下是一种可接受的展示数据的方式。在大多数 dashboards 里,表格被用于摘要图旁展示详细信息。

高亮表格

给你的表格加一种颜色来编码可以将它们转换成同样可以精确查找任意值的高可视化视图(见图1.35)。

子弹图

子弹图(见图1.36)是显示实际与目标对比的最好的方式之一。蓝柱代表实际值,黑线显示了目标值,灰色阴影区域是表现带。

我们的视觉处理系统何时会出卖我们

我们曾谈过关于怎样使用前意识特征来制作优秀的数据可视化。通过使用这些特征,我们可以使得视觉系统的能力为我们有利。但不幸的是,我们的视觉系统也很容易犯糊涂。在这部分,我们来认识一些常见的陷阱。

我们的眼睛会被无数种方式欺骗。图1.37和1.38展示了两种视觉错觉。

在图1.38中,顶部像是一个向光的灰色面,底部像是一个背光的白色面在阴影中。然而并没有什么阴影。Lotto博士给这张图加上了渐变和阴影。我们的大脑只能看到阴影,让顶部看上去要比底部颜色深得多,但如果你遮住图片中央,则能很清晰地看到顶部和底部完全是一样的颜色。

图像的模糊性会导致有意思的错觉,但如果你的数据可视化作品模糊不清那将是一场灾难。在之前的部分里,我们认识了前意识特征的能力。现在是时候了解一些前意识特征的问题所在了。考虑到本书内容,我们只讨论本书场景里使用到的前意识特征和为什么它们在这些情况下适合。

当我们为数据做可视化时,我们在大多数情况下,尝试使用一种以最短时间、最精确解释的方式来传达度量值。一部分前意识特征比其他的更适合这个目的。

图1.39展示了非洲各类疾病每天的死亡人数。每个圆圈的尺寸对应死亡数目。我们移除了所有的文字标签只留下了 malaria(552人死亡每天)。diarrhea 每天有多少人死亡?HIV/AIDS 圆圈比 diarrhea 圆圈大多少?

你会怎么做?图1.40给出了确切答案。

大部分人会低估较大圆圈的数值。关键点在于当尺寸作为前意识项时,我们没有任何精确区分差别的能力。参考图1.41里使用柱状图展示同样的数据。

在柱状图里,我们编码了定量变量,每日死亡人数,使用长度。注意你可以观测到怎样精确程度的差异。这就是为什么柱状图使用起来如此可靠:长度是我们可使用的最高效的前意识特征之一。

然而在一张图里使用多个前意识特征会引发问题。