一、前言

(1)本篇简述

  1. 本篇主要教你使用最常用的的六种可视化图型,分别为:
    1. 条形图
    2. 直方图
    3. 折线图
    4. 饼图
    5. 凸显表
    6. 矩形树图
  2. 本篇包含了大量的基本操作与思路,基本上本篇学完,你应该可以开始进行一些基本的数据分析工作了

    (2)用哪个图型做可视化?

  3. 市面上部分教程有两个特点

    1. 大而空,看似讲了一堆实则大而无用,在门口蹭了半天就是不进去,学完等于没学
    2. 只关注结果并落于使用而不理解成因,具体表现:不解释“为什么”,给了你一堆操作步骤让你跟着去做,学完后似会非会,你说操作也确实会操作,但是真要做的时候又不知道该怎么下手了
      1. 第一类无非也就是“成功学”式的鸡汤课,大不了当看本小说
      2. 这类大多还要给自己冠以“干货之名”,动辄几百页ppt、上百个视频,(假如你能耐着性子)花极大量的时间跟着操作完了,最后真要做的时候该不会还是不会
  4. 要明确两点,数据可视化无非就是两个目的

    1. 产出报表,用于分享、展示、汇报,这时我们会更关注展示效果,这个目的下大家需要的是尽可能了解更多的图型与工具,选出最适合的展示效果
    2. 数据分析,这时可视化只是为分析服务的工具,展示“炫酷”不再那么重要,不同图型往往用于不同的分析场景(也有重合),此时切忌随便套个图型or在某一型上陷入纠结

      (3)Tableau中的维度与度量

  5. 第一课中我们已经介绍了维度与度量的概念,这两者是Tableau制图中非常重要的组成部分,我们再来简单回顾一下

    1. image.png
    2. 蓝色部分的字段称之为“维度”,绿色部分的字段称之为“度量”
    3. 每一张可视化图表,都会由“维度”与“度量”组成,不同图型的构成需求不一样,例如某些图型需要2个以上的维度构成,有些可能1个就足够
    4. 你可以简单的把度量理解为数值型数据、可用于计算、统计;而维度则是客观描述或属性本身,往往用于区分
      1. Tableau会根据你的数据类型自动为你把字段分为维度与度量,但并不是100%准确,有时你需要手动对其进行调整
      2. 在数据分析过程中,有些字段既可以作为维度也可以作为度量,这时你可以复制一个字段,将其移入维度或度量
      3. 错误的将字段变为度量或维度,将无法产出可视化图表
    5. 我们以下图为例,大致看一下哪些字段是维度、哪些是度量
      1. image.png
      2. 典型的维度:名字、类型、产地、上映时间、首映地点
      3. 典型的度量:投票人数、时长
      4. 年代、评分这类字段,它们的范围基本是可以确定的,例如评分就是趋于0~10内带一位小数点的数字,它们既可以作为度量、也可以作为维度
      5. 比如评分,你可以将其作为维度,统计不同评分下的电影数量;也可以将其作为度量,统计不同产地下的评分总和
    6. Tableau还会自动为你生成两个度量(部分版本可能没有,所以建议使用新版)
      1. image.png
      2. 度量值代表了所有可以作为度量的字段,你在实际操作过程中如果选择了度量值,就会自动帮你将所有度量字段都填入
        1. 本质上是一个快捷的合并操作,一口气帮你把所有的度量都拖进分析区,一般不使用,大家还是根据实际需求直接选择对应的字段即可
      3. (计数)代表了数据有多少行,即计算多少条数据
        1. 非常常用,也有其他方法可以实现同样的效果,不过直接用计数字段比较便捷
    7. 本篇接下来的案例均会使用该数据来完成,请大家再观察一下这份数据

      二、条形图

      (1)条形图简介

  6. 条形图是日常使用最为广泛的图型

    1. image.png
    2. 对于一些基础需求,条形图+饼图就可以满足所有
  7. 条形图有个兄弟叫直方图,大部分人都应该见过,但是分不清楚,等下会说到
  8. 条形图的特点

    1. 可以横向也可以纵向,长度越、表示数量越
    2. 一般用于比较不同条件下数量的大小
    3. 表达维度的轴,内容之间可以是毫无关系的(不连续),例如图中动画与动作,彼此是孤立的数据,各个条形之间有空隙

      (2)用Tableau制作条形图

  9. 做图前先想一想,这份数据有哪些维度可以用作比较呢?我们先从简单的数量开始,随便举几个例子

    1. 不同类型下分别有多少电影?
    2. 不同产地分别贡献了多少电影?
  10. 不做过多延伸,我们就拿“不同类型下分别有多少电影?”来实际操作一下
    1. image.png
    2. 分别将作为维度的“类型”与作为度量的“计数”移入行与列(两者顺序可以互换,对应横向或是纵向的图)
    3. 将“计数”按住键盘上的“control”复制一份到标签的位置上,或者直接从左侧再选一个“计数”移上去,以把对应数值显示在图表上
      1. 将什么字段放在标签上,就自动会把对应的值显示在图表上(划重点,大家想想可以有什么延伸)
    4. 这样一张简单的条形图就完成了,我们可以很轻松的看到剧情片数量占比是绝对的no.1,这是一个非常基础的数据分析
    5. 不过目前这样的显示并不利于直观的对比数量分布情况,我们可以再按倒序排列一下,让其更加直观
    6. image.png
    7. 现在我们可以得到一张不同类型下电影数量的排行图
  11. 单单是这样我们可以得到的信息还是非常有限的,我们可以对其进行进一步加工,例如我们现在有了单独的数据排行,我能否直观的显示出所有类型的平均数量呢?
    1. image.png
    2. 在字段区的上方选择“分析”面板,点击“平均线”拉入“表”的位置,我们就可以得到整体的平均数量了
    3. 通过加入这条平均线我们可以得出结论:不同电影类型的数量分布差距极大,呈两级分布,且由于存在极端大值,导致最终实际只有5个类型的影片数量是大于平均值的,大量的电影类型都是炮灰,市面上的电影几乎都集中在这几个类型里,也算是一种资本投资的偏向性
    4. (具体的分析这里也不过多展开了,还是以软件教程为主,一些简单的分析穿插,实际过程中一些数据分析是存在误导偏差的,但是先不展开了,这属于进阶的部分,有基础的同学看到后文的分析如果存在偏差、请无视,我这里都只基于表层数据来做分析,方便0基础的同学理解)
    5. 表、区、单元格分别代表了以什么数据范围为单位进行平均值计算(有时可能涉及多个维度)
      1. image.png
      2. 如图所示,当维度变成了年-季时,数据按2015、2016变成了两个分区
      3. 这种情况,如果我想知道不同年份(分区)下的平均值情况,就需要将“平均线”拉入“区”的位置,单元格同理
      4. 整个分析部分之后会细讲,这边先跳过
  12. 继续返回“不同类型下的电影数量”,我还希望做更深一层的信息挖掘,我们是不是可以再做一个交叉?

    1. image.png
    2. 移除标签内原本的“计数”
    3. 将“评分”移入“标签”
    4. 右键移入后出现的小卡片,在弹窗内将“度量”里的选项改为平均值(这种非系统自带的度量值,带入分析区后默认都会是总和,请注意根据需求修改)
    5. 这样就会在不同类型的条形图上分别显示其“评分的平均值”,此时条形越高代表数量越多、数值直接显示电影评分的平均值
    6. 剧情片数量多、市场的评分情况也不低,难怪受资本市场喜爱了(拍了这么多)
    7. 根据实际情况,你也可以显示“最大值”、“最小值”等等

      三、直方图(向上,表示连续、显示分布,不能有间隙)

      (1)直方图简介

  13. 直方图与条形图其实很好区分,以下图为例

    1. image.png
    2. 大家发现其与条形图的差别了吗?
  14. 直方图的特点

    1. 直方图的维度是“连续”的,是一个范围,用于表示趋势变化,与条形图的区别就在于此
    2. 一般来说行业惯例纵向展示条形,长度越、表示数量越(虽然你可以设置为横向,但我们正常展示都是宽度>高度,横向是更有利于表示连续关系的)
      1. image.png
      2. 我们放一个负面案例给大家看一下效果,此时你还能清晰的看出不同年份下的数量走势关系吗?
    3. 一般用于比较不同条件下数量的大小
    4. 表达维度的轴,彼此之间是连续发生的,例如图中的不同年份,因此各个条形之间不可以有空隙,要表示清楚连续关系

      (2)用Tableau制作直方图

  15. 直方图我们就简单跟着做一下就可以,实际上现在直方图用的并不多,折线图是一个更好的形式

  16. 之所以要单独把直方图拿出来讲,是因为要引入一个新的概念“数据桶”,这是一个非常便捷的数据分层工具
  17. 我们首先需要对“年代”这个字段进行处理,如果大家没有自己处理过,它现在应该还是一个字符串类型的,这并不是我们想要的
    1. image.png
    2. 首先转化为整数的格式
    3. image.png
    4. 继续右键,基于“年代”来创建一个“数据桶”
  18. 数据桶是什么?
    1. image.png
    2. 我们刚刚把“年代”变成了整数,即现在所有的“年代”是一串数值,这里面包含个上百个年份
    3. 数据桶就是根据你设定的切割值,将某个字段里的所有数值分为多个区间
    4. 切割值就是图中的“数据桶大小”,例如我们设置为20,现在有1~100一共100个数,数据桶就会把这一百个数按0~19、20~39、40~59、60~79、80~99、100,一共6个区间
      1. 然后我们就可以基于每个区间,来统计一些数据,例如0~19的区间里一共有多少部电影之类
      2. 数据桶切割大家应该已经清楚了,但为什么不是我们理想中的1~20、21~40、41~60、61~80、81~100呢?
      3. Tableau是默认从0作为起点开始计算的,即使是负数,也是从0向前倒推
      4. 而数据桶一般用于大量数据的快捷分组,很多时候还存在小数,所以不太需要太在意这个,可以直接使用他的建议值
      5. 数据桶一个非常大的作用在于,将原本无法用作“维度”的“度量”值,通过分区的方式变成“维度”、这样对数值也可以进行统计了
      6. 如果存在精细化分组的需求,可以使用“创建-组”来完成
      7. image.png
      8. 你可以手动、批量将数据归为某一个组,并为其命名;但要注意,组由于默认不是连续数据,是无法创建直方图的
  19. 创建完数据桶后,你需要将其转化为连续(直方图必须是连续数据)
    1. image.png
  20. 后面的操作大家应该都会了

    1. image.png
    2. 将创建后的数据桶拖入列、计数拖入行,并将计数移至标签

      四、折线图(表示趋势、可以双轴/柱线或者多线)

      (1)折线图简介

  21. 折线图也是非常常见的图型

    1. image.png
  22. 折线图的特点

    1. 折线图用于表示趋势变化,维度大多是时间
    2. 折线图的维度不强迫为连续数值,仅需表示有序即可,因此实际使用时比直方图灵活许多
    3. 根据实际情况,也可以使用面积图,用于更直观的表示
    4. 实际使用过程中,往往存在“多条线”,用于趋势间的比较

      (2)用Tableau制作折线图

  23. 这里需要说明一点,同一张图在Tableau里往往也有多个方式可以完成,大家选择自己习惯的一条路径即可,前期可以跟着我做,后期再去发现其他方法

  24. 单纯把上图拿出来做一下,我相信对大家应该已经没有什么难度了,我们稍微加一点点条件,来匹配真实场景的路径,先看一下制作后的图,大家能不看教程自己做出来吗?
    1. image.png
    2. 接下来我们一步步来完成这张图

  25. 五、饼图(表示分布、可以环形)

    (1)饼图简介

    (2)用Tableau制作直方图

    六、凸显表(颜色差异阶变化)

    (1)凸显表简介
    (2)用Tableau制作直方图

    七、矩形树图(表示差异比较,可视化更强,颜色大小可以分开表示)

    (1)矩形树图简介
    (2)用Tableau制作直方图