一、前言
(1)本篇简述
- 本篇主要教你使用最常用的的六种可视化图型,分别为:
- 条形图
- 直方图
- 折线图
- 饼图
- 凸显表
- 矩形树图
本篇包含了大量的基本操作与思路,基本上本篇学完,你应该可以开始进行一些基本的数据分析工作了
(2)用哪个图型做可视化?
市面上部分教程有两个特点
- 大而空,看似讲了一堆实则大而无用,在门口蹭了半天就是不进去,学完等于没学
- 只关注结果并落于使用而不理解成因,具体表现:不解释“为什么”,给了你一堆操作步骤让你跟着去做,学完后似会非会,你说操作也确实会操作,但是真要做的时候又不知道该怎么下手了
- 第一类无非也就是“成功学”式的鸡汤课,大不了当看本小说
- 这类大多还要给自己冠以“干货之名”,动辄几百页ppt、上百个视频,(假如你能耐着性子)花极大量的时间跟着操作完了,最后真要做的时候该不会还是不会
要明确两点,数据可视化无非就是两个目的
第一课中我们已经介绍了维度与度量的概念,这两者是Tableau制图中非常重要的组成部分,我们再来简单回顾一下
- 蓝色部分的字段称之为“维度”,绿色部分的字段称之为“度量”
- 每一张可视化图表,都会由“维度”与“度量”组成,不同图型的构成需求不一样,例如某些图型需要2个以上的维度构成,有些可能1个就足够
- 你可以简单的把度量理解为数值型数据、可用于计算、统计;而维度则是客观描述或属性本身,往往用于区分
- Tableau会根据你的数据类型自动为你把字段分为维度与度量,但并不是100%准确,有时你需要手动对其进行调整
- 在数据分析过程中,有些字段既可以作为维度也可以作为度量,这时你可以复制一个字段,将其移入维度或度量
- 错误的将字段变为度量或维度,将无法产出可视化图表
- 我们以下图为例,大致看一下哪些字段是维度、哪些是度量
- 典型的维度:名字、类型、产地、上映时间、首映地点
- 典型的度量:投票人数、时长
- 年代、评分这类字段,它们的范围基本是可以确定的,例如评分就是趋于0~10内带一位小数点的数字,它们既可以作为度量、也可以作为维度
- 比如评分,你可以将其作为维度,统计不同评分下的电影数量;也可以将其作为度量,统计不同产地下的评分总和
- Tableau还会自动为你生成两个度量(部分版本可能没有,所以建议使用新版)
- 度量值代表了所有可以作为度量的字段,你在实际操作过程中如果选择了度量值,就会自动帮你将所有度量字段都填入
- 本质上是一个快捷的合并操作,一口气帮你把所有的度量都拖进分析区,一般不使用,大家还是根据实际需求直接选择对应的字段即可
- (计数)代表了数据有多少行,即计算多少条数据
- 非常常用,也有其他方法可以实现同样的效果,不过直接用计数字段比较便捷
- 本篇接下来的案例均会使用该数据来完成,请大家再观察一下这份数据
二、条形图
(1)条形图简介
条形图是日常使用最为广泛的图型
- 对于一些基础需求,条形图+饼图就可以满足所有
- 条形图有个兄弟叫直方图,大部分人都应该见过,但是分不清楚,等下会说到
条形图的特点
做图前先想一想,这份数据有哪些维度可以用作比较呢?我们先从简单的数量开始,随便举几个例子
- 不同类型下分别有多少电影?
- 不同产地分别贡献了多少电影?
- 不做过多延伸,我们就拿“不同类型下分别有多少电影?”来实际操作一下
- 分别将作为维度的“类型”与作为度量的“计数”移入行与列(两者顺序可以互换,对应横向或是纵向的图)
- 将“计数”按住键盘上的“control”复制一份到标签的位置上,或者直接从左侧再选一个“计数”移上去,以把对应数值显示在图表上
- 将什么字段放在标签上,就自动会把对应的值显示在图表上(划重点,大家想想可以有什么延伸)
- 这样一张简单的条形图就完成了,我们可以很轻松的看到剧情片数量占比是绝对的no.1,这是一个非常基础的数据分析
- 不过目前这样的显示并不利于直观的对比数量分布情况,我们可以再按倒序排列一下,让其更加直观
- 现在我们可以得到一张不同类型下电影数量的排行图
- 单单是这样我们可以得到的信息还是非常有限的,我们可以对其进行进一步加工,例如我们现在有了单独的数据排行,我能否直观的显示出所有类型的平均数量呢?
- 在字段区的上方选择“分析”面板,点击“平均线”拉入“表”的位置,我们就可以得到整体的平均数量了
- 通过加入这条平均线我们可以得出结论:不同电影类型的数量分布差距极大,呈两级分布,且由于存在极端大值,导致最终实际只有5个类型的影片数量是大于平均值的,大量的电影类型都是炮灰,市面上的电影几乎都集中在这几个类型里,也算是一种资本投资的偏向性
- (具体的分析这里也不过多展开了,还是以软件教程为主,一些简单的分析穿插,实际过程中一些数据分析是存在误导偏差的,但是先不展开了,这属于进阶的部分,有基础的同学看到后文的分析如果存在偏差、请无视,我这里都只基于表层数据来做分析,方便0基础的同学理解)
- 表、区、单元格分别代表了以什么数据范围为单位进行平均值计算(有时可能涉及多个维度)
- 如图所示,当维度变成了年-季时,数据按2015、2016变成了两个分区
- 这种情况,如果我想知道不同年份(分区)下的平均值情况,就需要将“平均线”拉入“区”的位置,单元格同理
- 整个分析部分之后会细讲,这边先跳过
继续返回“不同类型下的电影数量”,我还希望做更深一层的信息挖掘,我们是不是可以再做一个交叉?
直方图与条形图其实很好区分,以下图为例
- 大家发现其与条形图的差别了吗?
直方图的特点
直方图我们就简单跟着做一下就可以,实际上现在直方图用的并不多,折线图是一个更好的形式
- 之所以要单独把直方图拿出来讲,是因为要引入一个新的概念“数据桶”,这是一个非常便捷的数据分层工具
- 我们首先需要对“年代”这个字段进行处理,如果大家没有自己处理过,它现在应该还是一个字符串类型的,这并不是我们想要的
- 首先转化为整数的格式
- 继续右键,基于“年代”来创建一个“数据桶”
- 数据桶是什么?
- 我们刚刚把“年代”变成了整数,即现在所有的“年代”是一串数值,这里面包含个上百个年份
- 数据桶就是根据你设定的切割值,将某个字段里的所有数值分为多个区间
- 切割值就是图中的“数据桶大小”,例如我们设置为20,现在有1~100一共100个数,数据桶就会把这一百个数按0~19、20~39、40~59、60~79、80~99、100,一共6个区间
- 然后我们就可以基于每个区间,来统计一些数据,例如0~19的区间里一共有多少部电影之类
- 数据桶切割大家应该已经清楚了,但为什么不是我们理想中的1~20、21~40、41~60、61~80、81~100呢?
- Tableau是默认从0作为起点开始计算的,即使是负数,也是从0向前倒推
- 而数据桶一般用于大量数据的快捷分组,很多时候还存在小数,所以不太需要太在意这个,可以直接使用他的建议值
- 数据桶一个非常大的作用在于,将原本无法用作“维度”的“度量”值,通过分区的方式变成“维度”、这样对数值也可以进行统计了
- 如果存在精细化分组的需求,可以使用“创建-组”来完成
- 你可以手动、批量将数据归为某一个组,并为其命名;但要注意,组由于默认不是连续数据,是无法创建直方图的
- 创建完数据桶后,你需要将其转化为连续(直方图必须是连续数据)
后面的操作大家应该都会了
折线图也是非常常见的图型
折线图的特点
这里需要说明一点,同一张图在Tableau里往往也有多个方式可以完成,大家选择自己习惯的一条路径即可,前期可以跟着我做,后期再去发现其他方法
- 单纯把上图拿出来做一下,我相信对大家应该已经没有什么难度了,我们稍微加一点点条件,来匹配真实场景的路径,先看一下制作后的图,大家能不看教程自己做出来吗?
- 接下来我们一步步来完成这张图
五、饼图(表示分布、可以环形)
(1)饼图简介
(2)用Tableau制作直方图
六、凸显表(颜色差异阶变化)
(1)凸显表简介
(2)用Tableau制作直方图七、矩形树图(表示差异比较,可视化更强,颜色大小可以分开表示)
(1)矩形树图简介
(2)用Tableau制作直方图