一、Tableau下载

(一)官方渠道

  1. Tableau是一个付费软件,不差钱的直接官方购买、下载即可,mac版、win版均有
  2. 百度搜索“Tableau”就可以搜到并下载了,官方提供中文版,这软件无需再另外打汉化补丁
  3. 地址:https://www.tableau.com/zh-cn?cb=Sun%20Apr%2018%2001%3A36%3A31%202021
  4. 官方提供30天免费试用,只是为了前期学习、30天绝对是够用了,学习期间图省事可以直接官方下载
  5. 不推荐官方直接购买(不差钱除外),原因么看下图,相信大部分小伙伴是不愿意付这个钱的(单位是美金)
  6. image.png

    (二)破解

  7. 破解版就不说了,大家八仙过海各显神通吧,这年头谁还没两个破解站了

  8. 但我不推荐破解版,最初我也是破解版入门,但下载下来的软件要不是版本过旧(2018)要不就是有bug(用一段时间闪退等)
  9. 有靠谱资源的可以自己直接装破解版,否则不推荐通过这个方式下载
  10. Tableau每年会更新3~4次,旧版很多功能都会与新版不一致,建议尽量安装新版本

    (三)万能的某宝

  11. 愿意花点小钱的推荐这个方式,某宝购买正版激活码,有不少商家在卖,推测是企业授权转卖或者渠道商偷偷卖的

  12. 价格供参考:
    1. 1机:40/年(能激活一台机器,包含Desktop+Prep)
    2. 2机:65/年(能激活两台机器,包含Desktop+Prep)
    3. Online:258/年(可以使用Online服务,详见首页2-4“Tableau全家桶”部分)
  13. 激活码激活,可以更新

    1. 公司行为购买还是要通过正规渠道,这种方式应该是没有法律保障的
    2. 个人使用与正版体验无异

      二、连接数据

      (一)连接数据

      image.png
  14. 运行软件,默认打开的应该是前置页面,你需要在本页面打开数据或之前编辑过的Tableau文件

  15. 中间大片区域用于展示你之前处理过的历史文件
    1. 你也可以点击下方的“示例工作簿”,Tableau内置了一些数据、方便你初次上手
  16. 右侧区域内嵌了一些常用的教程与指南,你可以通过这些路径快速跳转到对应的教程
    1. Tableau官方提供了非常多的教程(且有大量是中文教程,好评),这也是我为什么不推荐其他第三方的课程,又臭又长质量低,还不如看官方的
    2. 但官方教程也有其局限性
      1. 慢,Tableau官方服务在国内都非常的慢,尤其是Online服务,上传一个大型仪表盘你会想哭的
      2. 官方教程内容过于丰富,初期学习时很容易陷入迷茫、找不到重点,所以推荐先通过本教程快速上手,后续根据实际需要去里面慢慢学
  17. 左侧是数据连接部分,你可以通过本部分来连接你需要进行处理的数据

    1. Tableau支持市面上场景的大部分数据文件格式,最常用的Excel自然不在话下
    2. 单击你需要连接的数据格式,即可选择数据、正式开始你的Tableau之旅

      (二)数据源页面

      (1)选择Excel

  18. 以下均以Excel作为案例,毕竟大家最常使用的应该还是Excel

  19. 选择一个Excel文件(可以跟着我一起做,数据集文末会有下载)

    1. image.png
    2. image.png

      (2)数据源页面

  20. 打开后、未经任何操作,你会发现右侧的内容均为空白,这是因为你还没有进行数据选择

    1. image.png
    2. 左侧的“工作表”对应了Excel里的“sheet”
    3. 这里我们选择“酒店数据”,把它拖动到“将表拖到此处”的位置
  21. 这时软件才会真正读取数据,你可以看到这个文件内的数据内容

    1. image.png
    2. 本页面一般用于预览源数据,并对数据进行一定程度上的操作
    3. 你可以点击1号红框所示的图标,回到刚刚的连接数据首页,选择其他的数据文件
    4. 2号红框的区域一般用于连表
      1. 例如取并集、left/right join等,有sql基础的同学应该可以很简单理解
      2. 没有基础的也没关系,我们会在No.3讲到这个部分,暂时可以先跳过
    5. 3号红框就是数据展示区,看起来跟Excel差不多,你可以在这里对数据进行处理

      (3)数据处理

  22. Desktop主要还是用于数据分析,并不期望你在这里进行过多的数据清洗工作,因此数据处理尽量还是通过Excel完成,或者No.7学习Prep来配套完成,我这里只介绍一下比较常用的一些功能

  23. 数据展示行数
    1. image.png
    2. 性能考虑,Tableau默认只会展示前1000行,你可以修改右上方的数字,来调整展示行数
  24. 修改字段类型
    1. image.png
    2. 对应Excel里的单元格格式,差别在于Tableau可以快速对整列进行设置
    3. 字符串可以理解为一般的文本内容,大部分时候也都会默认为字符串格式
    4. 布尔代表了“真”与“假”的判断类型
    5. 地理角色大部分时候用不到,绘制一些涉及地图可视化的时候才会用到
      1. Tableau内置了世界地图,基础使用完全是够的
      2. No.5会讲到这部分
    6. 请确保字段类型是你所需要的,例如字符串是无法用于计算的
  25. 创建计算字段
    1. image.png
    2. 可以简单理解为Excel里的函数,但Tableau提供了一个独立的编辑窗口,并在右侧会展示提供的函数以及介绍(有没有一丝丝写代码的感觉?)
    3. image.png
      1. 有时看不到右侧的函数提示,需要点击中间的小三角将其展开
      2. Tableau可以直接搜索函数、且提供函数的说明以及案例,双击函数会自动将其填入输入区内
      3. 下方会告诉你本次计算是否是有效的
      4. 你可以直接在其中输入字段名,通过“[]”来区分,请注意所有符号都使用英文符号
      5. 我们可以来计算一个“评分总量”尝试一下,确定后该字段就会直接显示出来了(具体内容我们后续再展开)
      6. image.png
  26. 快速拆分字段
    1. 我们可以看到酒店名字里包括了中文以及英文,有没有办法快速取出中文呢?
    2. image.png
    3. 我们可以通过拆分功能来实现这个效果,不过Desktop本体的数据清洗功能很弱,我们没有必要强行用它来做,目前Prep提供了更好的解决方案
    4. 我这边建议所有涉及数据清洗的工作都由Prep来完成,这边不作太多展开,有兴趣的可以自己试一下,通过“(”来进行拆分
    5. image.png
    6. image.png
  27. 其他一些基本操作

    1. 类似重命名、排序等等,大家自己点点试试就行,没必要多讲了

      (三)小延展—连接数据库

      image.png
  28. 毫无疑问,Tableau也支持直接从数据库读取数据、进而分析,点击“到服务器的更多”,就可以查看完整的支持列表

  29. 一般来说,正常使用Tableau只会读取数据、即使你创建了一些计算字段,计算行为也只会在Tableau里进行、不会影响源数据
    1. 当然你也可以通过Prep设置任务流、定时进行数据清理、直接修改源数据内容
  30. 有时在进行数据库连接时会报错,那是由于你缺少了连接器驱动

    1. 例如连接mysql,你就需要额外去安装mysql对应版本的ODBC驱动包
    2. 安装后才可正常使用

      三、工作表说明

      (一)工作表、仪表盘与故事的关系

      image.png
  31. 在数据源页面进行完基本的操作后,就要开始进行数据分析工作了,我们可以点击下方的加号来创建一个正式的分析窗口

  32. 这时候有些同学可能会好奇,工作表、仪表盘、故事又是什么鬼?

    1. 工作表:这是我们最常用的内容,你的基本所有可视化、分析等等操作都会通过工作表来完成
    2. 仪表盘:仪表盘是工作表的延伸,你可以选择多个工作表、再配合一些文字说明等等,来构成一个大的可视化页面,一般用于演示或者分享
    3. 故事:性质与仪表盘类似,你可以选择多个工作表以及仪表盘来构成故事,来构成一个更大的范围的演示内容,这边可以简单的理解为ppt
    4. 仪表盘与故事没有什么学习成本,基本就是简单的拖拉拽,后续自己试一下就行;我们的整体学习核心在于工作表

      (二)整体结构

      image.png
  33. 左侧为字段区,此处会展示你数据表中的所有字段名称(包括你进行计算、组合出的字段)

  34. 右侧占最大面积的即可视化区域,此处会展示你生成的可视化内容,,你也可以在此处直接对可视化进行编辑
  35. 中间区域为操作区,你可以对数据进行筛选以及对可视化内容进行设置
  36. 下方可以理解为Tableau里的sheet,用于多个工作表切换,请注意工作表、仪表盘、故事都是放在一行内的

    1. Tableau并没有做进一步区分,只对三者进行了icon上的差异化
    2. 所以tab名称尽量修改为自己清晰可辩的

      (三)字段区

  37. 维度与度量

    1. image.png
    2. 聪明的你一定已经注意到,字段被分成了蓝、绿两种颜色,分别展示在上下区域
    3. 蓝色代表了维度、绿色代表了度量
    4. 你可以简单的把度量理解为数值型数据、可用于计算、统计;而维度则是客观描述或属性本身,往往用于区分
      1. 例如地区字段是一个维度,地区包含了北京与上海两种内容,而价格是一个度量
      2. 我们可以计算出北京与上海分别的“平均价格”;但你没法计算出一个“平均地区”
    5. image.png
      1. 在字段区,你也可以右键某个字段对其进行操作,基本与数据源页的一致
      2. 你也可以在这里把字段转换为度量或者维度
      3. 划重点:你一定没有忘记Tableau高度可视化与操作便捷的特点,这里的字段是可以直接拖拽的、这也构成了Tableau整个操作流程的核心

        (四)主视区

  38. 把“地区”拉到“列”上试试

    1. image.png
  39. 接着再把“价格”拉到“行”的位置
    1. image.png
    2. 没错,一张可视化图表这样就生成完了,就这么两步
      1. 那这张图代表了什么含义呢?
      2. 不同地区下,酒店价格的总和
      3. 所有的度量字段,默认都会自动取“总和”
      4. 这边先不展开,下文很快会对其进行详述
  40. 一些基本的交互
    1. image.png
      1. 悬停展示对应数据
    2. image.png
      1. 右键打开编辑区
    3. image.png
      1. 在图中间位置右键后点击查看数据,可以直接打开数据列表
  41. 调整视图范围
    1. image.png
    2. 视图默认会选择“标准”,根据电脑的差异,可以自行选择适配范围
    3. 一般会选择整个视图,来把画面铺满
    4. image.png
  42. 快速进行工作表操作
    1. image.png
    2. 新建、复制、清空工作表
    3. 行列字段互换、排序
    4. 这边比较简单,大家自己试一下就行了
  43. 对图名称、列名称等进行修改

    1. 在对应的位置鼠标右键,例如标题位置或列名称位置鼠标右键、选择编辑即可打开编辑窗口
    2. 编辑窗口内你可以调整样式、名称等等,这个比较简单大家自行尝试即可

      (五)筛选与操作

  44. 比较常用的是筛选与下面的操作区,页面一般不用,后面再说

  45. 筛选的用法
    1. image.png
    2. image.png
    3. 同样把所需要筛选的字段拖过去就行,然后在弹窗内选择需要筛选的范围
    4. 例如我不需要东区的数据,把对应的选项勾掉即可
  46. 下方的操作区后面的教程会详细说,这边先做一个简单的介绍,比如我对蓝色不是很满意,可以点击一下颜色按钮

    1. image.png
    2. image.png
    3. 修改后就直接生效了

      (六)智能推荐

      image.png
  47. Tableau通过算法,会基于你选择的数据,为你自动推荐合适的图表类型,可以点击右上方的tab打开

  48. 选择你想要的图表类型,就会直接自动转化:为灰色则代表你选择的字段不支持转化成这个类型
  49. image.png
  50. Tableau会告诉你,生成这个图表需要哪些类型的字段,如果满足、就可以自动转化
  51. 我们来试一下饼图
  52. image.png
  53. 一键、Tableau就会自动帮你把图片转化为饼图了,记的切换为整个视图哦,我们来看看成品
  54. image.png
  55. 怎么跟你生成的好像不一样?聪明的你有没有发现差异在哪里?这也是Tableau最强大的地方
  56. 接下来会为大家做具体演示,我们来做一个小实例

    四、做一个小实例

    (一)数据准备

  57. 先下载一下我准备好的案例数据No.1.rar

  58. image.png
  59. 接下来会为大家展示Tableau最强大的地方,以及与Excel相比,Tableau究竟强在哪,大家先打开两份数据看一下,发现两份数据的差别在哪了吗?

    (二)原始数据与聚合数据

    (1)原始数据

    image.png

  60. 原始数据,一条源数据一行,往往同时带有多个属性(多列),真实的数据存储时往往就是这个数据结构

  61. 但这个数据结构是无法直接拿来使用的,你可以通过这份原始数据直接生成一个“各地区酒店数量”的可视化图吗?
  62. 我们一般使用的数据或在系统内导出的数据都不是源数据,而是经过处理的聚合后数据
    1. 好处是可以直接拿来使用、也便于理解
    2. 但坏处是数据的颗粒度变的很粗、同时经过了二、三手处理,数据会失真,不一定是你期望的聚合方式
  63. 以“各地区酒店数量”为例,我们需要按地区将酒店数量进行聚合,从而计算出每个地区的酒店数量

    1. 例如共存在5行地区为“东区”的数据,即代表了东区的酒店数量为5

      (2)聚合数据

      image.png
  64. 这就是一组聚合后的数据,我们按“地区”对“行的数量”进行“加总”

    1. 同样,我们还可以针对“地区”对“价格”进行“取平均”
    2. 针对“热门等级”对“评分”进行“取平均”
  65. 聚合后的数据,往往才是我们想要的,而我们要尽可能的获得更精准的原始数据,才能按我们期望的对数据进行聚合
    1. 如果你拿到的直接是上图这样聚合后的酒店数据,你还可以得到其他信息吗?
  66. 通过Excel聚合数据

    1. 由于我们尽量需要使用原始数据,所需要处理的数据一般“数量巨大”且“字段属性多”
    2. 而Excel“处理速度慢”与“操作复杂”的特点就被放大了
    3. 万级以上的数据,用Excel处理往往就会开始出现卡顿了
    4. 我们用Excel来还原一下上述的聚合操作,来统计“各地区酒店数量”
      1. 插入-数据透视图-选择数据范围-选择生成位置-将地区放入轴类别-将名字(任意)放入值-选择计数项,从而得到下图
      2. image.png
      3. 那如果我想在看一下各区不同热门等级的占比呢?再把热门等级拉入轴
      4. image.png
      5. 虽然左侧的数据列还比较清晰,但可视化部分就有点惨不忍睹了,接下来我们用Tableau来做一下同样的事

        (三)用tableau制作酒店分布图

  67. 把地区拖入列,把名字拖入行

    1. image.png
  68. 右键名字,选择度量-计数
    1. image.png
    2. 这一步的含义是按“名称”计算“数量”(后面带“不同”的计数,代表去重计数)
    3. 你也可以按其他任何一个字段计数,只要注意那个字段不要存在空值就行
      1. 这一步的含义本质上就是“数有多少行”,所以不能有空值
      2. 这类计数类的聚合方式,你也可以直接拖入左侧下方“酒店数据(计数)”这个字段,这是系统帮你直接计算好的
  69. 这时一张基本的可视化图表就已经做完了
    1. image.png
    2. 你也可以通过智能推荐把它转化为饼图
    3. 或者通过交换行列将其转化一下方向
      1. image.png
      2. 由于可以自由转化,所以这种比较简单的二维图不用太考虑哪个放在行、哪个放在列
    4. 如果我不满足于知道“地区的酒店数量”统计,还希望知道“不同地区下、不同热门等级的酒店数量”统计呢?
  70. 将“热门等级”拖动到“颜色”,通过颜色来对不同“热门等级”进行区分
    1. image.png
    2. image.png
    3. 系统自动用颜色对其进行了区分,并在右侧显示了图例
  71. 我们希望能把数据显示在图标上,这样可以更加清晰
    1. 鼠标选中刚刚的“计数(名字)”并按住“Control键”,拖动到标签位置
      1. 按住“Control键”是快速复制一个相同的字段,你也可以按照之前的步骤重新再创建一个“计数(名字)”
    2. image.png
    3. image.png
    4. 这样就快速把“计数(名字)”显示在图表上了
    5. 同理,你可以把任何名称、数字放在图标上,上文饼图中的内容就是这么制作出来的
  72. 如果我们不希望显示数量、而希望显示占比呢?
    1. 右键“计数(名字)”,选择度量-合计百分比,就可以把计数转化为百分比占比了
    2. image.png
    3. 但制作出来的数据你会发现百分比好像对不上,这是因为系统默认把本表的所有数据作为计算凭据了,我们需要更改一下
      1. 把所有数据作为计算凭据:即东区、热门等级A的酒店数量,占全表总酒店数量的多少
      2. 而我们实际上希望的应该是:东区、热门等级A的酒店数量,占东区酒店数量的多少
      3. 我们需要再右键“计数(名字)”,在计算依据里修改,选择“表(向下)”、“单元格”、“热门等级”均可,一般来说,选择“单元格”即可
    4. image.png
  73. 根据你实际的分析场景,你可以将“热门等级”替换为“类型”,就可以分析出“不同地区下、不同类型的酒店”数量

    (四)制作酒店地区平均价格分布

  74. 小习题,如果我希望得到“不同类型下、不同地区的平均价格”对比,要怎么制作呢?

  75. 将“类型”移入列,将“价格”移入行

    1. image.png
    2. 对“价格”进行计算,不过这次我们不用计数,而用平均值
      1. image.png
    3. 将“地区”拖入颜色,将刚刚计算后的价格平均值再复制一份拖到标签
      1. image.png
      2. 这样一张图就制作完成了,通过这一张图我们可以得到哪些信息呢?
      3. 不同类型下的酒店数量分布情况
      4. 不同类型下,各地区的酒店均价
      5. 再抽出一下关键信息,中西区的酒店均价整体较高,且在“海滨风光”与“休闲度假”这两个类型下尤为突出;这两个类型同时也聚集了全市最多数量的酒店,属于热门类型、且均价较高
      6. 我们可以尝试去中西区开“海滨风光”与“休闲度假”的酒店

        (五)总结

        image.pngimage.png
  76. 还记得这两份原始数据吗?无论通过其中哪一种,我相信你都很难快速得到相同的结论

  77. 这就是数据可视化的价值所在,面对大量的数据、丰富的字段属性,快速的帮助你发现问题、验证问题(以及给领导出报表)
  78. 而Tableau进一步帮助你简化了这个过程,只需要几步简单的拖拉,你就可以生成出相对还算精美的可视化报表
  79. 你也可以用Excel来做相同的事,但其效率低、效果差,因为它不是专为这个场景而生的,Excel大而全的特性,意味着他什么都能做、但与专业级应用相比,无论做什么都不那么“爽”