对于数据分析的一些基本介绍
一、前言
(一)最开始的话
- 本文默认读者已经对数据分析有了大致的想法,因而不会再去阐述是否要学、为什么要学这类话题
- 如果有需要,日后会再单开一篇文章写一下学习路径与方向
本教程主要教你通过“Tableau”这个可视化工具进行数据分析工作
(二)本教程的基本原则
本教程强调实用主义,即抛弃花哨功能、无限聚焦于日常最有可能用到的部分
- 希望你跟着本教程学完、能立刻就上手用到工作里;对于后续的进阶需求,可以再去其他地方学习(Tableau官方提供了非常多的教程)
- 我之所以要写这个东西,就是厌烦了网上那种动不动几百集的课,浪费一大堆时间在平时根本不可能(很少)用到的地方
- 不少产品朋友早期学Axure的时候应该深有感触,像我本人当时花了大把时间去学了中继器,最后发现实际工作中完全用不到
- 如果让我自己来出教程,可能出到动态面板就结束了、顶多稍微讲一下参数,整套学完估计也就半天
-
(三)数据分析流程
数据获取→数据清洗→数据分析→数据结论
- 这是一个常规的数据分析路径,根据实际情况可能只包含其中某几个环节
- 数据分析没有定死的路径和方法,要根据实际业务场景灵活展开
- 切勿为了分析而分析,一定是有一个什么目的才来展开数据分析的
- (纯粹为了做报表、给上级演示等当我没说)
- 数据获取
- 获取你所需要的数据、字段等等,此为数据准备阶段
- 常用工具:sql、找开发拉报表、在各个系统里下载
- sql是一个数据库语言,用于访问和处理数据系统中的数据,且难度不大、学习有利于了解数据结构,原本应该算一个必学的东西
- 但介于很多厂不给数据库权限或已经有比较成熟的数据报表系统了,所以目前的环境下不学也无所谓(但还是推荐学习下,主要用于了解数据结构和一些基本的概念,只学这部分也ok)
- 数据清洗
- 对你所需要的数据进行处理、修改、编辑
- 常用工具:sql、Excel、Python、让开发帮你洗
- 本文后续会介绍下“Tableau Trep”这个数据清洗工具,这是一个Tableau同厂出品的清洗工具,1+1用起来更方便、所以建议学习这个,也比较好入门
- 很多初学者小伙伴不太理解为什么要做数据清洗,说白了这一步就是把数据变为你想要的数据、能够进行分析的数据
- 真正的源数据往往包含了大量脏数据/无效数据,例如“数据为空”、“要把某个符号统一删除”、“某个类型的数据不需要”等等
- 技术人员帮忙拉的报表、系统下载的报表往往是已经帮你做完了这步,所以会认为好像没有需要数据清洗的地方
- 但这类数据往往已经是二手、三手数据,经过了多次流转,你怎么知道自己想要的一些东西是不是已经被清洗掉了?
- 所以真正做数据分析的时候,建议还是拿源数据自己做清洗,或者让开发进行一些基础的清洗工作,后续还是自己来
- 大部分场景Excel都可以完成,实际上很多人也是这么做的、但没有一个明确的概念
- 比如把城市为“上海”的数据删掉,这一步其实就是数据清洗
- 数据分析
- 对数据进行建模、抽象出需要分析的内容,发现问题or验证问题
- 常用工具:Tableau、Power BI、Fine Bi、Excel
- 数据建模、抽象出问题、对数据进行多层组装/计算再分析
- 对于初学者/初阶需求来说,基本是没有这一步的
- 把数据扔进Excel跑个柱图或者饼图、看一下Top几就算完事了、这也是大部分人的“数据分析”
- 但显而易见这步才是整个流程的核心,对于逻辑能力、数学能力、业务理解都有一定的要求
- 举个小例子,假设2021年上海工资水平排名全国第一(这是表象数据),为什么排第一?怎么排到第一的?是哪些领域排到第一?第一指的是中位数还是平均数?这个数值能真实反应上海2021年的工资水平吗?
- 后面这些问题,就是我们期望通过数据分析来告诉我们的
- 大家肯定也已经发现了,如果没有足量的数据支撑、有效的数据字段,根本无法开展后续的工作,这是基本前提
- 数据量这块又涉及数据埋点、数据体系建设、业务规模等等问题,个人往往无法解决,所以这时把数据清洗这个环节握在自己手中就显的非常重要
数据结论
任何数据工具都必然会陷入与Excel进行比较的争论漩涡,产生类似“这些Excel也能做”等言论
- Excel作为微软数据产品的集大成者,可以说95%以上的需求都可以通过Excel完成,但大部分场景你会发现你用的没那么“爽”
- 任何产品都会有其倾向性,侧重了某一点必然意味着另一点要做出取舍,不要指望Excel能在每一端都做出极致的体验
- 从上海到拉萨,你可以做火车(48h)、也可以做飞机(6.5h),抛开经济因素、正常情况不会选择火车;反过来说,从上海到南京,也不会有多少人选择飞机
- 根据实际场景,选择合适的工具才是正确的
- Excel基于其集大成者的特点,在轻度的数据处理、分析上有无可比拟的优点,但下钻到实际的分析层,操作复杂、处理效率等劣势就开始显现出来
- 数据处理效率也是个大问题,很多时候几万条数据、性能就开始有点吃紧了
- 后续在Tableau的实际学习中,可以非常快速的发现Excel的“复杂”体现在哪
- 反过来说,为什么微软有了excel、还要再另外分化出一个powerbi来做这个事情?
在实际场景中,推荐结合流程使用1+1+1……的方式来完成你的数据需求,每个环节都选用你认为效率最高的那项,当然其中可以包括Excel
(二)Tableau与其他BI工具
BI工具现在市面上很多,比较常见的有Power BI(微软大法好)、Tableau(本文重点)、Fine BI(国产之光)
- 对于大部分使用者来说,BI产品是数据可视化工具,能够以极高的效率帮助你把大量无法直接解读的数据转化为可视化图表,从而分析数据or单纯的产出报表
- 知乎上三者比较的话题老日经贴了,有兴趣的可以自己上去查一下,我这边着重说一下为什么入门建议选Tableau
不要去纠结到底学哪个,几者的底层逻辑是相似的,基本上学会一个以后也能很快上手其他、到时候根据实际情况选择即可(比如公司统一要求用哪个)
(三)为什么选Tableau?
Tableau聚焦于数据可视化、提供了最简易的操作与可视化页面,它操作界面简洁、易懂、美观,是入门学习难度最低的
- 基于这个理念,Tableau预设了许多可视化类型+常用的分析模型,把各种功能模块化,例如跑个线性回归、只要拖一拖就可以完成,不超过3秒时间
- 而初中级的数据需求大多都是数据可视化而非数据建模与数据挖掘(这些是power bi与fine bi的强势点),所以在入门期、选择Tableau是最合适、最能够快速落地的
- 等你真的有了深度的数据需求,这时候你有了Tableau基础,再去学习其他工具也是非常快的,或者可以直接转Python了
这边再强调一下Tableau的优劣势
估计会有点小伙伴迷糊,Tableau Prep是什么鬼?跟Tableau是一个东西吗?
- Tableau其实是一套全家桶,有好几个子工具,主要有以下这几个
- Tableau Desktop:一般所谓的Tableau指的就是这个Desktop,它是一个桌面分析工具(需要下载软件),主要就是设计和创建美观的可视化、做数据分析
- Tableau Prep:Prep就是为了弥补Desktop数据清洗能力差才在2018年推出的,继承了本体易上手、界面清晰美观的有点,基本可以实现数据清洗、数据整理、数据合并等etl操作
- Tableau Server:Desktop操作完后,可以通过Server把做好的报表、数据源同步到云端服务器(用于分享或线上管理),也可以线上执行一些分析命令、清洗命令等等;一般是用于企业范围内的部署,当然了价格也是很贵的,而且不太适用于国内的企业(国内支持少、速度慢,用的很少)
- Tableau Online:可以看作Server的个人版,价格低了不少(还是不便宜);也可以直接当成一个阉割版的Desktop来用,在网页上直接操作、少了一些功能、运算性能较弱,好处是无需下载,其实就个saas版(当成云来用还可以,saas就算了,国内访问速度会让你想死的,还是下个Desktop本地操作的)
- 我们这边主要会学习Desktop+Prep两个产品,覆盖数据清洗+数据分析两个环节
- 会优先进行Desktop的学习
- 基本的数据清洗行为Desktop和Excel都可以完成
- 后续有机会再补上Prep的学习教程