大数据家庭里有三个兄弟姐妹:数据收集、数据工程、数据分析。他们之间像下图这样协作。
image.png

  1. 数据收集

数据收集是负责采集数据,解决数据从哪里来的问题。一般数据来自以下几种途径:

  • 日常业务积累下来的数据

日常业务中会产生数据。例如为了调查用户对产品的使用意见,公司制作了「用户满意度」表格让用户来填写,最后把收集到的数据保存到 Excel 表格里。如果你在公司里报销过,那么你报销的数据会被财务人员填写到财务系统里,这样日积月累下来就是财务数据。

  • 通过埋点来获取数据

埋点顾名思义就是埋伏地点,是指在产品中提前规划好在哪个地方想获取到什么数据。例如,某款电商 App,为了采集到用户点击收藏按钮的次数,需要提前使用技术手段在收藏按钮的地方(埋伏地点)规划好,这样就可以获取到对应的数据。

  • 爬虫

当工作中没有需要的数据,又必须要从网上采集一些数据时,这时候就可以利用 爬虫模拟浏览器打开网页,获取网页中我们想要的那部分数据。

  1. 数据工程

收集来的数据放在哪里呢?这就是数据工程干的事情,也就是使用技术手段把收集的数据以最优的方式存储起来,方便后面使用数据。一般是把数据存放到数据库中。
image.png

  1. 数据分析

一堆数据存放在那里是没有价值的,需要应用起来,这就是数据分析干的事 情,也就是通过分析数据来解决业务问题。例如,本周发现新增用户数比上周减 少 10%,为什么减少?这就需要通过分析数据来解决。

什么是数据分析

数据分析作为一门科学被正式地提出来,是统计学家 John W.Tukey 在 1962 年 的文章《The Future of Data Analysis》里边提到:「数据分析以及其中的统计学 知识,必须具有科学的特征而不是数学特征,数据分析本质上是一种经验科 学。」

在《云计算与大数据》一书中,对数据分析的定义是:用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结过程。

在数据匮乏的年代,人类依据的是个人之前的经验来得出结论,比如,燕子低飞要下雨,这是古人总结的经验,依靠这个经验来判断是否下雨。
image.png
现在我们进入了大数据时代,数据越来越多,过去靠个人经验就变成了依靠数据来得出结论。所以,现在天气预报是否下雨,不再是依据古人那种个人经验,而是通过获得的地面数据和高空数据,然后分析这些数据,最后得出是否要下雨的结论。

得出结论后,就是依据这个结论来做出决策。比如,下雨的例子,前面根据分析得出结论明天要下雨,那么你做出的决策就是:明天上班,出门就要带雨伞。
image.png

数据分析为什么热门

  1. 数据分析是大数据的核心
  2. 数据分析是零基础成为人工智能领域人才的必经之路
  3. 数据分析是职场的通用能力,发展前景巨大

image.png

数据分析师需要具备哪些能力

从整体上来看,数据分析师需要掌握的能力有很多,从总体上可以分为以下几类,这些能力构成了数据分析师的能力模型。
image.png
image.png

  1. 理论基础:统计学

数据分析背后的理论基础是统计学,掌握了统计学以后我们才能去看懂数据表达的意义是什么。例如,给你一家公司员工的工资,是平均值能代表这家公司的工资水平,还是中位数能代表?

统计学详细又可以分为两类内容:描述统计分析、推论统计分析

描述统计分析:对大量信息进行归纳是处理数据时最基本的任务。但经常是数据越多,事实越模糊。因此,我们需要简化,将一系列复杂的数据减少为几个能够起到描述作用的数字,用这些有代表性的数字来代表所有的数据。描述数据整体情况,我们可以用4个指标来做,分别是:平均值、四分位数、标准差和标准分。

推论统计分析:通过样本数据来推断出总体。需要掌握的知识包括概率分布、中心极限定理、如何用样本估计总体、置信区间、假设检验。

  1. 数据分析工具

Excel、SQL、python

  1. 可视化工具

商业智能(BI):简单来说就是把数据导入商业智能(BI)工具中,就可以快速对数据可视化。常用的工具有 Power BI、Tableau、帆软等。

  1. 业务知识

因为数据分析是用来解决具体行业问题的,需要从业务的角度出发,了解各个指标,以及每个指标之间的关系,还需要联系业务去理解数据。业务知识包括某个行业的常用指标、业务流程。需要注意的是,不同行业的指标、业务流程是不一样的。

  1. 数据分析思维

数据分析思维需要你掌握10种常用的分析方法。
image.png

Excel需要掌握的知识点

image.png

SQL需要掌握的知识点

1、查询语句
简单查询
image.png
会根据指定的查询条件从数据库中取出符合条件的数据
image.png
掌握以下运算符的使用
image.png
2、汇总分析
掌握下面5个常用的汇总函数
image.png
例如,从学生表中查询有多少学生,就可以用 count 分析表中有多少行。
image.png
分组语句 group by,having子句对分组结果指定查询条件。
image.png
排序语句 order by。
3、复杂查询
子查询知识点需要掌握3种子查询类型:子查询、标量子查询、关联子查询。
image.png
4、多表查询
image.png
掌握交叉联结、内联结、左联结、右联结、全联结。
image.png
5、窗口函数
窗口函数可以解决这几类业务问题:

  • 排名问题。例如对每个班级的学生分别按成绩排名。
  • TopN 问题。例如找到每个类别下用户点击最多的5个商品是哪些。
  • 累计求和问题。例如医院的累计确诊人数是多少。
  • 分组比较问题。例如查找单科成绩高于该科目平均成绩的学生信息。

    Python 需要掌握的知识点

    1、Python数据分析工具
    最常用的工具是Anaconda、Jupyter Notebook或者JupyterLab。

    2、Python基础语法
    数据类型、容器、函数、条件判断、循环。
    image.png
    3、Python数据分析包(numpy、pandas)**

4、Python可视化图形包(matplotlib)

5、Python机器学习包(scikit-learn)

6、能够用Python操作数据、进行数据清洗、数据抽取、数据可视化等

数据分析报告的诞生

数据分析的步骤

一般分为以下5个步骤:
1、明确问题
为后续的数据分析工作提供目标
image.png
2、理解数据
拿到数据议后,可以按照以下步骤来理解数据。
image.png
3、数据清洗
数据清洗也叫数据预处理。很多数据并不符合数据分析的标准,这时候就需要对数据进行整理。例如,删除重复数据、对缺失值处理、对异常值处理等。
4、数据分析
对上一步清洗后的数据进行分析,完成第一步中的分析目标。
image.png
5、数据可视化
将得出的分析结果用图表的方式展示出来,最终形成数据分析报告。
image.png
image.png

数据分析报告

一数据分析项目,不能只是说结论,而是需要把分析报告的来龙去脉说清楚,所以需要一份报告来让其他人觉得你是有理有据。通常数据分析报告会制作程Word、PPT。数据分析报告主要有四个作用。
image.png
常用的几种数据分析报告:
1、行业分析报告
对某一行业进行系统分析研究,以便了解这一行业的发展状况。

2、专题分析报告
对某一问题进行专门分析研究。

3、日常数据通报
对某个时间范围内定期做的报表,用来监督这段时间的数据变化。

4、综合分析报告
对一个地区、公司或者部门业务进行全面评价。

如何制作一份数据分析报告

数据分析报告最常用的是 总-分-总 结构,由开篇、正文和结尾三部分组成。
1、开篇
介绍分析背景、目的、分析思路。

2、正文
具体分析过程和结果

3、结尾
相当于一份报告的总结,包括分析结论、建议。

数据分析师平时都做哪些工作

数据分析师的日常工作是什么

image.png
1、沟通
数据分析本质上是对业务的支撑,所以分析的需求是来自业务方(比如产品、运 营、销售等部门)。数据分析师沟通的时候,要清楚业务方需求是什么,要达到什么目标,并要求业务人员把需求写清楚。

数据分析师还会做一些数据支持的工作,也需要沟通。 公司的业务情况会 不断变化,当公司现有的系统无法满足新的业务需求时,就需要数据分析师能够 从数据库中取出业务方需要的数据。

2、监控
通过制作报表来监控报表里面的指标,通过监 控指标的变化,及早发现可能存在的问题。

3、分析
当公司业务遇到问题或者监控发现问题时,数据分析师需要分析找到问题发生的 原因。

4、建议
在针对业务出现的问题找到原因后,还不够。数据分析师要提出建议,这样才能 指导业务方下一步具体如何去解决问题。需要注意的是,提建议的时候要提出多 种建议,避免提出一种建议,不然业务方没法通过一种建议来作出决策。

数据分析的挑战

1、不知道分析什么
想要开展工作的第一步就是明确问题,只有明确了问题,才能知道分析什么。
明确问题时需要注意:

  • 不要在问题里加入自己的主观判断
  • 明确问题来源和准确性
  • 确定问题中涉及到的指标


2、不知道如何分析
需要用常用的分析方法来解决。
image.png

选择行业和公司

1、行业

2、公司
优先选择大公司,刚入行最好选择有人带的部门。

【国家企业信息系统】或【天眼查】可以查看公司注册资金等信息,【Talkingdata】查看行业发展的概括数据,【IT桔子】可以查到创业公司的融资数据。

简历

第一层境界:了解要面试的行业基本信息;
第二层境界:在网上找到一些实际的案例文章,再加上自己的见解;
第三层境界:找到竞品相关数据,并生成一个分析和可视化的报告。

如何描述项目:
1)遇到什么问题
2)采用什么数据工具解决的
3)使用什么分析方法展开分析的
4)提出了哪些有价值的建议

项目描述不要写太详细,要学会给面试官挖坑,引导面试官问你擅长的问题。