目录:

  • Python爬虫
  • Excel
  • BI工具(PowerBI + Tableau)
  • Python数据分析(NumPy + Pandas + Matplotlib + PyEcharts)
  • Git版本控制工具

    数据分析流程

  • 明确目标:到底要分析什么,是要分析用户行为,还是分析流量转化,还是分析产品营销效果?

  • 获取数据:
    • 分析自己的数据:一般来说分析的数据都是自己公司的项目所产生的,这一类数据一般存放在公司的数据库中。
    • 分析别人的数据:像竞品调研分析这种场景,需要去分析竞争对手家的产品的相关数据。此时你公司的竞争对手不可能直接把数据给你,此时就需要做数据采集。
    • 数据采集一般包括下载公开数据、Python爬虫程序爬取数据。
  • 数据清洗与数据预处理:
    • 一般来说,直接到手的数据不会太干净(比如有些行数据的某些个字段可能缺失(缺失值)、有些字段的数据可能不在正常范围内(异常值))。
    • 因此,在正式进行分析之前,需要先对这些不正常的数据进行一系列处理。
  • 数据建模:经过前面三步,一般就认为数据已经准备好了,因此就需要用一些既有的数据分析模型对已有的数据进行分析。
  • 数据可视化:数据分析的结果一般还是数据,数据对人来说可读性是很差的,因此需要用各种各样的图形将数据清晰的展示出来。
  • 数据报告:这个过程实际上就是看图说话,根据数据可视化阶段得到数据图,将数据所描述的信息用文字进一步描述出来。
  • 数据回验:(实际上是一个验证结果的过程,严格来说不算入数据分析流程)
    • 前面的一整个数据分析流程会得到一个分析结果。随着时间的流逝,项目会持续运行,这也就意味会有新的数据进来。
    • 此时就可以将新进来的数据套回到数据分析的结果中,看看是否与分析结果相符合。
    • 若新数据与分析结果相符合,则说明此次分析是一次成功的分析;若不符合,则说明此次数据分析存在问题。