课程大纲

第一周

Part1数据分析导论

  • 数据是什么?数据能做什么?
  • 数据的变异性、规律性和客观性使数据成为驱动决策的最佳工具
  • 优秀的数据分析师的三个特点

业务理解:数据和业务结合并产生价值才是数据分析是
工具使用:掌握并熟练应用基本的数据分析工具、分析模型和分析方法。
沟通表达:具备高效听说读写的能力和用数据讲故事的能力

  • 数据分析的四大步骤是什么

数据抓取:埋点、爬虫和API
数据清洗:数据需要具有完整性、唯一性、准确性和一致性
数据分析:数据分析的不同类型(描述性统计、诊断性分析、预测性分析、仿真模拟)
业务决策:清晰的可视化和完整的分析报告

  • 数据分析工具简介
  • Excel简介及优劣势分析
  • Python简介及优劣势分析

Part2 项目初探-员工薪水探索性分析

  • 企业级开发环境Jupyter的安装与基本使用
  • 代码开发技巧与思路
  • 企业级数据处理流程的代码实现
  • 主要知识点:
  • PEP8中的导包规范
  • 透析函数的本质
  • 数据详情背后的秘密
  • Pandas的多类型文件处理与数据的函数运算
  • Python数据处理的原理与方法
  • Pandas的数据迭代逻辑与条件筛选
  • 数据合并与CRUD
  • 数据的行列以及区域访问
  • apply与lambda的配合
  • 项目介绍
  • 项目描述:从数据分析的角度看企业、城市的运作,想了解其运作模式,员工的组织架构数据是最好的方法,我们从这些数据中可以判断哪些员工是稳定的、哪些员工是重要员工、企业的福利状况、员工的晋升状况等,在真实企业中,你可以根据员工组织架构数据对员工福利规划、离职风险预测等方面进行深入分析
  • 项目难度:简单。
  • 此项目为技术线课程的第一个项目,主要学习目的是帮助同学们掌握企业级数据处理的基本方法,达到能够独立处理数据的学习目标。

    第二周

    Part1 如何像数据分析师一样思考

  • 互联网营销活动数据分析的基本模型:找出问题→分析问题→解决问题

  • 描述性统计指标的Excel处理(以用户画像为例)
  • 用Excel分析数据之间的相关关系(以波士顿矩阵的四象限分析法为例)
  • 用Excel进行预测性分析(以电商零售销量预测案例为例)
  • 不同类型的数据分析(描述性统计、诊断性分析、预测性分析、仿真模拟)
  • 描述性分析:通过计算数据的集中性特征和波动性特征以了解数据的基本情况(平均数、标准差、分布规律、可视化方法)
  • 诊断性分析:深入挖掘问题根源,识别依赖关系,找出影响因子(多变量回归中如何找到关键性变量)
  • 预测性分析:用来说明未来可能发生的事情(线性回归、逻辑回归)
  • 仿真模拟:利用数学仿真来模拟各种条件下产生的结果(以零售仓储备货案例为例)
  • 数据可视化的基5大本原则

(图表类型、坐标轴、数据细节、颜色使用、维度展现)

Part2 数据的科学运算与数据探索性分析

  • 数据探索的目的与方法
  • NumPy数据运算的技巧
  • 空与非空
  • 矢量化与切片
  • 索引的本质、作用与花式索引
  • 常用运算方法与技巧
  • 降维与堆叠
  • 多种降维方法的磁盘级区别
  • 什么是广播运算与广播运算的操作
  • 企业中脏数据的常见处理方法
  • 脏数据的分类与产生原因
  • 企业中多数据源的数据产生场景
  • 使用Pandas进行各类脏数据的处理与操作
  • 数据的链式运算
  • 数据缺失、填充与标准化
  • 特殊的数据:日期
  • 时间格式与时间戳
  • 时间戳的原理与时间换算
  • 使用Pandas进行时间的运算
  • 项目介绍
  • 项目描述:此项目数据来源为摩拜共享单车,主要进行的是骑行时间分析。时间格式作为企业级数据分析项目中一定会遇到的一种格式,而时间的处理也成为了数据分析师不得不面对而又头疼的一种数据格式。在这个项目中,我们会对时间格式转时间戳和时间戳转时间格式以及时间的运算进行重点练习
  • 难度:中等。
  • 掌握数据的基本运算、统计方法、数据清洗方法,能够独立进行空数据、重复数据等脏数据类型的清洗,能够进行各种时间类型的运算。

第三周

Part1 不做只懂技术不懂业务的“工具人”

  • 为什么数据分析师不能只懂技术?(以b站用户“单次观看→多次观看→点赞→收藏→发弹幕→评论”的用户分层案例进行讲解)
  • 不是越高级、越复杂的技术就是好技术(复杂问题也可以用简单技术解决,以蒙特卡罗模拟+亚马逊电子书案例进行讲解)
  • 数据分析师与一线业务运营者的区别是什么?(宏观区别:数据量的不同导致了业务决策权限的不同;微观区别:数据分析技能的不同导致了业务理解深度的不同)
  • 数据分析项目入门课——bilibili站内CPC广告优化
  • bilibili广告系统相关背景及数据介绍(feeds广告、banner广告、卡片广告)
  • CPC广告投放系统的要素介绍(关键词、单次点击竞价、单日预算等)
  • bilibili站内CPC广告业务场景与优化问题介绍(广告ROI较低,投放不精准)
  • bilibili站内CPC广告业务优化思路及数据分析过程(客单价、订单量、单个订单平均广告花费交叉分析)
  • CPC广告优化在复杂业务环境下需要考虑的要素(恶意点击、由图片加载失败导致的曝光失败、广告主品牌权重、广告主与流量主的品牌匹配度等)

    Part2 数据分析与自动化办公必备利器:数据可视化

  • 颜色主题的设置原则

  • 数据可视化常用图形及其应用场景
  • 如何用图形讲好故事
  • 概览最火图形库Matplotlib
  • 图形叠加
  • 画布布局
  • 多维数据可视化
  • 数据分组
  • …..
  • 图绘制的关键步骤
  • 数据获取、颜色配置、添加说明、多图堆叠、网格与轴等
  • 中文的处理
  • 颜色生成器开发
  • 什么是RGB与RGBA
  • 颜色的组成
  • 项目介绍
  • 项目描述:本项目采用特斯拉股价数据作为项目练习数据,项目包含价格分布绘制、股价走向绘制、时间拆分、交易量分析等多个知识点
  • 项目难度:中等
  • 此项目的学习关键在于记忆各类图形以及图形元素的方法,掌握图形绘制步骤。为出色的工作成果汇报奠定基础。

第四周:

Part1 数据分析项目实战(一):电商平台订单报表分析

  • 互联网电商平台数据分析的一般思路(强调数据分析的技术与业务理解的深度)
  • bilibili会员购平台业务背景介绍(平台定位、商品介绍、用户介绍)
  • bilibili会员购平台相关数据介绍(订单数据)
  • 订单数据的数据分析基本思路——制作可视化报表
  • 可视化报表涉及到的Python知识点讲解(文件读取,数据处理,数据可视化技术)
  • b站会员购订单数据的宏观分类与分析思路(待支付、已支付、已发货订单数据分类,不同分类的数据分析要点)
  • b站会员购订单数据的微观分类与分析思路(订单下单时间的小时、分钟分类,不同分类的数据分析要点)
  • b站会员购订单数据多表格数据的汇总与分析(周订单波动分析、一周不同时间用户购物习惯差异分析)
  • b站会员购订单数据针对用户属性判别的分析(下单时间+客单价→用户活跃时间+购买能力→用户身份(学生/社会人))
  • b站会员购订单数据针对地区品牌渗透度判别的分析(送货地区+客单价→地区品牌渗透都+地区用户购买力→头部市场/长尾市场地区划分)
  • 订单可视化报表与用户画像的关系(引出下个章节的相关内容)
  • 结合该章节内容介绍相关就职岗位(电商运营、零售商数据分析员、新零售运营)

    Part2 使用正则进行数据的复杂筛选

  • 企业中文本数据的产生及处理技巧

  • 文本数据抽取与格式校验
  • 企业应用软件如何进行手机号的格式验证
  • 网站注册时如何进行合法邮箱格式验证
  • 文本数据抽取的必备技能:正则表达式到底是什么
  • 正则表达式及其应用场景
  • 正则表达式的知识点组成
  • 元字符的奥秘
  • 反义与反义代码
  • 限定匹配与限定符
  • 分组的基本概念与分组匹配
  • 后向引用
  • 贪婪与非贪婪
  • 分词的多模式
  • 初探词云
  • 股票网站数据抓取
  • 身份伪装进行数据抓取
  • 正则的数据匹配
  • 数据持久化的方法
  • 正则结合前端技术进行复杂数据处理的技巧

    第五周:

    Part1 数据分析项目实战(二):用户画像体系

  • 互联网电商平台入驻商数据分析的一般思路(强调数据来源的广度与业务辅助的深度)

  • 亚马逊相关数据介绍(前台用户review数据+订单数据)
  • 电商运营的杀手锏——用户画像体系
  • 什么是用户画像体系(用户属性数据+用户行为数据)
  • 为什么要搭建用户画像体系(帮助电商平台入驻方获知自身的品牌定位和产品定位,同时梳理用户的搜索行为习惯)
  • 互联网业务数据分析的杀手锏——用户画像体系
  • 什么是用户画像体系
  • 用户画像在互联网业务中的应用场景和业务价值
  • 获客:如何进行拉新,通过更精准的营销获取客户
  • 粘客:个性化推荐,搜索排序,场景运营等
  • 留客:流失率预测,分析关键节点降低流失率
  • 用户的基本属性:性别、年龄、受教育程度、地域分布等
  • 用户的行为属性:下单时间、促销敏感度、评论敏感度
  • 用户的偏好属性:用户的加购数据
  • 用户画像涉及到的Python知识点讲解(文件读取,地图可视化,数据可视化技术,爬虫抓取技术)
  • 如何搭建亚马逊美国市场用户画像体系(数据可视化)
  • 用户地区分布分析(帕累托图,找到二八分布的头部市场)
  • 用户购买习惯分析(折线图,找到不同地区用户的购物高峰时间帮助品牌商进行价格实时调整实现利润最大化,电商价格歧视相关概念及技术介绍)
  • 价格地区分布分析(地图可视化,与用户地区分布分析结合进行交叉分析,找到长尾市场中的高客单价潜在市场)
  • 用户画像对于多品牌矩阵运营的帮助(多电商入驻商店铺定位分析+市场分析)
  • 用户画像对于用户搜索习惯的分析(review数据进行词频分析,同时将review数据的词频分析与产品链接标题的词频分析相匹配,最终找到潜力市场)
  • 用户画像对于电商团队管理的帮助(量化运营人员运营成果,避免纯KPI考虑的弊端)
  • 结合该章节内容介绍相关就职岗位(电商平台用户运营、电商入驻商数据分析师、垂直电商平台数据分析师、渠道商数据分析师、互联网公司用户研究员、广告投放师)

Part2 全链路的自动化汇报

  • 海量数据处理
  • 多层文件夹与文件的识别
  • 递归与深层递归
  • 什么是栈与栈溢出
  • 邮件与协议
  • 网络协议划分与企业开发的应用场景
  • 网络分层中的7层与5层
  • 邮件协议的组成
  • SMTP与端口
  • 邮件自动发送
  • 邮件的组成
  • 邮件中各组件的添加
  • 附件与图
  • 漂亮的邮件格式
  • 使用HTML进行邮件格式书写
  • HTML的标签书写
  • 邮件方法的结构化封装
  • 项目介绍
  • 项目描述:此项目要进行的是基于用户行为的用户价值分析,此数据来源为阿里巴巴淘宝用户行为数据,我们将会根据用户点击、收藏、加购物车、支付等行为结合RFM用户分层分析方法对用户进行价值分析,项目包含了数据筛选、清洗、可视化、分析等多个环节,是逐渐开始完整的企业级数据分析项目的开始
  • 项目难度:高
  • 此项目需要使用Python进行项目分析完毕后,再进行自动化的邮件发送,使得项目进行全链路的自动化

    第六周

    Part1 数据分析项目实战(三):以数据分析为导向的运营体系搭建

  • 流量运营案例:如何用数据分析的思路解决广告优化问题

  • 电商广告业务简介及传统分析链路数据分析
  • 什么是漏斗模型
  • 及何建立漏斗模型
  • 怎么运用漏斗模型优化广告投放
  • 多广告组分析时如何进行优化决策
  • 电商运营案例:如何利用数据分析的思路解决市场分析与仓储备货问题
  • 仓储体系数据化(简易计算法、计量计算法、数学仿真法)
  • 市场体系数据化(微观:销量同比/环比,销量权重对比,日/周/月销量对比;宏观:市场占有率计算,宏观市场分析,平台数据抓取与分析)
  • · 运营体系数据化(从需求角度/竞争角度优化关键词,如何量化关键词评分,转化率分析+用户访问深度分析,PV/UV的概念介绍及计算)
  • ·品运营案例:如何利用数据分析的思路使产品快速迭代
  • ·合用户生命周期与使用习惯的精细化运营(不同生命周期的用户予以不同的展示页,A/B test,价格歧视策略)
  • ·合用户使用习惯的增长黑客法则(如何找到magic数字,如何通过埋点使产品使用用户快速增长)

结合该章节内容介绍相关就职岗位(头部互联网公司产品运营、广告数据分析师、流量数据分析师、流量运营、电商数据产品经理)

Part2 深入数据分析与人工智能

  • 什么是人工智能能及人工智能的知识体系
  • 人工智能、机器学习、自然语言处理、深度学习、知识图谱、大数据等多种知识的关系
  • 深度剖析人工智能与数据分析的关系
  • 成为数据挖掘工程师与大数据工程师的学习路线
  • 数据挖掘的常用算法模型原理
  • 回归分析的常用分析模型
  • 线性回归与逻辑回归
  • 聚类分析的原理
  • 簇的选择与聚簇
  • 数据集合的划分
  • 模型训练与评分
  • 项目介绍
  • 项目描述:此项目是第一个聚类分析项目,我们将会使用sklearn库中的KMeans对象实现用户聚类,主要从客户年龄、客户年收入、客户的消费习惯等数据指标对用户进行聚类,从而把用户分成不同的簇,最后产出不同用户群体之间的特点
  • 难点:高
  • 此项目需要理解聚类的原理与簇的合理选择方法,需要清晰的设置不同用户不同维度的特点进而进行用户的聚类,在此期间我们需要使用可视化的方法观察数据的特点,是数据分析技能的综合性应用。

    第七周

    Part1 : 数据分析项目实战(四):亚马逊Kindle电子书的数据化商业分析

  • ·什么是商业分析?数据化商业分析与传统的行业研究区别是什么?(亚马逊Kindle商业分析与腾讯行业研究相关经验分享)

  • ·业务分析偏向于战术指导,商业分析偏向于战略指导
  • ·马逊Kindle电子书相关数据介绍(Hardcover + Paperback + Kindle三种渠道书籍排名数据、价格数据、review数据)
  • ·0-1变量、时间序列变量的介绍,以及多变量线性回归的概念介绍
  • ·据化商业分析涉及到的Python知识点讲解(多变量回归、聚类分析、非线性回归)
  • ·马逊Kindle书籍多渠道商业分析项目背景介绍(电子书发售时间对书籍整体销量的影响、电子书发售时间对电子书的影响、电子书发售时间对实体书销量的影响)
  • ·马逊Kindle书籍多渠道商业分析数据处理思路讲解
  • ·同Kindle书籍聚类分析方法讲解
  • ·子书对实体书销量影响程度判断与影响因素确定(价格、发售时间、review评分等)
  • 结合该章节内容介绍相关就职岗位(垂直互联网公司商业分析师、头部电商入驻商商业分析师、零售/快消行业数据分析师)

Part2 : 互联网新贵:SQL与MySQL(一)

  • 企业中数据的分类与来源
  • 数据库的基本划分
  • 关系型数据库、非关系型数据库的基本分类与应用场景
  • 数据与数据库的本质MySQL数据库的组成
  • 字符编码的多层次设置
  • 数据库的层次结构
  • 数据库的岗位衍生与知识分布
  • DDL、DML、DCL、TCL与各岗位的工作重点
  • 数据库的权限控制
  • 防火墙与远程访问
  • 权限与角色
  • 数据库的基本操作
  • CRUD程序员的日常
  • 写入的性能:单条与批量
  • 数据存储规范
  • 数据模型
  • 条件控制下的更新与删除,企业中数据删除的原则与数据分析师追溯数据的痕迹
  • Python操作数据库的技巧
  • 不定长多参传入
  • 游标
  • SQL书写的安全法则
  • 时间的运算与处理
  • commit与fetch
  • 结束后close的必要与原理

项目练习:构建学校架构模型,从学校、年级、班级、学生、分数、课程6个维度创建数据层次结构,加深数据模型的理解与数据写入的操作。

第八周

Part1 常见互联网业务的数据分析报告的制作及用户分层模型

  • 实战项目与业务逻辑回顾:数据报表(数据源)→用户画像(数据分析)→数据化运营(决策指导)→商业分析(宏观判断)→分析报告(结论梳理)
  • 常用的数据统计指标
  • 互联网运营/电子商务运营中统计指标拆解
  • 电商网站的指标体系
  • 互联网产品的指标体系(以AARRR模型为例)
  • 用户数据指标及其可视化展示:D(DAU、MAU、新增、留存、渠道来源等)行为数据指标及其可视化展示:P(PV、UV、转化率、访问时长、访问深度、弹出率等)业务数据指标及其可视化展示:G(MV、ARPU、付费人数、付费率、付费频次等)如什么是RFM模型及何构建RFM模型
  • RFM模型实战结合该章节内容介绍相关就职岗位(头部互联网公司数据分析师)

Part2 互联网新贵:SQL与MySQL(二)

  • SQL查询数据的条件筛选
  • 子查询与子查询的误区
  • 关联查询中的左、右、全
  • 多表的数据模型关系
  • 分组与排序的细节
  • 数据库也能运算
  • 那些常用且好用的函数
  • 数据加密与解密的原理
  • 数据库在企业技术架构中的角色,Python操作MySQL
  • 引擎与安装引擎
  • 连接数据库的基本步骤
  • 连接与连接池
  • Pandas的数据关联合并

执行后为什么要关掉,想要进阶还需要学习哪些知识

  • RFM的代码处理
  • 运算与聚合
  • 项目介绍:
  • 项目描述:本项目是线下门店数据,来自于知名全国连锁健身俱乐部的会员数据。我将会带你根据用户个体行为,对复购率、回购率、用户分层、回流用户、活跃用户、用户生命周期等多维度指标进行深入分析
  • 难度:高

此项目又是一个全链路的分析项目,从项目背景介绍开始,我们将会对数据进行抽样、清洗、分析、可视化到最后的产出分析结论。这个项目与之前的项目最大的不同是数据来源会在数据库中,数据获取时,我们将使用SQL把数据从数据库中取出并进行相应的转换,技术的应用层面,完全贴近企业级的实战场景

第九周

Part1 产品关联分析与商品画像体系实战

  • 什么是产品关联度分析
  • 什么是商品画像体系(电商平台类目的划分是怎样的,以腾讯微店的案例讲解子类目与母类目的从属关系,如何通过电商类目划分与商品数据梳理出电商平台商品画像体系)
  • 为什么要搭建商品画像体系(平台定位,供应商定位,KA商家与长尾商家的划分)
  • 购物篮分析(什么是购物篮分析,啤酒与尿布的案例引导,关联分析与购物篮分析的关系,关联分析中的支持度、可信度、提升度分析,购物篮分析对于电商平台的运营决策辅助)
  • 产品定位分析(波士顿矩阵概念介绍,金牛型/明星型/瘦狗型/问题型产品及类目的划分)
  • 结合该章节内容介绍相关就职岗位(头部电商公司数据分析师)

Part2 深入据可视化化更多图形数据可视化介绍

  • 为什么选择PyEcharts与PyEcharts基本介绍
  • PyEcharts的图形结构与研发理念,重构那些我们已经会了的常见的图形
  • PyEcharts中的那些酷炫图形以及应用场景
  • 词云图
  • 雷达图
  • 热力图
  • 漏斗图
  • 地图各类3D图形
  • 延展学习的方法
  • 数据处理的核心技巧
  • 聚类分析的雷达展现
  • 交互式动图
  • 项目介绍
  • 项目描述:此项目将会对天猫数据的综合订单进行分析,主要侧重于各环节的转化率以及销售区域分布等指标,对其进行可视化分析,重点掌握漏斗模型,但这是一个全链路的分析项目,你需要从数据分析的第一步一直进行到最后,产出自己的分析结果
  • 难度:中

课程进行到这里,任何的项目都不应该成为难度高的项目了,你已经掌握了全部数据分析的基本技术,拥有的完善的分析思路,未来的你更多进行的将是技术的熟练掌握,这一节课你将收获属于自己的学习方法

第十周: 数据分析师面试准备

  • 如何撰写一份有吸引力的简历
  • 数据分析师的职业发展规划
  • 数据分析师面试的三类问题:技术问题、逻辑问题、业务问题
  • 技术问题的准备方法及应对思路
  • 逻辑问题的准备方法及应对思路
  • 业务问题的准备方法及应对思路
  • 自测:面试中那些常见的问题, 你会几道?
  • 面试中你应该如何展现自己?
  • 毕业项目:第四周开始设计,以学员的意见为主,定主要方向。 以博客的形式