• 数据获取:网络爬虫,微博热搜、拉钩招聘、美团门店、网易音乐
  • 数据分析:Pandas(Pandas Profiling)、Numpy、统计模型
  • 数据可视化:pyecharts

scipy, scikit-learn, Libsvm,TensorFlow
Grid studio

网络爬虫

爬虫避免越界

当当五星好书
豆瓣高分电影
知乎专业导师
B站学习资料
微博评论
高考录取分数
网易音乐评论API
淘宝交易数据
淘宝选礼物爬虫
FRM
电商Excel分析
电商SQL分析
二手房价
链家找房租房
天猫评论
美团美食
51Job招聘
闲鱼
小红书
拼多多
腾讯视频弹幕

爬高颜值美女

更多案例

数据分析

作用:

  1. 现状了解:总体和局部、静态对比、动态对比、平均值(集中度、离散度、峰谷)、总和加权评价
  2. 原因分析:分组、结构、交叉、杜邦、漏斗、矩阵、聚类
  3. 预测分析:回归、时间序列、决策树、神经网络

学习方法:
故事“老王要开个咖啡店”
拼多多案例答案

不过度数据分析分析思维

清洗数据流程

pandas:透视表
pdpipe:清洗流水线
numpy:测试题

常用Excel函数小技巧图表技巧
SQL语法用法
Tableau银行信贷案例
PowerBI、PowerQuery

统计学分析方法
置信度假设检验方差分析一元线性回归卡方检验

The purpose of computation is insight, not numbes. 计算的目的不在于数字本身,而在于洞察其背后的意义。 —— 里查德·哈明(Richard Hamming)

To ask the right question is harder than to answer it. 提出正确的问题比回答它更困难。 ——格奥尔格·康托尔(Georg Cantor)

对于发现的问题,要能够清晰的定义出来:可以根据SMART原则,不断的向下发问,直到没有问题为止。

  • S:Specific 具体的;
  • M:Measurable 可衡量的;
  • A:Attainable 可实现的;
  • R:Relevant 相关的;
  • T:Time-bound 有期限的;

举个例子,老板让你分析下某社区附近的自家生鲜超市销量为什么最近有所下滑。很多时候老板/业务方的需求描述都是这样,问题比较模糊。这时候你就需要去进一步定义问题: 1.销量下滑是整体品类都在下滑还是单一品类? 2.最近下滑是最近什么时间段,同之前什么时间段的比较? 3.下滑是降低了多少?计算口径是什么?老板的输入是来自哪里?
带着这些问题,辅助看一些数据,之后同老板再次确认细节,最终明确出来,老板提的需求是:分析某社区附近的自家生鲜超市2月份水果品类销量同1月份比较为什么下滑了10%?到这里,我们才明确要分析的问题是什么。
再接着往下分析之前,要先去数据校验一下老板提出的问题是否属实,因为他们的输入也不知道是来自哪里,可能和真实情况比会有偏差。
寻找原因定义清楚问题之后,接下来就要去分析问题背后的原因了。首先要做的就是将业务进行拆解,遵循两个原则: 1.按业务场景,往可运营的方向上拆解; 2.每步拆解满足MECE原则;
这两个原则是什么意思呢?我们分析的项目常常会对应多个业务场景,例如:产品场景、运营场景、市场场景等等;所以我们在拆解这个项目时要把场景考虑全了,根据业务顺序,按场景来拆解。
举个例子,如果公司的流量转商机率降低了,要去分析是什么原因。拆解的时候可以分成两个部分,流量进入平台(APP)、平台内的商机转化,对应的是:市场场景和产品场景。前者可能是广告投放命中的不是目标用户;后者可能是产品内容的问题,没有直接呈现用户感兴趣的内容,引导产生商机等等。
所以在拆解业务时,先拆场景,再针对具体场景往可运营方向上拆解,那这是什么意思呢?
我们以贝壳找房来举个例子,贝壳是一家平台型的房地产加盟公司,平台内有很多加盟品牌,例如:链家、德佑、21世纪、中环等等。我们在分析平台的业务时,很容易想到的拆解方向就是按品牌来,比如某城市的商机转成交率下降了,我们按品牌维度来拆解,这样确实可以定位出来是哪个品牌的原因,但是呢,贝壳平台不能跳过品牌直接去管理它下面的门店,所以这样拆解即使找到了原因,也没有办法解决。
但贝壳将城市分成了几大片区,每个片区有贝壳自己的负责人,所以针对片区,我们可以去管理,那就很清晰了,拆解问题的方向要按片区来,只有这样发现的问题,我们才有能力去解决。

用户画像分析生活案例
留存模型用户价值模型

案例:
胸罩分析

数据可视化

可视化流程
报告输出

pyecharts:教程
matplotlib:教程常用代码实用技巧绘制
seaborn
cutecharts:手绘风格,教程
Bokeh
Networkx:基于matplotlib
Altair教程
ggplot2:教程

可视化工具
零编程:Flourish、花火、Tableau、FineBI
开发工具:echarts、d3.js、Plotly
数据地图:PolyMaps、Leaflet、geopandas地图修正
金融图表:dygraphs(如股票K线图)

  1. pip install matplotlib

1、生成词云图

教程

2、文本主题抽取

Python数据分析 - 图1
Python数据分析 - 图2
Python数据分析 - 图3

参考

《利用Python进行数据分析·第2版》
《Python高级数据分析》
《Python数据分析与数据化运营》
《Python数据分析与挖掘实战》
《Python数据挖掘:概念、方法与实践》
《精通Python网络爬虫》
《Python爬虫开发与项目实战》
《Python数据分析实战》
《Python数据可视化》
《Python金融数据分析》

Excel:http://www.excelhome.net/