思维导图

数据分析day01总结.pngmatplotlib如何使用,绘制折线图,matplotlib如何设置线条颜色和风格

  1. from matplotlib import pyplot as plt
  2. #设置图形大小
  3. plt.figure(figsize=(20,8),dpi=80)
  4. plt.plot(x,y,color="cyan",linestyle="",linewidth="",alpha=0.4,label="")
  5. #设置网格
  6. plt.grid(alpha="",linestyle="")
  7. #设置图例
  8. plt.legend(loc="",prop=my_font)
  9. #设置图信息
  10. plt.xlabel("时间",fontproperties=my_font)
  11. plt.ylabel("时间",fontproperties=my_font)
  12. plt.title("",fontproperties=my_font)
  13. #保存
  14. plt.savefig("./baidu.png")
  15. plt.show()

matplotlib如何设置x轴的刻度

  1. #设置显示中文
  2. from matplotlib import font_manager
  3. my_font = font_manager.FontProperties(fname="")
  4. plt.xticks(x,["","",""],fontproperties=my_font,rotation=45)

常见统计图的对比

  • 折线图:展示数据的变化情况
  • 散点图:两个属性上的数据的相关情况,展示离群点
  • 直方图:统计连续的数据
  • 条形图:统计离散的数据

简历

项目描述

个人职责

技术描述

  • requests模块发送请求,获取响应
  • 如何处理反扒
    • 购买代理ip,实现代理ip池,使用*定期检测ip的可用性,维护代理ip池的质量,怎么取
    • cookie池,cookie怎么来的,多久更新一次,cookie怎么取,怎么用,登录如何实现
    • 验证码如何处理
    • 手机号等如何处理
    • 账号如何处理
    • js生成的数据,生成的参数,页面的跳转如何处理
  • 去重
    • url去重如何实现
    • 数据去重怎么做的
  • 存储
    • 用什么存,使用什么模块在python中操作数据库,新的数据更新还是直接插入
    • redis集群
  • 实现持久化的爬虫
  • 断点续爬的爬虫
  • 实现分布式的爬虫
  • 数据的处理和清洗,提供数据给前端,进行展示
    • pandas,numpy

  • scrapy模块发送请求,获取响应
  • 如何处理反扒
    • 购买代理ip,实现代理ip池,使用*定期检测ip的可用性,维护代理ip池的质量,怎么取
    • cookie池,cookie怎么来的,多久更新一次,cookie怎么取,怎么用,登录如何实现
    • 验证码如何处理
    • 手机号等如何处理
    • 账号如何处理
    • js生成的数据,生成的参数,页面的跳转如何处理
  • 去重
    • url去重如何实现
    • 数据去重怎么做的
  • 存储
    • 用什么存,使用什么模块在python中操作数据库,新的数据更新还是直接插入
    • redis集群
  • 实现持久化的爬虫
  • 断点续爬的爬虫
  • 实现分布式的爬虫
  • 数据的处理和清洗,提供数据给前端,进行展示
    • pandas,numpy

  • scrapy_redis模块发送请求,获取响应
  • 如何处理反扒
    • 购买代理ip,实现代理ip池,使用*定期检测ip的可用性,维护代理ip池的质量,怎么取
    • cookie池,cookie怎么来的,多久更新一次,cookie怎么取,怎么用,登录如何实现
    • 验证码如何处理
    • 手机号等如何处理
    • 账号如何处理
    • js生成的数据,生成的参数,页面的跳转如何处理
  • 去重
    • url去重如何实现
    • 数据去重怎么做的
  • 存储
    • 存到mysql,如何建表,为什么这样建表
    • 用什么存,使用什么模块在python中操作数据库,新的数据更新还是直接插入
    • redis集群
  • 实现持久化的爬虫
  • 断点续爬的爬虫
  • 实现分布式的爬虫
  • 数据的处理和清洗,提供数据给前端,进行展示
    • pandas,numpy
      项目环境
  • pycharm+python+linux+scrapy+requests+mysql+redis+mongodb