1、爬虫和反爬虫之间的斗争

image.png

2、爬虫的建议

  • 尽量减少请求次数
    • 能抓取列表页就不抓详情页
    • 保存获取到的HTML,供查错和重复使用
  • 关注网站的所有类型的页面
    • H5页面
    • APP
  • 多伪装
    • 代理IP
    • 不使用cookie
  • 利用多线程分布式
    • 在不被ban的请求下尽可能的提高速度