反爬形式

  • 非登录状态下,能看的信息很少
  • 登录状态下,请求速度慢
  • 单个账号的成本高
  • [x] 登录操作的反爬措施与日俱进

    解决思路

    连续使用的账号(活跃),很少需要做登录操作
    大量的账号可以合理的抓取大量数据
    *使用程序批量维护账号的活跃状态

    Cookie池的使用场景

  • [x] 电商数据

  • 新闻类资讯、黄页数据
  • 招聘类
  • 网站配置

    总结

    Cookie是服务器返回给浏览器的,前面返回的Cookie在后面的请求可能会用上。
    高级的请求库,会自动处理Cookie的内容。
    Cookie可以通过一些库来单独管理。
    Cookie是前端记录的信息标识,Session是后端信息存储。