1. 浏览器特征绑定
    1. 抓包和设备特征检测等
    2. User-Agent, Referer, 验证码
    3. 单位时间访问次数,访问量
    4. 关键信息图片混淆,例如:评分用图片代替
    5. 异步加载
  2. 高度混淆 JS
    1. SO 混淆
  3. 验证码拖拽
  4. APP 的加固
    1. APP 的 HOOK 抓取
    2. 安卓容器虚拟化技术做设备指纹对抗
    3. 安卓群控抓取技术
  • 爬虫:使用任何技术手段,批量获取网站信息的一种方式。关键在于批量。
  • 反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。关键也在于批量。
  • 误伤:在反爬虫的过程中,错误地将普通用户识别为爬虫。误伤率高的反爬虫策略,效果再好也不能用。
  • 拦截:成功地阻止爬虫访问。这里会有拦截率的概念。通常来说,拦截率越高的反爬虫策略,误伤的可能性就越高。因此需要做个权衡。
  • 资源:机器成本与人力成本的总和。

反爬处理手段

  1. 验证码处理
  2. 浏览器伪装
  3. 代理IP池
  4. 用户代理池

信息提取

  1. 正则表达式
  2. XPath表达式进行信息提取
  3. 模拟加载行为
  4. 进行网址构造
  5. 自动模拟进行 Ajax异步请求数据

https://zhuanlan.zhihu.com/p/22157299