- 浏览器特征绑定
- 抓包和设备特征检测等
- User-Agent, Referer, 验证码
- 单位时间访问次数,访问量
- 关键信息图片混淆,例如:评分用图片代替
- 异步加载
- 高度混淆 JS
- SO 混淆
- 验证码拖拽
- APP 的加固
- APP 的 HOOK 抓取
- 安卓容器虚拟化技术做设备指纹对抗
- 安卓群控抓取技术
- 爬虫:使用任何技术手段,批量获取网站信息的一种方式。关键在于批量。
- 反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。关键也在于批量。
- 误伤:在反爬虫的过程中,错误地将普通用户识别为爬虫。误伤率高的反爬虫策略,效果再好也不能用。
- 拦截:成功地阻止爬虫访问。这里会有拦截率的概念。通常来说,拦截率越高的反爬虫策略,误伤的可能性就越高。因此需要做个权衡。
- 资源:机器成本与人力成本的总和。
反爬处理手段
- 验证码处理
- 浏览器伪装
- 代理IP池
- 用户代理池
信息提取
- 正则表达式
- XPath表达式进行信息提取
- 模拟加载行为
- 进行网址构造
- 自动模拟进行 Ajax异步请求数据