- 浏览器特征绑定
- 抓包和设备特征检测等
 - User-Agent, Referer, 验证码
 - 单位时间访问次数,访问量
 - 关键信息图片混淆,例如:评分用图片代替
 - 异步加载
 
 - 高度混淆 JS
- SO 混淆
 
 - 验证码拖拽
 - APP 的加固
- APP 的 HOOK 抓取
 - 安卓容器虚拟化技术做设备指纹对抗
 - 安卓群控抓取技术
 
 
- 爬虫:使用任何技术手段,批量获取网站信息的一种方式。关键在于批量。
 - 反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。关键也在于批量。
 - 误伤:在反爬虫的过程中,错误地将普通用户识别为爬虫。误伤率高的反爬虫策略,效果再好也不能用。
 - 拦截:成功地阻止爬虫访问。这里会有拦截率的概念。通常来说,拦截率越高的反爬虫策略,误伤的可能性就越高。因此需要做个权衡。
 - 资源:机器成本与人力成本的总和。
 
反爬处理手段
- 验证码处理
 - 浏览器伪装
 - 代理IP池
 - 用户代理池
 
信息提取
- 正则表达式
 - XPath表达式进行信息提取
 - 模拟加载行为
 - 进行网址构造
 - 自动模拟进行 Ajax异步请求数据
 
