反爬虫

浏览 402 扫码分享 2023-04-07 09:14:09

反爬处理手段
信息提取

浏览器特征绑定
1. 抓包和设备特征检测等
2. User-Agent, Referer, 验证码
3. 单位时间访问次数，访问量
4. 关键信息图片混淆，例如：评分用图片代替
5. 异步加载
高度混淆 JS
1. SO 混淆
验证码拖拽
APP 的加固
1. APP 的 HOOK 抓取
2. 安卓容器虚拟化技术做设备指纹对抗
3. 安卓群控抓取技术

爬虫：使用任何技术手段，批量获取网站信息的一种方式。关键在于批量。
反爬虫：使用任何技术手段，阻止别人批量获取自己网站信息的一种方式。关键也在于批量。
误伤：在反爬虫的过程中，错误地将普通用户识别为爬虫。误伤率高的反爬虫策略，效果再好也不能用。
拦截：成功地阻止爬虫访问。这里会有拦截率的概念。通常来说，拦截率越高的反爬虫策略，误伤的可能性就越高。因此需要做个权衡。
资源：机器成本与人力成本的总和。

反爬处理手段

验证码处理
浏览器伪装
代理IP池
用户代理池

信息提取

正则表达式
XPath表达式进行信息提取
模拟加载行为
进行网址构造
自动模拟进行 Ajax异步请求数据

https://zhuanlan.zhihu.com/p/22157299

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录