验证码识别
是一种反爬机制
https://cloud.tencent.com/developer/article/1698658 Python爬虫之打码平台的使用 https://cloud.tencent.com/developer/article/1709709 别再问我 Python 怎么识别数字验证码了!
方法一
- pytesseract第三方库:pip install pytesseract
- Tesseract-OCR.exe安装
- https://blog.csdn.net/m0_46498587/article/details/109255325 pytesseract和tesseract的安装包下载
- 将tesseract安装路径添加环境变量,并测试
识别为空 - python+tesseract 训练和破解验证码
方法二
- ddddocr第三方库:适用于简单的识别
模拟登录
需求:对人人网进行模拟登陆(有验证码)
- 点击登陆按钮之后会发起一个post请求
- post请求中会携带登陆之前录入的相关登陆信息(用户名,密码,验证码)
- 验证码:每次登录都会变化
编码流程:
- 验证码的识别,获取验证码图片的文字数据
- 对post请求进行发送(处理请求参数)
- 对响应数据进行持久化存储
tree = etree.HTML(page_text)code_img_src = tree.xpath('')[0]code_img_data = requests.get(url=code_img_src, headers=headers).content
