验证码识别

是一种反爬机制

https://cloud.tencent.com/developer/article/1698658 Python爬虫之打码平台的使用 https://cloud.tencent.com/developer/article/1709709 别再问我 Python 怎么识别数字验证码了!

方法一

方法二

  • ddddocr第三方库:适用于简单的识别

【Python爬虫】模拟登录及验证码识别 - 图2

模拟登录

需求:对人人网进行模拟登陆(有验证码)

  • 点击登陆按钮之后会发起一个post请求
  • post请求中会携带登陆之前录入的相关登陆信息(用户名,密码,验证码)
  • 验证码:每次登录都会变化

编码流程:

  • 验证码的识别,获取验证码图片的文字数据
  • 对post请求进行发送(处理请求参数)
  • 对响应数据进行持久化存储
    1. tree = etree.HTML(page_text)
    2. code_img_src = tree.xpath('')[0]
    3. code_img_data = requests.get(url=code_img_src, headers=headers).content