一. 安装tesseract

image.png

  • 据参考资料链接,不用使用带“dev”版本(开发版本),安装的时候注意不要把语言(additional language data)选择勾上~~否则一直报错。

image.png

  • 把additional勾上的后果:弹出了很多error,是被墙了;因此这里不能够勾选“**additional language data**”

image.png

  • 装好后,把tesseract的tessdata这个文件夹,复制粘贴到anaconda下面的Scripts同一个文件夹。

image.png
image.png

  • 属性-系统变量设置:把刚刚安装好的tesseract文件夹路径放进去。

image.png
image.png
因为在安装tesseract的软件的时候,我命名为tesseract;如果没有自己改名的话, 那么名字应该是
Tesseract-OCR。
同时,把tessdata的路径也要放到系统变量中。
变量名:TESSDATA_PREFIX——>变量值:D:\softwares\tesseract\tessdata
image.png

  • 下载语言包

image.png

  • 然后在cmd中,查看语言:tesseract —list-langs。可以看到结果成功。重启电脑。

image.png

二. Python中的tesserocr安装

image.png
image.png

  • 然后,把下载的whl文件放到Scripts中。就是刚刚tessdata同一个文件夹下面的那个Scripts。

image.png

  • 通过cmd进入到Scripts文件夹,进行安装,输入 pip3 install tesserocr-2.4.0-cp37-cp37m-win_amd64.whl

image.png
如果没有成功,那就是pip没有添加到环境变量中,自己添加一下。
image.png

三. 实验

image.png

  1. import tesserocr
  2. from PIL import Image
  3. image = Image.open(r'C:\Users\dell\Pictures\验证码\5.png')
  4. image = image.convert('L')
  5. print(tesserocr.image_to_text(image))

image.png
最后能够 识别为6220。

  • 缺点
    • 碰到复杂的验证码,就不行了。
    • 例如,加上了北京跳就不能识别。

image.png

以上就是简单的tesseract使用。欢迎点赞和收藏。