https://www.jianshu.com/p/f7cb0b3f337a 下载安装教程

官方网站https://github.com/tesseract-ocr/tesseract
官方文档https://github.com/tesseract-ocr/tessdoc
语言包地址https://github.com/tesseract-ocr/tessdata
下载地址https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.0.0.20211201.zip

  1. 安装:需额外下载中文包(如果要识别中文)
  2. 配置环境变量:安装目录 C:\Program Files\Tesseract-OCR C:\Program Files\Tesseract-OCR\tessdata
  3. 验证是否配置成功:cmd 输入 tesseract 回车,看信息即可

方式1:cmd 识别

进入cmd
输入:tesseract 图片路径 识别结果文件名(.txt)

方式2:python识别

  1. 安装库:pytesseract pillow
  2. 脚本示例 ```python import pytesseract from PIL import Image

img_path = ‘test.png’ im = Image.open(img_path)

识别文字

string = pytesseract.image_to_string(im, lang=”eng”, config=”—psm 7”) # 识别数字和字母要加后面两个参数 print(string)

  1. 如识别报错,则如下操作:<br />![image.png](https://cdn.nlark.com/yuque/0/2021/png/2981571/1640793631459-df6f6186-37f8-4533-870f-edbdbdc920d3.png#clientId=uf50d2dc8-3c31-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=178&id=u34ea994d&margin=%5Bobject%20Object%5D&name=image.png&originHeight=355&originWidth=673&originalType=binary&ratio=1&rotation=0&showTitle=false&size=36728&status=done&style=none&taskId=uc626c0cb-69d5-4957-b13c-120ed2918ed&title=&width=336.5)<br />中文语言包训练集下载
  2. <a name="KhtD2"></a>
  3. # 应用一:识别PDF
  4. **原理解释:**
  5. 1. pdf2image 中的 convert_from_path pdf 文件转化为 ppm 文件(图片)
  6. 1. numpy.array ppm 文件转化为三维矩阵
  7. 1. pytesseract.image_to_string 识别图像矩阵中的文字
  8. 1. 输出文本信息,并进行校对,可以借助 word 等软件进行拼写检测
  9. ```python
  10. import numpy as np
  11. import pytesseract
  12. from pdf2image import convert_from_path
  13. def pdf_ocr(fname, **kwargs):
  14. images = convert_from_path(fname, **kwargs)
  15. text = ''
  16. for img in images:
  17. img = np.array(img)
  18. text += pytesseract.image_to_string(img)
  19. return text
  20. fname = 'example.pdf'
  21. # text = pdf_ocr(fname, first_page=7, last_page=8)
  22. text = pdf_ocr(fname)
  23. print(text)