P27 - 识别并读取PDF中的文字 - 图1 P27 - 识别并读取PDF中的文字 - 图2 P27 - 识别并读取PDF中的文字 - 图3 P27 - 识别并读取PDF中的文字 - 图4

你好,我是UP:法学院毕业的Python程序员兆锋(点击查看🏆近期的付费答疑记录)
如有学习问题,欢迎加入学习群和我交流❤交流群

下面是本讲课程的视频、代码和配套文档:

主要内容

如题。

视频内容

点击下方链接,直达本讲视频
点击查看【bilibili】

本讲代码

  1. # -*- coding: utf-8 -*-
  2. # @Time : 2020/8/21 20:04
  3. # @公众号 :Python自动化办公社区
  4. # @File : pdf_rd.py
  5. # @Software: PyCharm
  6. # @Description:
  7. # pip install pdfminer3k
  8. from io import StringIO
  9. from pdfminer.pdfinterp import PDFResourceManager,process_pdf
  10. from pdfminer.converter import TextConverter
  11. from pdfminer.layout import LAParams
  12. # 打开pdf文件
  13. pdf_file = open('静夜思.pdf', 'rb')
  14. ########默认操作#######
  15. rsrcmgr = PDFResourceManager()
  16. retstr = StringIO()
  17. laparams = LAParams()
  18. device = TextConverter(rsrcmgr=rsrcmgr,outfp=retstr,laparams=laparams)
  19. process_pdf(rsrcmgr=rsrcmgr,device=device,fp=pdf_file)
  20. device.close()
  21. content = retstr.getvalue()
  22. retstr.close()
  23. pdf_file.close()
  24. ########默认操作#######
  25. print(content)

配套文档

静夜思.doc静夜思.pdf

拓展内容

提问与答疑

提供以下3种交流方式:

  • 有任何问题,请加入Python学习群,和我交流~❤交流群
  • 也期待加我好友,我们深入沟通,我的微信:hdylw1024,请务必注明来意,否则很难通过。
  • 或者你也可以直接在本文档的留言板留言,和大家一起讨论~