概述

pdf接口主要是用来处理pdf文件的,如pdf文本提取、pdf图片提取、pdf页导出等

详情

extract_text

提取pdf文件文本

extract_text(path, from_page, to_page, *, password = None)
参数:

  • path:pdf文件路径
  • from_page:起始页码
  • to_page:终止页码
  • password:密码

返回值:

  • str:返回从pdf文件中提取的文本

示例1:
获取 D:\123.pdf1 页到第 2 页的文本内容

  1. import xbot
  2. def main(args):
  3. text = xbot.pdf.extract_text('D:\\123.pdf', 1, 2, password='xxxxxx')

extract_images

提取pdf文件图片

extract_images(path, from_page, to_page, save_to_dir, *, password = None, name_prefix = ‘pdf_image’)
参数:

  • path:pdf文件路径
  • from_page:起始页码
  • to_page:终止页码
  • save_to_dir:保存的文件夹路径
  • password:密码
  • name_prefix:导出的图片名称前缀

返回值:

  • List[str]:返回提取到本地的图片路径列表, 如[‘c:/work/image_0501101010_1.png’, ‘c:/work/image_0501101010_2.png’]

示例1:
获取 D:\123.pdf1 页到第 2 页中的图片文件并以 hello 作为前缀保存到 D:\image 路径下

  1. import xbot
  2. def main(args):
  3. file_paths = xbot.pdf.extract_images('D:\\123.pdf', 1, 2, 'D:\\image',
  4. password='xxxxxx', name_prefix='hello')

extract_pages

导出pdf文件中的页

extract_pages(path, from_page, to_page, save_to, *, password = None)
参数:

  • path:pdf文件路径
  • from_page:起始页码
  • to_page:终止页码
  • save_to:保存的文件路径
  • password:密码

返回值:

  • str:返回保存到本地的新文件路径

示例1:
导出 D:\123.pdf1 页到第 2 页的内容并到村到 D:\abc.pdf

  1. import xbot
  2. def main(args):
  3. path = xbot.pdf.extract_pages('D:\\123.pdf', 1, 2, 'D:\\abc.pdf', password='xxxxxx')

merge_pdfs

合并多个pdf文件

merge_pdfs(paths, save_to, *, passwords = None)
参数:

  • paths:pdf文件路径列表,如[‘D:\123.pdf’, ‘D:\abc.pdf’]
  • save_to:保存的文件路径
  • passwords:密码列表,如[‘xxxxxx’, ‘……’],需要和文件路径列表一一对应

返回值:

  • str:返回保存到本地的新文件路径

示例1:
[‘D:\123.pdf’, ‘D:\abc.pdf’] 合并,合并之后的内容保存到 D:\hello.pdf

  1. import xbot
  2. def main(args):
  3. path = xbot.pdf.merge_pdfs(['D:\\123.pdf', 'D:\\abc.pdf'], 'D:\\hello.pdf',
  4. password=['xxxxxx', '......'])