概述
pdf接口主要是用来处理pdf文件的,如pdf文本提取、pdf图片提取、pdf页导出等
详情
extract_text
提取pdf文件文本
extract_text(path, from_page, to_page, *, password = None)
参数:
- path:pdf文件路径
- from_page:起始页码
- to_page:终止页码
- password:密码
返回值:
str
:返回从pdf文件中提取的文本
示例1:
获取 D:\123.pdf 第 1 页到第 2 页的文本内容
import xbot
def main(args):
text = xbot.pdf.extract_text('D:\\123.pdf', 1, 2, password='xxxxxx')
extract_images
提取pdf文件图片
extract_images(path, from_page, to_page, save_to_dir, *, password = None, name_prefix = ‘pdf_image’)
参数:
- path:pdf文件路径
- from_page:起始页码
- to_page:终止页码
- save_to_dir:保存的文件夹路径
- password:密码
- name_prefix:导出的图片名称前缀
返回值:
List[str]
:返回提取到本地的图片路径列表, 如[‘c:/work/image_0501101010_1.png’, ‘c:/work/image_0501101010_2.png’]
示例1:
获取 D:\123.pdf 第 1 页到第 2 页中的图片文件并以 hello 作为前缀保存到 D:\image 路径下
import xbot
def main(args):
file_paths = xbot.pdf.extract_images('D:\\123.pdf', 1, 2, 'D:\\image',
password='xxxxxx', name_prefix='hello')
extract_pages
导出pdf文件中的页
extract_pages(path, from_page, to_page, save_to, *, password = None)
参数:
- path:pdf文件路径
- from_page:起始页码
- to_page:终止页码
- save_to:保存的文件路径
- password:密码
返回值:
str
:返回保存到本地的新文件路径
示例1:
导出 D:\123.pdf 第 1 页到第 2 页的内容并到村到 D:\abc.pdf 中
import xbot
def main(args):
path = xbot.pdf.extract_pages('D:\\123.pdf', 1, 2, 'D:\\abc.pdf', password='xxxxxx')
merge_pdfs
合并多个pdf文件
merge_pdfs(paths, save_to, *, passwords = None)
参数:
- paths:pdf文件路径列表,如[‘D:\123.pdf’, ‘D:\abc.pdf’]
- save_to:保存的文件路径
- passwords:密码列表,如[‘xxxxxx’, ‘……’],需要和文件路径列表一一对应
返回值:
- str:返回保存到本地的新文件路径
示例1:
将 [‘D:\123.pdf’, ‘D:\abc.pdf’] 合并,合并之后的内容保存到 D:\hello.pdf 中
import xbot
def main(args):
path = xbot.pdf.merge_pdfs(['D:\\123.pdf', 'D:\\abc.pdf'], 'D:\\hello.pdf',
password=['xxxxxx', '......'])