社区首页>专栏>python之办公自动化

python之办公自动化

原创

发布于 2023-01-03 01:17:02 5K0 举报 文章被收录于专栏:一切总会归于平淡 大家好,接下来我们来学习如何使用python 实现自动化办公,而不需要我们人工,或者说尽量减少我们人工的参与。 自动化办公在我们的生活中非常的常见,让我们看看通过本博客你可以学习到python哪些自动化操作。

文档 操作 - 图1

看完这幅图,大家就会发现,其实自动化处理,用的都是我们非常常用的一些办公工具,将它们自动化了。

1、普通文件自动化管理

首先我们先来学习普通的文件操作,那什么是属于普通的文件操作呢? 像 .txt /.ty 我们可以直接打开的文件看到里面具体信息的文件,我们都可以认为它们都是属于普通的文件。 既然有普通文件,就说明有不普通的文件,哪些又是不普通的文件呢? 例如:.docx / .xlsx / .psd / .ppt 我直接把它们放到IDE 里是看不到内容的,必须得用特定软件打开才行。 看过我以前博客的小伙伴都知道我们 os 这个模块,通过这个 os 模块我们可以对我们的系统文件或者一些命令进行操作。 那么在这里我们再去学习一个更加细粒度的去操作文本文件的模块,可以说,它是在OS 操作文本文件的基础上进行了升级,它的名字是 : shutil 。 shutil 是 python 3.8 的 内置模块,如果你正好 >= 这个版本,就不需要额外安装。

1.1 文件的复制

接下来我们就要使用到 shutil 这个模块来帮助我们进行文件的复制。 使用步骤: 导入包与模块:

代码语言:txt

复制

  1. from shutil import copy
使用方法 : copy(来源文件,目标地址) 这里我们要注意的是,来源文件一定要是一个绝对路径和相对路径,而目标地址可以不包含具体的文件名。 代码演示:

文档 操作 - 图2

image-20221107173536562 这里将 test1.txt 复制到 test1 文件夹下。

文档 操作 - 图3

image-20221107173554810

1.2 文件内容的复制

如何进行文件内容的复制?其实很简单。

文档 操作 - 图4

image-20221107173932385 我们将获取目标地址改成 xxx.txt 。

文档 操作 - 图5

image-20221107174013742 执行

文档 操作 - 图6

image-20221107174042404 这样就实现了文件内容的复制,但是其实 shutil 有专门的函数来帮我们进行文件内容的复制。 使用步骤: 导入包与模块:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. from shutil import copyfile
使用方法 : copyfile(来源文件,目标文件) 这里就跟我们的 copy 有一定的区别了, 我们的copy的目标可以是一个文件夹也可以是一个文件,而 copyfile 只能是一个文件。这就是它们的一个区别。 代码演示: xxx.txt:

文档 操作 - 图7

image-20221107175124258 text1.txt:

文档 操作 - 图8

image-20221107175145755 代码:

文档 操作 - 图9

image-20221107175331433 运行结果:

文档 操作 - 图10

image-20221107175346134

1.3 文件的裁剪

接下里我们学习一下文件的裁剪,所谓文件的裁剪就是从一个目标路径的文件 A 移动到 目标路径 B 中 去。 A 和 B 名称可能是相同的,也可能是不同的,当移动后 A 目标 这个路径下就不存在这个文件了,只存在目标 B 这个文件下。 当然,它也支持目标 A 裁剪到 直接裁剪到 目标 A ,但是它额可以支持将 目标 A 这个路径下的这个文件名称进行改变,所以它也是一个变相的重命名。 使用步骤: 导入包与模块:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. from shutil import move
使用方法 : move(来源地址,目标地址) 这里我们发现move 的使用方法跟我们的copy 的使用方式 其实是大同小异的,接下来我们来看看代码演示。 代码演示:

文档 操作 - 图11

image-20221109094541216 执行效果:

文档 操作 - 图12

image-20221109094850623 我们会发现 xxx.txt 文件已经移动到 test1 目录下了。 我们还可以实现移动的时候重命名。

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. import os
  3. from shutil import move
  4. # 获取来源文件路径
  5. path = os.path.join(os.getcwd(), 'xxx.txt')
  6. # 获取目标地址
  7. target = os.path.join(os.getcwd(), 'test1')
  8. # 将xxx.txt文件裁剪到test1目录下并重命名
  9. move(path, target+'/abc.txt')

1.4 文件的删除

现在我们来学习文件的删除。 在 shutil 中,其实不支持一个单独的文件删除的,那该怎么办? 问题不大,我们可以用其他的方法帮助我们完成文件的删除。例如 os 包中的 remove 模块。 使用步骤: 导入包与模块:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. from os import remove
使用方法:remove(目标文件) 使用方法非常简单,我们直接看代码效果即可。

文档 操作 - 图13

image-20221109095927329 执行效果:

文档 操作 - 图14

image-20221109100004484

1.5 文件的压缩与解压缩

接下里我们来学习文件压缩与解压缩。 我们先来看看文件压缩的函数。 导入包与模块:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. from shutil import make_archive
使用方法:make_archive(压缩之后的文件名,压缩后缀,希望压缩的文件或目录)。 返回值:生成的压缩包地址。 代码演示:

文档 操作 - 图15

image-20221109140709663 执行效果:

文档 操作 - 图16

image-20221109140802320 这里我们就对这个文件目录完成压缩的操作,那么接下来我们就对这个压缩包进行解压缩。 导入包与模块:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. from shutil import unpack_archive
使用方法:unpack_archive(要解压的文件,解压后的路径) 代码演示:

文档 操作 - 图17

image-20221109141336066 执行效果:

文档 操作 - 图18

image-20221109141359585

1.6 文件的查找

文件的查找我们要借助另一包 glob 来帮助我们实现。 glob 是一个快速查找文件夹中内容的包,我们可以通过模糊查找的形式找到我们想要的内容。 我们看看如何使用。 导入包与模块。

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. from glob import glob
使用方法:glob(任意目录) 返回内容:指定路径下的内容列表,不存在的路径返回空列表。 代码演示:

文档 操作 - 图19

image-20221109150825740 *号就是我们学过的通配符,代表查询当前文件下所有文件。 我们还可以在通配符后面加上我们要查询的文件格式。

文档 操作 - 图20

image-20221109151019630 或者我们不使用通配符,直接指定我们要查找的文件。

文档 操作 - 图21

image-20221109151138250 很多情况下我们知道文件名字,但是不知道文件在什么地方,我们就可以使用递归的方式进行查找。

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. import os
  3. from glob import glob
  4. path = os.path.join(os.getcwd(), '*')
  5. final_result = []
  6. """
  7. description: 查询目录下的文件
  8. path:要查找的目录
  9. target:要查找的文件
  10. """
  11. def search(path, target):
  12. result = glob(path)
  13. for data in result:
  14. if os.path.isdir(data): # 如果是一个目录
  15. _path = os.path.join(data, '*')
  16. print('%s is filepath' % data)
  17. # 继续往下找
  18. search(_path, target)
  19. else: # 如果不是一个目录
  20. if target in data:
  21. final_result.append(data)
  22. return final_result
  23. if __name__ == '__main__':
  24. result = search(path, target='abc.txt')
  25. print(result)
执行效果:

文档 操作 - 图22

image-20221109153532098

1.7 查找含有指定内容的文件

文件中包含某些关键字,但是我们知道文件名个所在路径,这下该如何查找呢? 其实这跟我们递归查找指定文件差不多,但是得稍微改造一下代码。 我在def.txt 中写入: YiQie99903

文档 操作 - 图23

image-20221109160808163 代码编写:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. import os
  3. from glob import glob
  4. path = os.path.join(os.getcwd(), '*')
  5. final_result = []
  6. """
  7. description: 查询目录下的文件
  8. path:要查找的目录
  9. target:要查找的文件
  10. """
  11. def search(path, target):
  12. result = glob(path)
  13. for data in result:
  14. if os.path.isdir(data): # 如果是一个目录
  15. _path = os.path.join(data, '*')
  16. print('%s is filepath' % data)
  17. # 继续往下找
  18. search(_path, target)
  19. else: # 如果不是一个目录
  20. f = open(data, 'r')
  21. # 因为有些文件不是可读文件形式,例如压缩包,但是一般不可读文件太多,我们偷个懒就直接捕捉异常,但是如果在实际业务中有需要指定过滤指定格式,该做还得做
  22. try:
  23. content = f.read()
  24. if target in content:
  25. final_result.append(data)
  26. except:
  27. print('data read failed: %s' % data)
  28. continue
  29. finally:
  30. f.close()
  31. return final_result
  32. if __name__ == '__main__':
  33. result = search(path, target='YiQie99903')
  34. print(result)
这段代码查找一个目录(和子目录)下的所有文件,并在文件中搜索包含指定字符串(”YiQie99903”)的文件。 首先,它使用os.path.join函数和os.getcwd函数组合出目录的路径,然后使用glob函数查找所有匹配指定路径的文件和目录。 然后,它使用os.path.isdir函数判断一个文件是否是目录。如果是目录,则使用_path变量继续查找子目录;如果不是目录,则打开文件并使用read函数读取文件内容。如果搜索字符串出现在文件内容中,则将文件的路径添加到final_result列表中。 最后,它返回最终的结果列表final_result。 该代码使用了递归,即查找函数自身调用自身,从而查找目录下的所有子目录。如果查找到的是一个文件,则打开文件并搜索指定字符串。 该代码还使用了try-except语句块来捕获异常,以处理不可读的文件。 执行效果:

文档 操作 - 图24

image-20221109161045410

1.8 清理重复的文件

在我们对电脑的日常使用中,多多少少产生一些重复的文件占用我们的硬盘,对它们进行及时的清理,也可以节省我们的硬盘空间。 那我们该如何进行操作呢? 首先我们不知道重复的文件在什么地方,也不知道有没有重复的文件。 我们可以从指定路径或者最上层路径开始读取,利用 glob 读取每个文件夹,读到文件,记录名称和大小,每次都监测之前是否读过相同的文件,如果存在,判断大小或者内容是否相同,相同,我们就认为它就是一个重复的文件,则删除。 了解了基本流程,我们进入代码实操。

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. import glob
  3. import hashlib
  4. import os
  5. # 用于存放文件信息
  6. data = {}
  7. def clear(path):
  8. result = glob.glob(path)
  9. for _data in result:
  10. # 判断是否是文件夹
  11. if os.path.isdir(_data):
  12. _path = os.path.join(_data, '*')
  13. clear(_path)
  14. else:
  15. # 拿到文件名称
  16. name = os.path.split(_data)[-1]
  17. # 用户判断是否需要转码
  18. if_byte = False
  19. # 这里也可以是其他不可直接读取的文件格式
  20. if 'zip' in name:
  21. if_byte = True
  22. f = open(_data, 'rb')
  23. else:
  24. # 拿到文件内容
  25. f = open(_data, 'r', encoding='utf-8')
  26. content = f.read()
  27. f.close()
  28. if if_byte:
  29. # 防止有些文件内容过大,将字典撑爆故将其转成md5的形式
  30. hash_content_obj = hashlib.md5(content)
  31. else:
  32. hash_content_obj = hashlib.md5(content.encode('utf-8'))
  33. hash_content = hash_content_obj.hexdigest()
  34. # 文件名称是否相同
  35. if name in data:
  36. # 如果文件名称相同,放到二级目录下,因为可能存在不同文件夹下文件名相同文件内容不相同的情况
  37. sub_data = data[name]
  38. # 用于判断文件有没有删除
  39. is_delete = False
  40. # 循环遍历判断
  41. for k, v in sub_data.items():
  42. # 文件内容是否相同
  43. if v == hash_content:
  44. # 删除文件
  45. os.remove(_data)
  46. print('%s will delete' % _data)
  47. is_delete = True
  48. if not is_delete:
  49. data[name][_data] = hash_content
  50. else:
  51. # 将数据塞到data中
  52. data[name] = {
  53. _data: hash_content
  54. }
  55. if __name__ == '__main__':
  56. path = os.path.join(os.getcwd(), '*')
  57. clear(path)
  58. print(path)
  59. for k, v in data.items():
  60. print(k)
这段代码实现了对指定目录下的文件的遍历,并对遍历到的文件进行文件内容的校验,如果文件内容相同,就删除其中一个文件。 在这段代码中,首先使用了 glob 库中的 glob 函数,它可以用来遍历指定目录下的文件。 然后使用了 hashlib 库中的 md5 函数,对文件的内容进行哈希。 接着,对每一个遍历到的文件,都使用 open 函数打开该文件,并使用 read 函数读取文件内容。 最后,使用 os 库中的 remove 函数,删除文件。

1.9 批量修改目录中的文件名称

首先我们知道文件名需要修改的指定字符串,至于实现方法,那当然是通过循环,将目标字符串加入到文件名并进行修改。

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. import glob
  3. import shutil
  4. def update_name(path):
  5. result = glob.glob(path)
  6. # 循环遍历
  7. for index, data in enumerate(result):
  8. # 判断是否是一个文件夹
  9. if glob.os.path.isdir(data):
  10. # 是 生成新的链接
  11. _path = glob.os.path.join(data, '*')
  12. update_name(_path)
  13. else:
  14. # 不是文件夹,是文件了
  15. path_list = glob.os.path.split(data)
  16. # 单独把名字拿出来
  17. name = path_list[-1]
  18. # 生成一个新的名称
  19. new_name = '%s_%s' % (index, name)
  20. # 替换旧旧名称
  21. new_data = glob.os.path.join(path_list[0], new_name)
  22. shutil.move(data, new_data)
  23. if __name__ == '__main__':
  24. path = glob.os.path.join(glob.os.getcwd(), '*')
  25. update_name(path)
来看看代码执行效果

文档 操作 - 图25

image-20221204132815239 代码执行:

文档 操作 - 图26

image-20221204132843768

2、文件夹的自动化管理

前面我们学习了文件的管理,现在我们来学习一下如何使用 shutil 实现对文件夹的管理。

2.1 文件夹的复制

导入包与模块:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. from shutil import copytree
使用方法:copytree(来源目录,目标目录)

文档 操作 - 图27

image-20221109142434195 执行效果:

文档 操作 - 图28

image-20221109142512806

2.2 文件的删除

导入包与模块:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. from shutil import rmtree
使用方法:rmtree(目标目录) 代码演示:

文档 操作 - 图29

image-20221109143326278 执行效果:

文档 操作 - 图30

image-20221109143341404 值得注意的是,我们的目标目录一定要存在,否则会报错。

2.3 文件夹的裁剪

导入包与模块:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. from shutil import move
使用方法 : move(来源目录,目标目录) 这里我们发现文件夹的裁剪跟我们文件裁剪的使用函数其实是一样的。 代码演示:

文档 操作 - 图31

image-20221109144059700 执行效果:

文档 操作 - 图32

image-20221109144211466 这里我们发现 test2 整个文件夹都移动到了test1 这个目录下。 如果目标目录不存在,那就是对原来的目录进行重命名。 而且我们还可以移动的同时并重命名。

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. move(path,target+'/test4') # 移动并重命名

3、Word自动化 — 高效做文档

接下来我们来学习如何使用python 来操作 word 文档,这里就要介绍一个 python Word 操作利器之 python - docx。 要想使用 python-docx,要先进行下载安装。 pip install python-docx

3.1 读取Word文档

我们来学习一下如何读取word 文档,这里我们要用到是的 pythton-docx 之 Document 首先要导入包和模块:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. from docx import Document
使用方法:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. Document(word地址)
返回值 : word 文件对象。 接下来我们先进行对word 段落内容的读取。 来看看我随便准备的一个word 文档。

文档 操作 - 图33

image-20221204135636893 接下来我们练习一下如何将这个word 段落里的内容读取出来。

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. from docx import Document
  3. # docx 只支持 .docx 这样的格式 如果是 doc 请转换成 docx
  4. doc = Document('test.docx')
  5. for p in doc.paragraphs:
  6. print(p.text)

文档 操作 - 图34

image-20221204140511778 这些我们可以看到段落内容已经被我们读取出来了。 表格内容的读取。

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. from docx import Document
  3. # docx 只支持 .docx 这样的格式 如果是 doc 请转换成 docx
  4. doc = Document('test.docx')
  5. # 先获取表格对象
  6. for t in doc.tables:
  7. # 获取表格中的行
  8. for row in t.rows:
  9. _row_str = ''
  10. # 获取行中的每个小表格
  11. for cell in row.cells:
  12. _row_str += cell.text + ','
  13. print(_row_str)

文档 操作 - 图35

image-20221204141137089

3.2 小练习:简历筛选

学习如何读取 word 的段落内容 + 表格 的内容读取,接下来我们就要做一个简历筛选的小练习。 首先我们知道想要查找包含指定关键字的简历。比如 简历中包含 python , 爬虫 这样的关键字。 如何实现呢? 其实也很简单,我们直接批量读取每一个word (通过glob 获取 word信息 ), 将他们所有的可读内容 获取,并通过关键字方式筛选,拿到目标简历地址。 这里我随便从网上下载了两份简历,用作练习。

文档 操作 - 图36

image-20221204142910575

文档 操作 - 图37

image-20221204142946403

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. import glob
  3. from docx import Document
  4. class ReadDoc(object):
  5. def __init__(self, path):
  6. self.doc = Document(path)
  7. self.p_text = ''
  8. self.table_text = ''
  9. self.get_para()
  10. self.get_table()
  11. # 获取段落内容
  12. def get_para(self):
  13. for p in self.doc.paragraphs:
  14. self.p_text += p.text + '\n'
  15. # 获取表格内容
  16. def get_table(self):
  17. for table in self.doc.tables:
  18. for row in table.rows:
  19. _cell_str = ''
  20. for cell in row.cells:
  21. _cell_str += cell.text + ','
  22. self.table_text += _cell_str + '\n'
  23. def search_word(path, targets):
  24. # 获取路径下所有文件
  25. result = glob.glob(path)
  26. final_result = []
  27. for i in result:
  28. isuse = True
  29. # 是否是文件
  30. if glob.os.path.isfile(i):
  31. # 是否是 .docx 文件
  32. if i.endswith('.docx'):
  33. doc = ReadDoc(i)
  34. p_text = doc.p_text
  35. t_text = doc.table_text
  36. all_text = p_text + t_text
  37. # 循环遍历 判断是否存在关键字
  38. for target in targets:
  39. if target not in all_text:
  40. isuse = False
  41. break
  42. if not isuse:
  43. continue
  44. final_result.append(i)
  45. return final_result
  46. if __name__ == '__main__':
  47. path = glob.os.path.join(glob.os.getcwd(), '*')
  48. res = search_word(path, ['Java', '本科'])
  49. print(res)

3.3 生成word 文档

接下来我们来学习如何通过python 脚本自动生成一个word 文档。 我们先来想想,一个word 文档会有哪些内容。 标题 、 段落 、 图片 、 表格 、分页。

3.3 .1 标题

首先我们来看看如何生成标题。

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. from docx import Document
  3. doc = Document()
  4. # 添加标题 参数 : 标题内容,标题样式等级
  5. title = doc.add_heading('My title', 0)
  6. # 追加内容
  7. title.add_run('\n 一切总会归于平淡')
  8. # 生成 word 文档
  9. doc.save('test.docx')
我们来看看执行效果:

文档 操作 - 图38

image-20221204154400525

3.3 .2 段落

添加好标题之后,接下来我们就可以添加段落了。

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. from docx import Document
  3. doc = Document()
  4. # 添加标题 参数 : 标题内容,标题样式等级
  5. title = doc.add_heading('My title', 0)
  6. # 追加内容
  7. title.add_run('\n 一切总会归于平淡')
  8. # 添加段落
  9. p = doc.add_paragraph('欢迎来到这里学习python,求个点赞可还行')
  10. # 追加内容
  11. p.add_run('\n顺便求个关注')
  12. # 生成 word 文档
  13. doc.save('test.docx')
执行效果:

文档 操作 - 图39

image-20221204154945118

3.3 .3 图片

接下来学习如何添加图片。

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. from docx import Document
  3. from docx.shared import Inches
  4. doc = Document()
  5. # 添加标题 参数 : 标题内容,标题样式等级
  6. title = doc.add_heading('My title', 0)
  7. # 追加内容
  8. title.add_run('\n 一切总会归于平淡')
  9. # 添加段落
  10. p = doc.add_paragraph('欢迎来到这里学习python,求个点赞可还行')
  11. # 追加内容
  12. p.add_run('\n顺便求个关注')
  13. # 添加图片 参数:图片路径 宽度 (可选),高度(可选)
  14. image = doc.add_picture('这是一张图片.png', width=Inches(5), height=Inches(5))
  15. # 生成 word 文档
  16. doc.save('test.docx')
执行效果:

文档 操作 - 图40

image-20221204155921804

3.3 .4 表格

添加表格

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. from docx import Document
  3. from docx.shared import Inches
  4. doc = Document()
  5. # 添加标题 参数 : 标题内容,标题样式等级
  6. title = doc.add_heading('My title', 0)
  7. # 追加内容
  8. title.add_run('\n 一切总会归于平淡')
  9. # 添加表格
  10. # 表格内容
  11. title = ['name', 'age', 'sex']
  12. # 生成表格 参数 : 行数 列数
  13. table = doc.add_table(rows=1, cols=3)
  14. # 插入参数
  15. title_cells = table.rows[0].cells
  16. title_cells[0].text = title[0]
  17. title_cells[1].text = title[1]
  18. title_cells[2].text = title[2]
  19. # 追加内容
  20. data = {
  21. ('一切', '2', '男'),
  22. ('总会', '2', '男'),
  23. ('归于平淡', '4', '男')
  24. }
  25. for d in data:
  26. row_cells = table.add_row().cells
  27. row_cells[0].text = d[0]
  28. row_cells[1].text = d[1]
  29. row_cells[2].text = d[2]
  30. # 生成 word 文档
  31. doc.save('test.docx')
执行效果:

文档 操作 - 图41

image-20221204161651650

3.3 .5 分页

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. from docx import Document
  3. from docx.shared import Inches
  4. doc = Document()
  5. # 添加标题 参数 : 标题内容,标题样式等级
  6. title = doc.add_heading('My title', 0)
  7. # 添加新的一页
  8. doc.add_page_break()
  9. # 添加标题 参数 : 标题内容,标题样式等级
  10. title = doc.add_heading('My title2', 0)
  11. # 生成 word 文档
  12. doc.save('test.docx')

文档 操作 - 图42

image-20221204161852290 以上就是我们学习如何创建一个word 的相关内容了。

3.4设置 word 文档样式

接下来我们来学习给我们的word 文档添砖加瓦,让其变得更好看些。

3.4.1 全局样式

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. from docx import Document
  3. from docx.shared import RGBColor, Pt
  4. doc = Document()
  5. # 定义全局样式
  6. style = doc.styles['Normal']
  7. # 设置字体
  8. style.font.name = '微软雅黑'
  9. # 设置字体 颜色
  10. style.font.color.rgb = RGBColor(255, 0, 0)
  11. # 设置字体大小
  12. style.font.size = Pt(16)
我们来看看执行效果:

文档 操作 - 图43

image-20221204163351818 我们可以看到,字体的颜色,大小,字体都发生的改变,除了标题,这是一个标题的特殊性,后面会为大家讲解。

3.4.2 文本样式

文本样式 包括 标题和段落。

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. from docx import Document
  3. from docx.shared import RGBColor, Pt
  4. from docx.enum.text import WD_PARAGRAPH_ALIGNMENT
  5. doc = Document()
  6. # 添加标题 参数 : 标题内容,标题样式等级
  7. title = doc.add_heading('My title', 0)
  8. # 设置标题居中
  9. title.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER
  10. # 设置标题字体大小
  11. title.style.font.size = Pt(50)
  12. # 追加内容
  13. _t = title.add_run('\n 一切总会归于平淡')
  14. # 设置标题倾斜 最开始的标题设置不了倾斜,只能在追加内容里,如果想要设置,就把最开始的标题设置为 空字符串,然后全都追加内容里写。
  15. _t.italic = True
  16. # 设置标题加粗
  17. _t.bold = True
  18. # 添加段落
  19. p = doc.add_paragraph('欢迎来到这里学习python,求个点赞可还行')
  20. # 追加内容 顺便设置倾斜
  21. p.add_run('\n顺便求个关注').italic = True
  22. # 设置段落居右
  23. p.alignment = WD_PARAGRAPH_ALIGNMENT.RIGHT
  24. # 生成 word 文档
  25. doc.save('test.docx')
执行效果:

文档 操作 - 图44

image-20221204175032161 如果大家还想知道有哪些样式,可以通过 dir(对象) 命令。

文档 操作 - 图45

image-20221204175221428

3.4.3 图片样式

我们不能直接对图片进行样式改造,需要借助段落帮助我们才行。

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. from docx import Document
  3. from docx.shared import RGBColor, Pt, Inches
  4. from docx.enum.text import WD_PARAGRAPH_ALIGNMENT, WD_ALIGN_PARAGRAPH
  5. doc = Document()
  6. # 添加标题 参数 : 标题内容,标题样式等级
  7. title = doc.add_heading('My title', 0)
  8. # 设置标题居中
  9. title.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER
  10. # 设置标题字体大小
  11. title.style.font.size = Pt(50)
  12. # 追加内容
  13. _t = title.add_run('\n 一切总会归于平淡')
  14. # 设置标题倾斜 最开始的标题设置不了倾斜,只能在追加内容里,如果想要设置,就把最开始的标题设置为 空字符串,然后全都追加内容里写。
  15. _t.italic = True
  16. # 设置标题加粗
  17. _t.bold = True
  18. p = doc.add_paragraph()
  19. # 设置居右
  20. p.alignment = WD_ALIGN_PARAGRAPH.RIGHT
  21. _p = p.add_run()
  22. # 添加图片
  23. image = _p.add_picture('这是一张图片.png', width=Inches(3), height=Inches(2))
  24. # 生成 word 文档
  25. doc.save('test.docx')
这段代码使用python-docx库创建一个Word文档,并向文档中添加标题、图片和文本。 首先,它使用add_heading函数创建一个标题,并使用alignment属性将标题居中。然后,它使用style属性和font属性设置标题的字体大小。 然后,它使用add_run函数向标题中追加内容,并使用italic属性和bold属性设置内容的倾斜和加粗。 接下来,它使用add_paragraph函数创建一个段落,并使用alignment属性将段落设置为居右。然后,它使用add_run函数向段落中追加内容,并使用add_picture函数添加一张图片。 最后,它使用save函数保存文档。 执行效果:

文档 操作 - 图46

image-20221204182105722

3.4.4 表格样式

表格样式有很多,我们可以通过下面的方式来获取都有哪些表格样式。

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. for i in doc.styles:
  2. if i.type == WD_STYLE_TYPE.TABLE:
  3. print(i.name)
执行结果:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. Normal Table
  2. Table Grid
  3. Light Shading
  4. Light Shading Accent 1
  5. Light Shading Accent 2
  6. Light Shading Accent 3
  7. Light Shading Accent 4
  8. Light Shading Accent 5
  9. Light Shading Accent 6
  10. Light List
  11. Light List Accent 1
  12. Light List Accent 2
  13. Light List Accent 3
  14. Light List Accent 4
  15. Light List Accent 5
  16. Light List Accent 6
  17. Light Grid
  18. Light Grid Accent 1
  19. Light Grid Accent 2
  20. Light Grid Accent 3
  21. Light Grid Accent 4
  22. Light Grid Accent 5
  23. Light Grid Accent 6
  24. Medium Shading 1
  25. Medium Shading 1 Accent 1
  26. Medium Shading 1 Accent 2
  27. Medium Shading 1 Accent 3
  28. Medium Shading 1 Accent 4
  29. Medium Shading 1 Accent 5
  30. Medium Shading 1 Accent 6
  31. Medium Shading 2
  32. Medium Shading 2 Accent 1
  33. Medium Shading 2 Accent 2
  34. Medium Shading 2 Accent 3
  35. Medium Shading 2 Accent 4
  36. Medium Shading 2 Accent 5
  37. Medium Shading 2 Accent 6
  38. Medium List 1
  39. Medium List 1 Accent 1
  40. Medium List 1 Accent 2
  41. Medium List 1 Accent 3
  42. Medium List 1 Accent 4
  43. Medium List 1 Accent 5
  44. Medium List 1 Accent 6
  45. Medium List 2
  46. Medium List 2 Accent 1
  47. Medium List 2 Accent 2
  48. Medium List 2 Accent 3
  49. Medium List 2 Accent 4
  50. Medium List 2 Accent 5
  51. Medium List 2 Accent 6
  52. Medium Grid 1
  53. Medium Grid 1 Accent 1
  54. Medium Grid 1 Accent 2
  55. Medium Grid 1 Accent 3
  56. Medium Grid 1 Accent 4
  57. Medium Grid 1 Accent 5
  58. Medium Grid 1 Accent 6
  59. Medium Grid 2
  60. Medium Grid 2 Accent 1
  61. Medium Grid 2 Accent 2
  62. Medium Grid 2 Accent 3
  63. Medium Grid 2 Accent 4
  64. Medium Grid 2 Accent 5
  65. Medium Grid 2 Accent 6
  66. Medium Grid 3
  67. Medium Grid 3 Accent 1
  68. Medium Grid 3 Accent 2
  69. Medium Grid 3 Accent 3
  70. Medium Grid 3 Accent 4
  71. Medium Grid 3 Accent 5
  72. Medium Grid 3 Accent 6
  73. Dark List
  74. Dark List Accent 1
  75. Dark List Accent 2
  76. Dark List Accent 3
  77. Dark List Accent 4
  78. Dark List Accent 5
  79. Dark List Accent 6
  80. Colorful Shading
  81. Colorful Shading Accent 1
  82. Colorful Shading Accent 2
  83. Colorful Shading Accent 3
  84. Colorful Shading Accent 4
  85. Colorful Shading Accent 5
  86. Colorful Shading Accent 6
  87. Colorful List
  88. Colorful List Accent 1
  89. Colorful List Accent 2
  90. Colorful List Accent 3
  91. Colorful List Accent 4
  92. Colorful List Accent 5
  93. Colorful List Accent 6
  94. Colorful Grid
  95. Colorful Grid Accent 1
  96. Colorful Grid Accent 2
  97. Colorful Grid Accent 3
  98. Colorful Grid Accent 4
  99. Colorful Grid Accent 5
  100. Colorful Grid Accent 6
以上都是表格样式,我们挑一两个来试试。

文档 操作 - 图47

image-20221204182758382 执行效果:

文档 操作 - 图48

image-20221204182811927

3.5 WORD 转 PDF

首先我们要认识一下 PDF 工具包 - pdfkit

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # 安装
  2. pip install pdfkit
安装好pdfkit后,我们还需要一个依赖的工具。 下载链接:wkhtmltopdf 大家根据自己的系统下载对应的安装包。

3.5.1 网址 转 PDF

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. pdfkit.from_url('网址','保存的路径')
代码演示:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. import pdfkit
  3. # 给出wkhtmltopdf的位置
  4. config = pdfkit.configuration(wkhtmltopdf=r"D:\installPath\wkhtmltopdf\bin\wkhtmltopdf.exe")
  5. # 网址 转 PDF
  6. pdfkit.from_url('https://www.baidu.com', 'baidu.pdf', configuration=config)
执行效果:

文档 操作 - 图49

image-20221204190637875

3.5.2 HTML字符串 转PDF

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. import pdfkit
  3. # 给出wkhtmltopdf的位置
  4. config = pdfkit.configuration(wkhtmltopdf=r"D:\installPath\wkhtmltopdf\bin\wkhtmltopdf.exe")
  5. # html 字符串
  6. htmlStr = """
  7. <html>
  8. <head>
  9. <meta charset="utf-8" />
  10. </head>
  11. <body>
  12. <h1>一切总会归于平淡</h1>
  13. </body>
  14. </html>
  15. """
  16. # 字符串转 PDF
  17. pdfkit.from_string(htmlStr, '求个点赞.pdf', configuration=config)
执行效果:

文档 操作 - 图50

image-20221204191705792

3.5.1 WORD 转 PDF

首先我们要安装一个新的依赖包:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. pip install pydocx
代码演示:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. import pdfkit
  3. from pydocx import PyDocX
  4. # 给出wkhtmltopdf的位置
  5. config = pdfkit.configuration(wkhtmltopdf=r"D:\installPath\wkhtmltopdf\bin\wkhtmltopdf.exe")
  6. # 先将word文档转成HTML
  7. html = PyDocX.to_html('简历1.docx')
  8. f = open('html1.html', 'w')
  9. f.write(html)
  10. f.close()
  11. # 再转成pdf
  12. pdfkit.from_file('html1.html', '简历1.pdf', configuration=config)
  13. # 也可以直接通过字符串生成
  14. html2 = PyDocX.to_html('简历2.docx')
  15. pdfkit.from_string(html2, '简历2.pdf', configuration=config)
这段代码使用pdfkit库将两个Word文档(简历1.docx和简历2.docx)转换成PDF格式。它使用了两个步骤: 将Word文档转换成HTML:首先,它使用PyDocX库的to_html函数将Word文档转换成HTML字符串。然后,它使用open函数打开一个名为”html1.html”的文件,并使用write函数将HTML字符串写入该文件。最后,它使用close函数关闭文件。 将HTML转换成PDF:首先,它使用pdfkit库的from_file函数从”html1.html”文件中读取HTML字符串,并使用pdfkit库的from_string函数将HTML字符串转换成PDF格式。 注意,pdfkit库需要wkhtmltopdf工具来进行转换。因此,你需要在代码中指定wkhtmltopdf工具的位置(在这段代码中,wkhtmltopdf工具位于”D:\installPath\wkhtmltopdf\bin\wkhtmltopdf.exe”)。

4、Excel 自动化

接下来我们学习 Python 对Excel 的操作,这里又要给大家介绍一个新模块 xlrd .

代码语言:txt

复制

  1. # 安装
  2. pip install -i https://pypi.tuna.tsinghua.edu.cn/simple xlrd==1.2.0
为什么指定版本呢? 因为更高的版本有可能会发生不兼容的情况。

4.1 获取Excel 对象

使用方法:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. book = xlrd.open_workbook(excle文件)
返回:excle 对象

4.1.1 获取工作簿

既然已经获取到了Excel 对象,我们都知道在每个Excel 里面都有很多个工作簿,那怎么获取里面的工作簿呢?
函数名 说明
book.sheet_by_name() 按照工作薄名称获取
book.sheet by_index() 按照索引获取
book.sheets() 获取所有工作薄列表
代码编写:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. import xlrd
  3. excel = xlrd.open_workbook('技术新鲜事(一切总会归于平淡)_用户明细_20221204.xlsx')
  4. # 按照工作薄名称获取
  5. book = excel.sheet_by_name('用户明细')
  6. print(book.name)
  7. # 按照索引获取
  8. book = excel.sheet_by_index(0)
  9. print(book.name)
  10. # 获取所有的工作簿列表
  11. for i in excel.sheets():
  12. print(i.name)
执行效果:

文档 操作 - 图51

image-20221204202000138

4.1.2 读取工作簿内容

现在我们已经获取工作簿,接下来我们就来学习如何获取工作簿里面的内容。
函数名 说明
sheet.nrows 返回总行数
sheet.ncols 返回总列数
sheet.get_rows0 返回每行内容列表
代码执行:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. import xlrd
  3. excel = xlrd.open_workbook('技术新鲜事(一切总会归于平淡)_用户明细_20221204.xlsx')
  4. # 按照工作薄名称获取
  5. book = excel.sheet_by_name('用户明细')
  6. print(book.name)
  7. # 总行数
  8. print('%s 行' % book.nrows)
  9. # 总列数
  10. print('%s 列' % book.ncols)
  11. # 每行内容列表
  12. for i in book.get_rows():
  13. content = []
  14. for j in i:
  15. content.append(j.value)
  16. print(content)
这段代码打开了一个名为”技术新鲜事(一切总会归于平淡)_用户明细_20221204.xlsx”的Excel文件,然后使用sheet_by_name函数获取名为”用户明细”的工作表。它打印了工作表的名称,然后使用nrows和ncols属性获取工作表的总行数和总列数,最后使用get_rows函数遍历工作表的每一行,并将每一行的内容打印出来。 注意,get_rows函数返回的是一个生成器,因此你需要使用for循环遍历每一行。对于每一行,你可以使用for循环遍历每一个单元格,并使用value属性获取单元格的值。 执行效果:

文档 操作 - 图52

image-20221204202824285

4.2 写入Excel 数据

接下来我们学习 Python 对Excel 写入数据的操作,这里又要给大家介绍一个新模块 xlsxwriter.

代码语言:txt

复制

  1. # 安装
  2. pip install -i https://pypi.tuna.tsinghua.edu.cn/simple xlsxwriter

4.2.1 常用函数

函数名 说明 参数
xlsxwriter.Workbook() 生成excel对象 Excel文件名
add_worksheet() 添加工作薄 工作薄名称
sheet.write() 书写内容 行索引,列索引,内容
book.close() 关闭excel对象

4.2.2 代码书写

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. import xlrd
  2. import xlsxwriter
  3. # 读取技术新鲜事(一切总会归于平淡)_用户明细_20221204.xlsx
  4. def read():
  5. result = []
  6. excel = xlrd.open_workbook('技术新鲜事(一切总会归于平淡)_用户明细_20221204.xlsx')
  7. # 按照工作薄名称获取
  8. book = excel.sheet_by_name('用户明细')
  9. # 每行内容列表
  10. for i in book.get_rows():
  11. content = []
  12. for j in i:
  13. content.append(j.value)
  14. result.append(content)
  15. return result
  16. def write(content):
  17. # 创建excel对象
  18. excel = xlsxwriter.Workbook('test.xlsx')
  19. # 添加工作簿
  20. book = excel.add_worksheet("test")
  21. for index, data in enumerate(content):
  22. for sub_index, sub_date in enumerate(data):
  23. book.write(index, sub_index, sub_date)
  24. # 关闭excel对象
  25. excel.close()
  26. if __name__ == '__main__':
  27. result = read()
  28. write(result)
这段代码实现了从一个名为”技术新鲜事(一切总会归于平淡)_用户明细_20221204.xlsx”的Excel文件中读取数据,然后将读取到的数据写入另一个名为”test.xlsx”的Excel文件中。 它首先使用xlrd库打开名为”技术新鲜事(一切总会归于平淡)_用户明细_20221204.xlsx”的Excel文件,然后使用sheet_by_name函数获取名为”用户明细”的工作表。接下来,它使用get_rows函数遍历工作表的每一行,将每一行的内容读取到一个列表中,然后将该列表添加到另一个列表中,最终得到一个二维列表。 然后,它调用write函数,使用xlsxwriter库创建一个名为”test.xlsx”的Excel文件,并在该文件中添加一个名为”test”的工作表。然后,它遍历传入的二维列表中的每一个元素,并将它们写入工作表中的相应位置。最后,它使用close函数关闭excel对象,保存文件。

4.3 Excel 写入图表

学习完如何书写一个excel 文件 ,我们来看看如何在excle 上生成一个比较简单的图表。

4.3.1 常用函数

我们先来看看所需要的几个函数。
函数名 说明 参数
add _chart() 创建图表对象 {type: 样式)
add series() 定义需要展示的数据 字典
set title() 定义图表title 字符串
add series()的参数:
参数 说明
categories 展示的标题 =Sheet1!$A$1:$A$4
values 展示的数据 =Sheet1!$B$1:$B$4
name 表名
=Sheet1!$A$1:$A$4 : 这是一个 Excel 单元格引用。它表示 “Sheet1” 工作簿中的第一列,即从第一行到第四行的所有单元格。其中 “$A$1” 和 “$A$4” 分别表示第一列的第一行和第四行,”$A” 表示第一列,”$1” 和 “$4” 分别表示第一行和第四行。

4.3.2 图表样式

样式名 说明
area 区域样式表
bar 条形样式
column 柱状样式
line 线条样式
pie 饼图样式
doughnut 圆环样式
scatter 散点样式
stock 库存样式
radar 雷达样式

4.3.3 代码书写

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. import xlsxwriter
  2. # 创建excel对象
  3. excel = xlsxwriter.Workbook('test.xlsx')
  4. # 添加工作簿
  5. book = excel.add_worksheet('用户角色')
  6. data = [
  7. ['社区成员', '社区之星', '社区管理员', '区长'],
  8. [20, 23, 2, 1]
  9. ]
  10. book.write_column('A1', data[0])
  11. book.write_column('B1', data[1])
  12. chart = excel.add_chart({'type': 'pie'})
  13. chart.add_series({
  14. 'categories': '=用户角色!$A1:$A4',
  15. 'values': '=用户角色!$B1:$B4',
  16. 'name': '角色占比'
  17. })
  18. chart.set_title({
  19. 'name': '角色占比图表'
  20. })
  21. book.insert_chart('A7', chart)
  22. # 关闭excel对象
  23. excel.close()
这段代码使用了 Python 的 xlsxwriter 库来创建一个名为 “test.xlsx” 的 Excel 文件,并在其中添加了一个工作簿,命名为 “用户角色”。然后在该工作簿中写入了两列数据。接着,它创建了一个饼图,将数据源设为工作簿中的第一列和第二列,并将图表插入到工作簿中。最后,关闭了 Excel 对象。 执行效果:

文档 操作 - 图53

image-20230102172929213

5、 PPT 自动化

从现在开始我们就来学习PPT 的自动化操作。 这里就要用到python PPT操作利器之 python - pptx 。

代码语言:txt

复制

  1. # 安装
  2. pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-pptx

5.1 创建PPT

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. import pptx
  2. # 创建ppt 对象
  3. p = pptx.Presentation()
  4. # 设置布局 一共有11种 从0开始
  5. layout = p.slide_layouts[7]
  6. # 创建第一个页ppt
  7. slide = p.slides.add_slide(layout)
  8. p.save('test.ppt')
这段 Python 代码,它会创建一个 pptx.Presentation 对象,再设置布局并添加一张幻灯片,最后保存为 test.ppt 文件。 布局是指幻灯片的外观,我这里最多是11 种布局(可能跟我的pptx版本或者ppt 版本有关)。可以使用 pptx.Presentation.slide_layouts 属性访问幻灯片布局,这个属性是一个列表,每一项都是一个 SlideLayout 对象,列表中第 7 项就是第 7 种布局。 使用 pptx.Presentation.slides.add_slide() 方法可以向幻灯片集合添加一张幻灯片,这个方法需要指定一个布局。 最后使用 pptx.Presentation.save() 方法保存幻灯片。 执行效果:

文档 操作 - 图54

image-20230102183205219

5.2 段落的使用

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. import pptx
  2. from pptx.dml.color import RGBColor
  3. from pptx.enum.text import PP_PARAGRAPH_ALIGNMENT
  4. from pptx.util import Pt
  5. # 创建ppt 对象
  6. p = pptx.Presentation()
  7. # 设置布局 一共有11种 从0开始
  8. layout = p.slide_layouts[1]
  9. # 创建第一页ppt
  10. slide = p.slides.add_slide(layout)
  11. # 获取标题 0 是 标题 1 段落
  12. title = slide.placeholders[0]
  13. title.text = 'ppt自动化'
  14. # 获取段落
  15. placeholder = slide.placeholders[1]
  16. placeholder.text = '一切总会归于平淡\n求个关注'
  17. # 添加段落
  18. placeholder1 = placeholder.text_frame.add_paragraph()
  19. # 添加内容
  20. placeholder1.text = '点赞'
  21. # 加粗
  22. placeholder1.font.bold = True
  23. # 倾斜
  24. placeholder1.font.italic = True
  25. # 字体大小
  26. placeholder1.font.size = Pt(16)
  27. # 下划线
  28. placeholder1.font.underline = True
  29. # 位置
  30. placeholder1.alignment = PP_PARAGRAPH_ALIGNMENT.CENTER
  31. # 添加第二个段落
  32. placeholder2 = placeholder.text_frame.add_paragraph()
  33. placeholder2.text = '转发'
  34. # 字体大小
  35. placeholder2.font.size = Pt(32)
  36. # 位置 右
  37. placeholder2.alignment = PP_PARAGRAPH_ALIGNMENT.RIGHT
  38. # 颜色 红色
  39. placeholder2.font.color.rgb = RGBColor(255, 0, 0)
  40. p.save('test.ppt')
这段代码用于创建一个 PowerPoint 文件,并在该文件中添加一张幻灯片。在幻灯片中,有一个标题和两个文本段落。 首先,使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">pptx</font> 库导入了需要的模块。然后,使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">pptx.Presentation()</font> 函数创建了一个 PowerPoint 对象,并通过使用幻灯片布局类型 1(第二种),使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">slides.add_slide()</font> 函数向其添加了一张幻灯片。 在幻灯片中,使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">placeholders[0]</font><font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">placeholders[1]</font> 获取标题和第一个文本段落,并使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">text</font> 属性指定其文本内容。然后,使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">add_paragraph()</font> 函数为第一个文本段落添加了一个新段落,并使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">font</font> 属性设置了该段落的文本格式,如字体大小、是否加粗、是否倾斜、是否有下划线以及文本颜色。 使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">alignment</font> 属性设置了文本的对齐方式。最后,使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">save()</font> 函数将该幻灯片保存为文件 “test.ppt”。 执行效果:

文档 操作 - 图55

image-20230102191746476

5.3 插入表格+图片

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # 创建ppt 对象
  2. import pptx
  3. from pptx.util import Inches
  4. p = pptx.Presentation()
  5. # 设置布局 一共有11种 从0开始
  6. layout = p.slide_layouts[1]
  7. # 创建第一页ppt
  8. slide = p.slides.add_slide(layout)
  9. # 获取标题 0 是 标题 1 段落
  10. title = slide.placeholders[0]
  11. title.text = 'ppt自动化'
  12. # 获取段落
  13. placeholder = slide.placeholders[1]
  14. placeholder.text = '一切总会归于平淡\n求个关注'
  15. # 创建第二页
  16. layout = p.slide_layouts[1]
  17. slide = p.slides.add_slide(layout)
  18. title = slide.placeholders[0]
  19. title.text = '第二页'
  20. # 定义表格属性
  21. rows = 10
  22. cols = 2
  23. left = top = Inches(2)
  24. width = Inches(6.0)
  25. height = Inches(1.0)
  26. # 创建表格
  27. table = slide.shapes.add_table(rows, cols, left, top, width, height).table
  28. # 添加内容
  29. for index, _ in enumerate(range(rows)):
  30. for sub_index in range(cols):
  31. table.cell(index, sub_index).text = '%s:%s' % (index, sub_index)
  32. layout = p.slide_layouts[6]
  33. slide = p.slides.add_slide(layout)
  34. # 插入图片
  35. image = slide.shapes.add_picture(
  36. image_file='C:\\Users\\24163\\Desktop\\封面\\85047173_p0-724x1024.jpg',
  37. left=Inches(1),
  38. top=Inches(1),
  39. width=Inches(6),
  40. height=Inches(6)
  41. )
  42. p.save('test.ppt')
这段代码创建了一个 PowerPoint 幻灯片文件,并使用 Python 的 python-pptx 库进行操作。 首先,使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">pptx.Presentation()</font> 函数创建了一个 PowerPoint 对象,并使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">slide_layouts</font> 属性选择了一个布局(在本例中为布局 1)。然后,使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">add_slide()</font> 函数将一张幻灯片添加到演示文稿中。 接下来,使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">placeholders</font> 属性获取幻灯片中的标题和段落,并设置其文本内容。 然后,再次使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">add_slide()</font> 函数创建了另一张幻灯片,并使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">add_table()</font> 函数将一个表格添加到幻灯片中。接着,使用嵌套循环遍历表格的所有单元格,并使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">cell()</font> 方法设置单元格的文本内容。 接着,又使用了 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">add_slide()</font> 函数创建了另一张幻灯片,并使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">add_picture()</font> 函数将一张图片插入到幻灯片中。在这里,您指定了图片文件的路径,并使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">Inches</font> 对象指定了图片的位置和尺寸。 最后,使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">save()</font> 方法将演示文稿保存到文件中。 执行效果:

文档 操作 - 图56

image-20230102195230658

5.4 读取PPT

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. import pptx
  3. # 获取ppt对象
  4. p = pptx.Presentation('test.ppt')
  5. # 获取ppt中所有的幻灯片
  6. for slide in p.slides:
  7. # 获取所有形状
  8. for shape in slide.shapes:
  9. # 判断是否是文本类型(因为像图片这种类型是读取不了的)
  10. if shape.has_text_frame:
  11. print(shape.text_frame.text)
  12. # 判断是否是表格
  13. if shape.has_table:
  14. for cell in shape.table.iter_cells():
  15. print(cell.text)
这段代码是在解析一个 PowerPoint 文件,然后打印出所有幻灯片中的文本内容。 首先,它使用了 pptx 库来打开 PowerPoint 文件。然后,它遍历了所有幻灯片,对于每一张幻灯片,再遍历所有形状。对于每个形状,如果它有文本框,就打印出文本框中的文本;如果它有表格,就遍历表格中的所有单元格,并打印出单元格中的文本。

6、邮件的操作

接下来我们来学习python对邮件的操作。 让我们来看看又可以认识哪些新模块吧。
  • smtplib:邮件协议与发送模块
  • email:内容定义模块
  • schedule:定时模块

6.1 发送邮件的常规流程。

文档 操作 - 图57

发送邮件的流程

6.2 认识邮件协议

常见的邮件的协议有:
  • SMTP(Simple Mail Transfer Protocol):简单邮件传输协议,是一种用于发送邮件的应用层协议。它使用了一组专用的命令来指定邮件的发件人、收件人以及其他相关信息,并使用 TCP 协议传输数据。
  • IMAP(Internet Mail Access Protocol):互联网邮件访问协议,是一种用于访问远程邮件服务器上的邮件的应用层协议。它提供了一组命令,用于从服务器上检索、操作和删除邮件。
  • POP3(Post Office Protocol version 3)是一种应用层协议,用于从远程邮件服务器接收邮件。它是邮局协议(POP)的第三个版本,是目前使用最广泛的版本。
什么是协议? 协议就是一种规则已经被底层网络封装好,我们无需关心他的具体规则是什么,直接使用上层工具即可。

6.3 邮箱服务商开通SMTP 服务(网易邮箱为例)

登录网易邮箱,点击设置。

文档 操作 - 图58

image-20230102231942819 选择POP3/SMTP/IMAP

文档 操作 - 图59

image-20230102232114820 找到 SMTP 设置,将其开启。

文档 操作 - 图60

image-20230102232211059 然后你就看到一串复制保存,后续代码会用到。

6.4 普通邮件发送

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. import smtplib
  3. from email.header import Header
  4. from email.mime.text import MIMEText
  5. # 第三方的smtp
  6. mail_host = 'smtp服务器'
  7. mail_user = '你的邮箱'
  8. mail_pass = '密钥'
  9. # smtp 开通, 授权码
  10. # 发送人邮箱
  11. sender = '发送人的邮箱'
  12. # 接收者邮箱
  13. receivers = ['接收者的邮箱']
  14. # 参数:1、内容 2、文件内容格式 3、编码格式
  15. message = MIMEText('这是一个测试', 'plain', 'utf-8')
  16. # 发送者信息
  17. message['From'] = Header(sender)
  18. # 标题 参数 : 1、内容 2、编码格式
  19. message['Subject'] = Header('python脚本测试', 'utf-8')
  20. try:
  21. # 发送邮件
  22. smtpobj = smtplib.SMTP()
  23. # 连接
  24. smtpobj.connect(mail_host, 25)
  25. # 登录
  26. smtpobj.login(mail_user, mail_pass)
  27. # 发送
  28. smtpobj.sendmail(sender, receivers, message.as_string())
  29. except smtplib.SMTPException as e:
  30. print('error: %s' % e)
首先,它会使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">smtplib</font> 模块连接到你的 SMTP 服务器,然后使用你的邮箱账号和密码登录。 然后,它会使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">MIMEText</font> 类创建一个电子邮件对象,该对象包含了邮件的文本内容、文件内容格式和编码格式。 最后,它会调用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">sendmail</font> 函数发送邮件。这个函数需要三个参数:发件人地址、收件人地址(可以是一个列表,表示同时发送给多个人)和邮件正文。 在代码中,邮件正文是通过调用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">as_string</font> 方法将电子邮件对象转换为字符串的形式传递的。 如果发送邮件过程中出现了任何错误,就会抛出 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">SMTPException</font> 异常。你可以使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">try-except</font> 语句来捕获这个异常,并在出错时打印错误信息。

6.5 HTML 邮件发送

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. import smtplib
  3. from email.header import Header
  4. from email.mime.text import MIMEText
  5. # 第三方的smtp
  6. mail_host = 'smtp服务器'
  7. mail_user = '你的邮箱'
  8. mail_pass = '密钥'
  9. # smtp 开通, 授权码
  10. # 发送人邮箱
  11. sender = '发送人的邮箱'
  12. # 接收者邮箱
  13. receivers = ['接收者的邮箱']
  14. # 参数:1、内容 2、文件内容格式 3、编码格式
  15. message = MIMEText('<p style="color:red;">这是一个测试</p>', 'html', 'utf-8')
  16. # 发送者信息
  17. message['From'] = Header(sender)
  18. # 标题 参数 : 1、内容 2、编码格式
  19. message['Subject'] = Header('python脚本测试', 'utf-8')
  20. try:
  21. # 发送邮件
  22. smtpobj = smtplib.SMTP()
  23. # 连接
  24. smtpobj.connect(mail_host, 25)
  25. # 登录
  26. smtpobj.login(mail_user, mail_pass)
  27. # 发送
  28. smtpobj.sendmail(sender, receivers, message.as_string())
  29. except smtplib.SMTPException as e:
  30. print('error: %s' % e)
这里就改造了一下 message = MIMEText()。

6.6 带附件的邮件

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. import smtplib
  3. from email.header import Header
  4. from email.mime.multipart import MIMEMultipart
  5. from email.mime.text import MIMEText
  6. # 第三方的smtp
  7. mail_host = 'smtp服务器'
  8. mail_user = '你的邮箱'
  9. mail_pass = '密钥'
  10. # smtp 开通, 授权码
  11. # 发送人邮箱
  12. sender = '发送人的邮箱'
  13. # 接收者邮箱
  14. receivers = ['接收者的邮箱']
  15. message = MIMEMultipart()
  16. # 发送者信息
  17. message['From'] = Header(sender)
  18. # 标题 参数 : 1、内容 2、编码格式
  19. message['Subject'] = Header('python脚本测试', 'utf-8')
  20. # 定义发送邮件的内容
  21. attr = MIMEText(open('test.ppt', 'rb').read(), 'base64', 'utf-8')
  22. attr['Content-Type'] = 'application/octet-stream'
  23. attr['Content-Disposition'] = 'attachment;filename="test.ppt"'
  24. message.attach(attr)
  25. message.attach(MIMEText('这是一个带附件的邮件', 'plain', 'utf-8'))
  26. try:
  27. # 发送邮件
  28. smtpObj = smtplib.SMTP()
  29. # 连接
  30. smtpObj.connect(mail_host, 25)
  31. # 登录
  32. smtpObj.login(mail_user, mail_pass)
  33. # 发送
  34. smtpObj.sendmail(sender, receivers, message.as_string())
  35. except smtplib.SMTPException as e:
  36. print('error: %s' % e)
这段代码演示了如何使用 Python 发送带附件的邮件到网易邮箱。 首先,它使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">MIMEMultipart</font> 类创建了一个电子邮件对象,这个对象可以同时包含文本内容和附件。 然后,它使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">MIMEText</font> 类创建了一个文本内容对象,并使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">open</font> 函数将本地文件作为二进制数据读入。 接着,它使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">MIMEText</font> 对象的 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">Content-Type</font><font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">Content-Disposition</font> 属性设置了附件的文件类型和文件名。 最后,它使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">attach</font> 方法将文本内容对象和附件对象添加到电子邮件对象中,并使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">sendmail</font> 函数发送邮件。 和之前的代码一样,如果发送邮件过程中出现了任何错误,就会抛出 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">SMTPException</font> 异常,使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">try-except</font> 语句来捕获这个异常,并在出错时打印错误信息。

6.7 定时发送邮件

这里我们又要认识一个新的库:schedule。

代码语言:txt

复制

  1. #安装
  2. pip install schedule
Python 的 schedule 库支持以下时间格式:
时间格式 描述
@once 在程序启动时运行一次
@hourly 每小时运行一次,例如 00:00, 01:00, 02:00 等
@daily 每天运行一次,例如 00:00
@weekly 每周运行一次,例如星期一的 00:00
@monthly 每月运行一次,例如每月第一天的 00:00
@yearly 每年运行一次,例如每年的 1 月 1 日的 00:00
@cron 使用 crontab 格式(用空格分隔的 5 个字段)来指定时间,例如 “0 0 *” 表示每天的 00:00 运行一次。具体的格式可以参考 crontab 文档。
datetime object 使用 Python 的 datetime 对象来指定时间
例如,你可以使用以下代码在每周一的 00:00 运行一次任务:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. # coding:utf-8
  2. import smtplib
  3. import time
  4. from email.header import Header
  5. from email.mime.multipart import MIMEMultipart
  6. from email.mime.text import MIMEText
  7. # 第三方的smtp
  8. import schedule
  9. mail_host = 'smtp服务器'
  10. mail_user = '你的邮箱'
  11. mail_pass = '密钥'
  12. # smtp 开通, 授权码
  13. # 发送人邮箱
  14. sender = '发送人的邮箱'
  15. # 接收者邮箱
  16. receivers = ['接收者的邮箱']
  17. message = MIMEMultipart()
  18. # 发送者信息
  19. message['From'] = Header(sender)
  20. # 标题 参数 : 1、内容 2、编码格式
  21. message['Subject'] = Header('python脚本测试', 'utf-8')
  22. # 定义发送邮件的内容
  23. attr = MIMEText(open('test.ppt', 'rb').read(), 'base64', 'utf-8')
  24. attr['Content-Type'] = 'application/octet-stream'
  25. attr['Content-Disposition'] = 'attachment;filename="test.ppt"'
  26. message.attach(attr)
  27. message.attach(MIMEText('这是一个带附件的邮件', 'plain', 'utf-8'))
  28. def send():
  29. try:
  30. # 发送邮件
  31. smtpObj = smtplib.SMTP()
  32. # 连接
  33. smtpObj.connect(mail_host, 25)
  34. # 登录
  35. smtpObj.login(mail_user, mail_pass)
  36. # 发送
  37. smtpObj.sendmail(sender, receivers, message.as_string())
  38. except smtplib.SMTPException as e:
  39. print('error: %s' % e)
  40. if __name__ == '__main__':
  41. # 每周一的 00:00 运行一次
  42. schedule.every().monday.at("00:00").do(send)
  43. while True:
  44. schedule.run_pending()
  45. time.sleep(60)
你也可以使用 crontab 格式来指定更精细的时间,例如每隔 10 分钟运行一次:

代码语言:python

代码**运行次数:0**

复制

Cloud Studio**代码运行**

  1. if __name__ == '__main__':
  2. # 每隔 10 秒运行一次
  3. schedule.every(10).seconds.do(send)
  4. while True:
  5. schedule.run_pending()
  6. time.sleep(60)

6.8 为什么要使用while True 循环?

在上面的代码中,while 循环被用来不断检查是否有挂起的任务需要执行。 每当你使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">schedule.every().XXX.do(job)</font> 这样的语句来安排任务时,schedule 库会将这个任务添加到一个挂起任务列表中。然后,你可以使用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">schedule.run_pending()</font> 函数来检查是否有挂起任务的执行时间已经到了,如果有,就执行这个任务。 所以为了不断检查是否有挂起任务需要执行,我们使用了一个无限循环。在这个循环内部,我们每次都调用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">schedule.run_pending()</font> 函数来检查是否有挂起任务需要执行,然后再调用 <font style="color:rgb(10, 191, 91);background-color:rgb(243, 245, 249);">time.sleep(60)</font> 函数来睡眠一段时间。 这样做的好处是,在程序启动后,schedule 库就会不断地检查是否有挂起任务需要执行,并在到达执行时间时立即执行这个任务。这使得你可以很方便地使用 schedule 库来安排周期性任务,而不需要手动去检查是否有任务需要执行。 当然,你也可以使用其他方法来实现这个功能,例如使用多线程或者使用第三方库等。但是,使用 schedule 库可以让你省去很多麻烦,使得安排周期性任务变得非常简单。

6.9 踩的一个坑

文档 操作 - 图61

image-20230103000554711 错误原因: 运行debug调试找到 socket.py 这个文件的第676行:

文档 操作 - 图62

image-20230103000732402 上图中’name’ 这个参数编码错误,这个name参数好像是来自于自己计算机的名称,我的电脑名称是中文。 方法:建议一步到位直接把自己电脑名字改成英文字母,很多涉及到网络的代码都会报编码错误(我的系统是win11)

文档 操作 - 图63

image-20230103000918073

参考文章:(6条消息) Python连接SMTP服务器报错:UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xce in position 0……_Systemd的博客-CSDN博客_smtputf8