(十六):合并数据 - 图1

    此系列文章收录在公众号中:数据大宇宙 > 数据处理 >E-pd

    经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas

    前言

    本系列上一节说了拆分数据的案例,这次自然是说下怎么合并数据。

    随着需求复杂度提高,很多时候已经不能用 excel 自带功能实现了,不过 pandas 中许多概念与 excel 不谋而合

    案例1

    公司的销售系统功能不全,导出数据时只能把各个部门独立一个 Excel 文件,此时你需要对整体数据做分析,最好的方式当然是先把各个文件统一汇总起来:

    (十六):合并数据 - 图2

    • 注意看,虽然每个表的标题一样,但是他们的顺序可能出现不一致

    这里有3个关键点:

    • 如何获得一个文件夹中所有文件的路径

    • 加载 Excel 文件数据

    • 列标题对齐的情况下,多个数据合并

    这次我们需要用到3个包:

    (十六):合并数据 - 图3

    • pandas 不用多说

    • from pathlib import Path ,用于获取文件夹中文件的路径

    • openpyxl 用于读取 Excel 文件所有的工作表

    我们来看看如何用 pandas 完成需求:

    (十六):合并数据 - 图4

    • Path(‘案例1’).glob(‘*.xlsx’) ,获得指定文件夹(案例1)中的所有 Excel 文件路径

    • pd.read_excel(f) ,加载 Excel 数据

    • pd.concat(dfs) ,合并多个数据,pandas 自动进行索引对齐

    关于 pathlib 的知识点,请关注公众号的入门必备系列文章

    上面是普通的写法,这场景我倾向于使用推导式:

    (十六):合并数据 - 图5

    推导式内容,请看 数据大宇宙 > Python入门必备 > 必备知识 > 细讲Python推导式

    案例2

    有时候,表格中没有必要的信息,如下:

    (十六):合并数据 - 图6

    • 这次表格中没有部门列,部门的信息只能在文件名字中获取

    (十六):合并数据 - 图7

    • df[‘部门’] = f.stem ,pandas 中添加一列值是非常容易。f.stem 是不带后缀的文件名字

    为什么上面不用推导式呢?因为推导式只适合一行连续调用的写法,当然这里还是可以使用推导式实现的:

    (十六):合并数据 - 图8

    • DataFrame.assign(部门=f.stem) 是一个添加列并且返回修改后的数据的方法,特别适合这种场景下使用

    各种创建或移除行列数据的应用,请留意专栏文章

    案例3

    实际工作中还有更麻烦的情况,比如一个部门文件中又按性别划分了不同的工作表:

    (十六):合并数据 - 图9

    • 也就是说,通过文件名字获得部门名字,通过工作表名字获得性别信息

    其实,道理与案例2是一样的,只要知道怎么获取一个 Excel 文件的工作表名字,问题即可迎刃而解:

    (十六):合并数据 - 图10

    • openpyxl.load_workbook(f).worksheets ,利用 openpyxl 包,读取文件的所有工作表名字

    • .assign(部门=f.stem,性别=wk.title) ,wk.title 即使工作表名字

    总结

    • pathlib 包中的类 Path 是个处理文件路径的好东西

    • Path 的 方法 glob(‘*.xlsx’) ,即可获取一个目录下所有的 Excel 文件

    • pd.concat ,合并多个 DataFrame,并且能够自动对齐表头

    • 当需要往 DataFrame 添加新列时,可以考虑使用 assign

    • openpyxl.load_workbook(f).worksheets ,获取 Excel 文件的工作表对象。其中的 title 属性,即是工作表名字

    需要源码的小伙伴,公众号发送”数据处理”

    如果希望从零开始学习 pandas ,那么可以看看我的 pandas 专栏。

    扫描二维码

    获取更多精彩

    数据大宇宙

    (十六):合并数据 - 图11