Python自动办公 - Python处理分析128张Excel表格 - 《自学的基本法则》

案例背景

有一家专注于户外运动的巨头公司，旗下有20个品牌，这些品牌涉及到128个类目（细分行业），需要筛选出近一年销售额总额TOP5的品牌以及对应的销售额。**
业务部门的同事总共发来了128张表，每一份表格对应着一个细分行业的数据，像什么各类户外服装、垂钓装备、救生装备应有尽有。

Python处理分析128张Excel表格 - 图1

每张表，以月的维度（2018年9月-2019年8月，近一年）记录着每个品牌的日期、访客、客单、转化、所属类目（细分行业）等数据：

Python处理分析128张Excel表格 - 图2
注：不要问为啥表格数据存储这么奇葩，因为在平行世界，就是要任性，毕竟复杂的表格才能体现出Python的高效

最终需求是要筛选出近一年销售额总和排名前5的品牌，这一摊子数据，对单独的一张表进行分类汇总，能够得到该细分行业各品牌的销售额，想要得到所有行业的销售额总和，得分类汇总128次，最后对128次结果再次合并。以90秒一张表格的速度疯狂推进。按照这个速度，不考虑疲劳值对速度的拖累，大概3.2个小时就能够完成任务。

用Python解决批量问题的核心，在于梳理并解决单个问题，然后批量循环。

单个表格处理
**
首先，导入模块，打开单个表格：

Python处理分析128张Excel表格 - 图3

接着，是要汇总不同品牌在这个细分行业下的销售额，我们要汇总的是各品牌近一年（2018年9月-2019年8月）的销售额，先看看日期是否正确：

Python处理分析128张Excel表格 - 图4
正要汇总销售额，小Z发现没有销售额的字段，但销售额是可以通过访客数转化率客单价三者的乘积来计算的：

Python处理分析128张Excel表格 - 图5
按品牌来汇总销售额，得到近一年各品牌销售额合计：

Python处理分析128张Excel表格 - 图6
这里有个细节，最终小Z要汇总的是所有细分行业的销售额，对于单独行业的销售额，应该加一个区分的标签以防覆盖，而打开时候的文件名，具有天然的区分和防覆盖优势，但要注意去掉文件的后缀。

Python处理分析128张Excel表格 - 图7
OK，单个表格处理完成，我们把这一系列操作推而广之即可。

批量循环执行
**
小Z用os.listdir方法来遍历文件名，批量循环访问并处理文件，同时引入time计时，打算看一看，面对128张表，Python完成这些操作到底能够比手动快多少：

Python处理分析128张Excel表格 - 图8

WOC,整个过程一气呵成，不到3秒，平均一张表格0.02秒！真香！

为了确保数据正常，来预览一下：

Python处理分析128张Excel表格 - 图9
这一串看起来很奇怪的销售额，是pandas自作主张把实际销售额变成了科学记数法形式来展示，要还原数值，需要更改一下原始的设置：

Python处理分析128张Excel表格 - 图10
OK，无论是习惯还是法理，都得到了我们希望的结果——近一年销售TOP5品牌及其对应的销售额。从数据结果来看，大头公司下的20个品牌全面开花，以品牌5为先锋，一年销售高达12.26亿，排名最后的品牌体量也达到了9.79亿元，平均单品牌销售10.85亿元。