由于本人的工作主要是和文档打交道,这就为分析2019年全年工作量提供了可能性——毕竟文档是可统计可分析的。
image.png

主要结论

全年共产生519份工作成果文档(忽略过程文档以及不计入工作成果的文档)。文件体积2100M。
报告类402份,占比77.46%;方案类117份,占比22.54%。这符合自己作为数据分析师的工作定位——主要工作是制作报告,写方案是主要职责之外的工作。
image.png

从每天工作量来看,2019年有大约250个工作日,我请假总共5天,所以总的工作日是245天,平均一天产生2份工作文档。最忙的一天是2019年7月17日,提交了15份工作成果。有31天工作成果数超过5份,其中7月占据了单日成果数的前四位,难怪7月份是最忙的时候。
image.png

从每月工作量来看,平均每月产生43份工作文档,7月份是最忙的时候,产生了85份工作文档。最轻松的月份是2月份,只产生了31份工作成果。
image.png

从各月产生的工作成果类型来看,2-3月方案类工作占用了我大部分时间,后来工作重心逐渐调整,重新回到了数据分析上,从5月份开始,方案类工作只占据很少一部分。
image.png

全年共处理7684份文件,数据文件占据大部分。其他文件中图片文件占据大部分。总共处理3150M数据。
image.png
平均每份工作成果需要处理15个(7684/519=14.8)文件。

分析方法

数据源其实很简单,从powerquery引入来自文件夹的源即可。powerquery会递归地把该文件夹及子文件夹下面所有的文件都引进查询,不仅如此,它还能获取文件创建日期、修改日期、文件大小、文件夹路径等。
由于我的工作成果都放在单独的一个分区里,所以,只要引入来自于这个分区的源即可。

时间这一块我选用的是文件修改时间而不是创建时间,原因在于某些不可知原因,有相当一部分文件的创建日期被修改为2019年5月21日。

那如何区分成果类型(方案和报告)呢?因为方案我都单独放到了一个文件夹,报告单独放在另一个文件夹。

如何区分数据文件和非数据文件呢?数据文件要么是Excel文件(xlsx或xls结尾),要么是csv文件。