Python VS Excel - (二十四)：连续区域 - 《数据分析》

(二十四)：连续区域 - 图1

此系列文章收录在公众号中：数据大宇宙 > 数据处理 >E-pd

经常听别人说 Python 在数据领域有多厉害，结果学了很长时间，连数据处理都麻烦得要死。后来才发现，原来不是 Python 数据处理厉害，而是他有数据分析神器—— pandas

前言

本系列上一节已经介绍了最简单的 shift 方法应用，这一节将结合其他技巧，解决诸如”某城市一年最大连续没下雨天数”的问题。

Excel 中的实现方式直观简单

如下一份简单的记录表：

(二十四)：连续区域 - 图2

按照惯例，先看看如果在 Excel 上是怎么得到结果：

(二十四)：连续区域 - 图3

后面的条件筛选+分组不再用 Excel 操作了(因为操作比较麻烦)

pandas 中的对应实现

现在关键是怎么在 pandas 中完成上述 Excel 中的操作，实际非常简单：

(二十四)：连续区域 - 图4

接下来是分组统计，pandas 的分组其实不需要把辅助列加到 DataFrame 上的：

(二十四)：连续区域 - 图5

结果是需要得到其中 count 列的最大值的行：

(二十四)：连续区域 - 图6

总结

本文重点：

需要源码的小伙伴，公众号发送”数据处理”

觉得写得不错，点击右下方”在看”

如果希望从零开始学习 pandas ，那么可以看看我的 pandas 专栏。

扫描二维码

获取更多精彩

数据大宇宙

(二十四)：连续区域 - 图7