Python VS Excel - (九)：复杂分列 - 《数据分析》

(九)：复杂分列 - 图1

经常听别人说 Python 在数据领域有多厉害，结果学了很长时间，连数据处理都麻烦得要死。后来才发现，原来不是 Python 数据处理厉害，而是他有数据分析神器—— pandas

前言

本系列有一篇文章是关于 pandas 实现 Excel 中的分列功能，后来有小伙伴问我，怎么实现 Excel 中固定列宽分列功能。这次就看看几个奇葩的数据案例。

案例1

某公司系统，有一 id 列，其中一部分是表示用户出生日期：

(九)：复杂分列 - 图2

Excel 上可以用分列功能：

(九)：复杂分列 - 图3

(九)：复杂分列 - 图4

pandas 中，我们不需要用 split ，而是直接用切片提取：

(九)：复杂分列 - 图5

df.str[4:12] 相当于 df.str.slice(4,12)

案例2

有些系统有时候不会太人性化，比如，id 中的日期的起始位置是不固定的：

(九)：复杂分列 - 图6

pandas 中的文本切片与 Python 中的切片一样，因此我们可以这样处理：

(九)：复杂分列 - 图7

案例3

这是一个”抬杠案例”：

(九)：复杂分列 - 图8

我们当然可以用正则表达式提取，这次我选用一种特别的方式完成：

(九)：复杂分列 - 图9

相信很多人不理解其中的原理，特别是其中的 sed 构造，看看下面的对应图：

(九)：复杂分列 - 图10

你 get 到了吗？

总结

需要源码的小伙伴，公众号发送”数据处理”

如果希望从零开始学习 pandas ，那么可以看看我的 pandas 专栏。

扫描二维码

获取更多精彩

壹伴编辑器

(九)：复杂分列 - 图11