6.1 算术运算

算术运算就是基本的加减乘除,在Python中数值类型的任意两列可以直接进行加、减、乘、除运算,而且是对应元素进行加、减、乘、除运算。

两列相加的具体实现如下所示。

6.数据运算 - 图1

两列相减的具体实现如下所示。

6.数据运算 - 图2

两列相乘的具体实现如下所示。

6.数据运算 - 图3

两列相除的具体实现如下所示。

6.数据运算 - 图4

任意一列加/减一个常数值,这一列中的所有值都加/减这个常数值。

任意一列乘/除一个常数值,这一列中的所有值都乘/除这一常数值。

6.数据运算 - 图5

6.2 比较运算

比较运算和Python基础知识中讲到的比较运算一致,也是常规的大于、等于、小于之类的,只不过这里的比较是在列与列之间进行的。

6.数据运算 - 图6

6.3 汇总运算

上面讲到的算术运算和比较运算都是在列与列之间进行的,运算结果是有多少行的值就会返回多少个结果,而汇总运算是将数据进行汇总返回一个汇总以后的结果值。

6.3.1 count非空值计数

非空值计数就是计算某一个区域中非空(单元格)数值的个数。

在 Python 中,直接在整个数据表上调用 count()函数,返回的结果为该数据表中每列的非空值的个数,具体实现如下所示。

6.数据运算 - 图7

count()函数默认是求取每一列的非空数值的个数,可以通过修改axis参数让其等于1,来求取每一行的非空数值的个数。

6.数据运算 - 图8

也可以把某一列或者某一行索引出来,单独查看这一列或这一行的非空值个数。

6.数据运算 - 图9

6.3.2 sum求和

求和就是对某一区域中的所有数值进行加和操作。

在Python中,直接在整个数据表上调用sum()函数,返回的是该数据表每一列的求和结果。

6.数据运算 - 图10

sum()函数默认对每一列进行求和,可通过修改axis参数,让其等于1,来对每一行的数值进行求和操作。

6.数据运算 - 图11

也可以把某一列或者某一行索引出来,单独对这一列或这一行数据进行求和操作。

6.数据运算 - 图12

6.3.3 mean求均值

求均值是针对某一区域中的所有值进行求算术平均值运算。均值是用来衡量数据一般情况的指标,容易受到极大值、极小值的影响。

在Python中的求均值利用的是mean()函数,如果对整个表直接调用mean()函数,返回的是该表中每一列的均值。

6.数据运算 - 图13

mean()函数默认是对数据表中的每一列进行求均值运算,可通过修改 axis 参数,让其等于1,来对每一行进行求均值运算。

6.数据运算 - 图14

也可以把某一列或者某一行通过索引的方式取出来,然后在这一行或这一列上调用mean()函数,单独求取这一行或这一列的均值。

6.数据运算 - 图15

6.3.4 max求最大值

求最大值就是比较一组数据中所有数值的大小,然后返回最大的一个值。在Python中,和其他函数一样,如果对整个表直接调用max()函数,则返回该数据表中每一列的最大值。max()函数也可以对每一行求最大值,还可以单独对某一行或某一列求最大值。

6.数据运算 - 图16

6.3.5 min求最小值

在Python中都使用min()函数来求最小值,它的使用方法与求最大值的类似。

6.数据运算 - 图17

6.3.6 median求中位数

中位数就是将一组含有n个数据的序列X按从小到大排列,位于中间位置的那个数。

中位数是以中间位置的数来反映数据的一般情况,不容易受到极大值、极小值的影响,因而在反映数据分布情况上要比平均值更有代表性。

现有序列为X:{X1、X2、X3、……、Xn}。如果n为奇数,则中位数:

如果n为奇数,则中位数:

6.数据运算 - 图18

如果n为偶数,则中位数:

6.数据运算 - 图19

6.数据运算 - 图20

6.3.7 mode求众数

顾名思义,众数就是一组数据中出现次数最多的数,求众数就是返回这组数据中出现次数最多的那个数。在Python中求众数都使用mode()函数,使用原则与其他函数完全一致。

6.3.8 var求方差

方差是用来衡量一组数据的离散程度(即数据波动幅度)的。在Python中求一组数据中的方差都使用var()函数。

6.数据运算 - 图21

6.3.9 std求标准差

标准差是方差的平方根,二者都是用来表示数据的离散程度的。

在Python中计算标准差使用的是std()函数,std()函数的使用原则与其他函数的一致。

6.数据运算 - 图22

6.3.10 quantile求分位数

分位数是比中位数更加详细的基于位置的指标,分位数主要有四分之一分位数、四分之二分位数、四分之三分位数,而四分之二分位数就是中位数。

在Python中求分位数用的是quantile()函数,要在quantile后的括号中指明要求取的分位数值,quantile()函数与其他函数的使用规则相同。

6.数据运算 - 图23

6.4 相关性运算

相关性常用来衡量两个事物之间的相关程度,比如我们前面举的例子:啤酒与尿布二者的相关性很强。我们一般用相关系数来衡量两者的相关程度,所以相关性计算其实就是计算相关系数,比较常用的是皮尔逊相关系数。

在Python中求取相关系数用的是corr()函数。

还可以利用 corr()函数求取整个 DataFrame 表中各字段两两之间的相关性。