6.1 算术运算
算术运算就是基本的加减乘除,在Python中数值类型的任意两列可以直接进行加、减、乘、除运算,而且是对应元素进行加、减、乘、除运算。
两列相加的具体实现如下所示。

两列相减的具体实现如下所示。

两列相乘的具体实现如下所示。

两列相除的具体实现如下所示。

任意一列加/减一个常数值,这一列中的所有值都加/减这个常数值。
任意一列乘/除一个常数值,这一列中的所有值都乘/除这一常数值。

6.2 比较运算
比较运算和Python基础知识中讲到的比较运算一致,也是常规的大于、等于、小于之类的,只不过这里的比较是在列与列之间进行的。

6.3 汇总运算
上面讲到的算术运算和比较运算都是在列与列之间进行的,运算结果是有多少行的值就会返回多少个结果,而汇总运算是将数据进行汇总返回一个汇总以后的结果值。
6.3.1 count非空值计数
非空值计数就是计算某一个区域中非空(单元格)数值的个数。
在 Python 中,直接在整个数据表上调用 count()函数,返回的结果为该数据表中每列的非空值的个数,具体实现如下所示。

count()函数默认是求取每一列的非空数值的个数,可以通过修改axis参数让其等于1,来求取每一行的非空数值的个数。

也可以把某一列或者某一行索引出来,单独查看这一列或这一行的非空值个数。

6.3.2 sum求和
求和就是对某一区域中的所有数值进行加和操作。
在Python中,直接在整个数据表上调用sum()函数,返回的是该数据表每一列的求和结果。

sum()函数默认对每一列进行求和,可通过修改axis参数,让其等于1,来对每一行的数值进行求和操作。

也可以把某一列或者某一行索引出来,单独对这一列或这一行数据进行求和操作。

6.3.3 mean求均值
求均值是针对某一区域中的所有值进行求算术平均值运算。均值是用来衡量数据一般情况的指标,容易受到极大值、极小值的影响。
在Python中的求均值利用的是mean()函数,如果对整个表直接调用mean()函数,返回的是该表中每一列的均值。

mean()函数默认是对数据表中的每一列进行求均值运算,可通过修改 axis 参数,让其等于1,来对每一行进行求均值运算。

也可以把某一列或者某一行通过索引的方式取出来,然后在这一行或这一列上调用mean()函数,单独求取这一行或这一列的均值。

6.3.4 max求最大值
求最大值就是比较一组数据中所有数值的大小,然后返回最大的一个值。在Python中,和其他函数一样,如果对整个表直接调用max()函数,则返回该数据表中每一列的最大值。max()函数也可以对每一行求最大值,还可以单独对某一行或某一列求最大值。

6.3.5 min求最小值
在Python中都使用min()函数来求最小值,它的使用方法与求最大值的类似。

6.3.6 median求中位数
中位数就是将一组含有n个数据的序列X按从小到大排列,位于中间位置的那个数。
中位数是以中间位置的数来反映数据的一般情况,不容易受到极大值、极小值的影响,因而在反映数据分布情况上要比平均值更有代表性。
现有序列为X:{X1、X2、X3、……、Xn}。如果n为奇数,则中位数:
如果n为奇数,则中位数:

如果n为偶数,则中位数:


6.3.7 mode求众数
顾名思义,众数就是一组数据中出现次数最多的数,求众数就是返回这组数据中出现次数最多的那个数。在Python中求众数都使用mode()函数,使用原则与其他函数完全一致。
6.3.8 var求方差
方差是用来衡量一组数据的离散程度(即数据波动幅度)的。在Python中求一组数据中的方差都使用var()函数。

6.3.9 std求标准差
标准差是方差的平方根,二者都是用来表示数据的离散程度的。
在Python中计算标准差使用的是std()函数,std()函数的使用原则与其他函数的一致。

6.3.10 quantile求分位数
分位数是比中位数更加详细的基于位置的指标,分位数主要有四分之一分位数、四分之二分位数、四分之三分位数,而四分之二分位数就是中位数。
在Python中求分位数用的是quantile()函数,要在quantile后的括号中指明要求取的分位数值,quantile()函数与其他函数的使用规则相同。

6.4 相关性运算
相关性常用来衡量两个事物之间的相关程度,比如我们前面举的例子:啤酒与尿布二者的相关性很强。我们一般用相关系数来衡量两者的相关程度,所以相关性计算其实就是计算相关系数,比较常用的是皮尔逊相关系数。
在Python中求取相关系数用的是corr()函数。
还可以利用 corr()函数求取整个 DataFrame 表中各字段两两之间的相关性。
