中心趋势度量

均值 Mean 中位数 Median 众数 Mode 分位数 Quantile

离散程度

极差

Range

Statistics - 图1

平均绝对偏差

Medium Absolute Deviation

平均绝对偏差是表示各个变量值之间差异程度的数值之一。指各个变量值同平均数的的离差绝对值的算术平均数。
对于一个数据集

  1. ![](https://cdn.nlark.com/yuque/__latex/17f6f1120015e0afadfc0ef8bef4e1b5.svg#card=math&code=%5Cdisplaystyle%20X%3D%5C%7Bx_%7B1%7D%2Cx_%7B2%7D%2C%5Cdots%20%2Cx_%7Bn%7D%5C%7D&height=16&width=122),其平均绝对偏差定义为:

Statistics - 图2

其中

  1. ![](https://cdn.nlark.com/yuque/__latex/7b8b965ad4bca0e41ab51de7b31363a1.svg#card=math&code=n&height=9&width=8) 为数据集的大小,![](https://cdn.nlark.com/yuque/__latex/a442eb29c3d874f69a9710b52b3ee5f7.svg#card=math&code=m%28X%29&height=16&width=33) 是对于数据集中心趋势(central tendency)的描述函数,一般可以取均值(mean)、中位数(median)或者众数(mode),但需要注意的是,选取不同的中心描述函数对MAD的结果是有影响的。

[1] https://zh.wikipedia.org/wiki/平均差

四分位距

Inter-quartile Range, IQR

四分位距通常是用来构建箱形图,以及对概率分布的简要图表概述。对一个对称性分布数据(其中位数必然等于第三四分位数与第一四分位数的算术平均数),二分之一的四分差等于绝对中位差(MAD)。中位数是聚中趋势的反映。

  1. <br />![](https://cdn.nlark.com/yuque/__latex/c8353bc963f20cc63a24d60a835afcc8.svg#card=math&code=%5Cdisplaystyle%20%5Cmathrm%20%7BIQR%7D%20%3DQ_%7B3%7D-Q_%7B1%7D&height=14&width=94)

方差

Varaince

定义

方差(Variance),应用数学里的专有名词。在概率论和统计学中,一个随机变量的方差描述的是它的离散程度,也就是该变量离其期望值的距离。这里把复杂说白了,就是各个误差将之平方(而非取绝对值,使之肯定为正数),相加之后再除以总数,透过这样的方式来算出各个数据分布、零散(相对中心点)的程度。继续延伸的话,方差的正平方根称为该随机变量的标准差(此为相对各个数据点间)。

Statistics - 图3 为服从分布 Statistics - 图4 的随机变量, 如果 Statistics - 图5 是随机变数 Statistics - 图6 的期望值。 随机变量 Statistics - 图7 或者分布 Statistics - 图8方差为(均值Statistics - 图9):

Statistics - 图10

这个定义涵盖了连续、离散、或两者都有的随机变数。方差亦可当作是随机变数与自己本身的共变异数(或协方差):

  1. <br />![](https://cdn.nlark.com/yuque/__latex/09025eee782859f5f597c67cdf8fb077.svg#card=math&code=%5Cdisplaystyle%20%5Coperatorname%20%7BVar%7D%20%28X%29%3D%5Coperatorname%20%7BCov%7D%20%28X%2CX%29&height=16&width=125)

离散随机变量的方差

如果随机变数X是具有机率质量函数的离散机率分布 Statistics - 图11,则:

  1. ![](https://cdn.nlark.com/yuque/__latex/e01778ca4681d9bab2e61337fa3508f2.svg#card=math&code=%5Coperatorname%7BVar%7D%28X%29%20%3D%20%5Csum_%7Bi%3D1%7D%5En%20p_i%5Ccdot%28x_i%20-%20%5Cmu%29%5E2%20%3D%20%5Csum_%7Bi%3D1%7D%5En%20%28p_i%5Ccdot%20x_i%5E2%29%20-%20%5Cmu%5E2&height=40&width=273)

Statistics - 图12 是其期望值:

Statistics - 图13

连续随机变量的方差

如果随机变量 Statistics - 图14 是连续分布,并对应至概率密度函数 Statistics - 图15,则其方差为:

Statistics - 图16

Statistics - 图17 是其期望值
Statistics - 图18

[1] https://zh.wikipedia.org/wiki/方差

标准差

Standard Deviation

定义

标准差(又称标准偏差、均方差,英语:Standard Deviation,缩写SD),数学符号 Statistics - 图19(sigma),在概率统计中最常使用作为测量一组数值的离散程度之用。标准差定义:为方差开算术平方根,反映组内个体间的离散程度;标准差与期望值之比为标准离差率。测量到分布程度的结果,原则上具有两种性质:

  • 为非负数值(因为开平方后再做平方根);
  • 与测量资料具有相同单位(这样才能比对)。

一个总体的标准差或一个随机变量的标准差,及一个子集合样本数的标准差之间,有所差别。
**

总体标准差

Statistics - 图20
上述公式可以如下代换而简化:

              <br />![](https://cdn.nlark.com/yuque/__latex/16caa35bccab4d183633932a91c40209.svg#card=math&code=%7B%5Cdisplaystyle%20%0A%7B%5Cbegin%7Baligned%7D%5Csum%20_%7Bi%3D1%7D%5E%7BN%7D%28X_%7Bi%7D-%5Cmu%20%29%5E%7B2%7D%26%3D%7B%7D%5Csum%20%0A_%7Bi%3D1%7D%5E%7BN%7D%28X_%7Bi%7D%5E%7B2%7D-2X_%7Bi%7D%5Cmu%20%2B%5Cmu%20%5E%7B2%7D%29%5C%5C%26%7B%7D%3D%5Cleft%28%5Csum%20%0A_%7Bi%3D1%7D%5E%7BN%7DX_%7Bi%7D%5E%7B2%7D%5Cright%29-%5Cleft%282%5Cmu%20%5Csum%20_%7Bi%3D1%7D%5E%7BN%7DX_%7Bi%7D%5Cright%29%2BN%5Cmu%20%0A%5E%7B2%7D%5C%5C%26%7B%7D%3D%5Cleft%28%5Csum%20_%7Bi%3D1%7D%5E%7BN%7DX_%7Bi%7D%5E%7B2%7D%5Cright%29-2%5Cmu%20%28N%5Cmu%20%29%2BN%5Cmu%20%0A%5E%7B2%7D%5C%5C%26%7B%7D%3D%5Cleft%28%5Csum%20_%7Bi%3D1%7D%5E%7BN%7DX_%7Bi%7D%5E%7B2%7D%5Cright%29-2N%5Cmu%20%5E%7B2%7D%2BN%5Cmu%20%0A%5E%7B2%7D%5C%5C%26%7B%7D%3D%5Cleft%28%5Csum%20_%7Bi%3D1%7D%5E%7BN%7DX_%7Bi%7D%5E%7B2%7D%5Cright%29-N%5Cmu%20%0A%5E%7B2%7D%5Cend%7Baligned%7D%7D%7D&height=220&width=296)

所以:

![](https://cdn.nlark.com/yuque/__latex/6b62cdf1237c9a67171ef5cd5a20e28b.svg#card=math&code=%7B%5Cdisplaystyle%20%5Csigma%20%3D%7B%5Csqrt%20%7B%7B%5Cfrac%20%7B1%7D%7BN%7D%7D%5Csum%20_%7Bi%3D1%7D%5E%7BN%7D%28X_%7Bi%7D-%5Cmu%20%29%5E%7B2%7D%7D%7D%7D%0A%0A%3D%20%5Csqrt%7B%5Cfrac%7B1%7D%7BN%7D%20%5Cleft%28%5Csum_%7Bi%3D1%7D%5EN%20X_i%5E2%5Cright%29%20-%20%5Cfrac%7B1%7D%7BN%7DN%5Cmu%5E2%7D%20%0A%0A%7B%5Cdisplaystyle%20%3D%7B%5Csqrt%20%7B%7B%5Cfrac%20%7B1%7D%7BN%7D%7D%5Cleft%28%5Csum%20_%7Bi%3D1%7D%5E%7BN%7DX_%7Bi%7D%5E%7B2%7D%5Cright%29-%7B%5Cfrac%20%7B1%7D%7BN%7D%7DN%5Cmu%20%5E%7B2%7D%7D%7D%7D&height=47&width=475)

根号里面,亦即变异数 Statistics - 图21 的简易口诀为:「平方和的平均」减去「平均的平方」。

[1] https://zh.wikipedia.org/wiki/標準差

相关程度

协方差 Covariance

定义

协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
Statistics - 图22

可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?
**

  • 你变大,同时我也变大,说明两个变量是同向变化的,这时协方差就是正的;
  • 你变大,同时我变小,说明两个变量是反向变化的,这时协方差就是负的;
  • 从数值来看,协方差的数值越大,两个变量同向程度也就越大,反之亦然。

性质

如果 Statistics - 图23 Statistics - 图24 是实数随机变量,Statistics - 图25 Statistics - 图26 是常数,那么根据协方差的定义可以得到以下性质:

Statistics - 图27
Statistics - 图28
Statistics - 图29

对于随机变量序列 Statistics - 图30Statistics - 图31,有

Statistics - 图32

对于随机变量序列 Statistics - 图33,有
Statistics - 图34

相关系数

在概率论和统计学中,相关(Correlation),显示两个随机变量之间线性关系的强度和方向。在统计学中,相关的意义是用来衡量两个变量相对于其相互独立的距离。在这个广义的定义下,有许多根据数据特点而定义的用来衡量数据相关的系数。

皮尔逊积矩相关系数 Pearson’s

相关性的度量有很多种,这里介绍一种最常用的皮尔逊积矩相关系数。在统计学中,皮尔逊积矩相关系数(英語:Pearson product-moment correlation coefficient,又称作 PPMCCPCCs,文章中常用r或Pearson’s r表示)用于度量两个变量X和Y之间的相关程度(线性相关),其值介于-1与1之间。在自然科学领域中,该系数广泛用于度量两个变量之间的线性相关程度。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来。这个相关系数也称作“皮尔森相关系数r”。

pearson 描述的是线性相关关系,取值[-1, 1]。负数表示负相关,正数表示正相关。在显著性的前提下,绝对值越大,相关性越强。绝对值为0, 无线性关系;绝对值为1表示完全线性相关。

相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。既然是一种特殊的协方差,那它:

  1. 也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。
  2. 由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。

总体相关系数

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差标准差的商:

Statistics - 图35

上式定义了总体相关系数,常用希腊小写字母 Statistics - 图36 作为代表符号。

样本相关系数

估算样本的协方差和标准差,可得到样本相关系数(样本皮尔逊系数),常用英文小写字母 Statistics - 图37 代表:

Statistics - 图38

Statistics - 图39 亦可由Statistics - 图40 样本点的标准分数均值估算,得到与上式等价的表达式:

Statistics - 图41

其中Statistics - 图42Statistics - 图43Statistics - 图44 分别是 Statistics - 图45 样本的标准分数、样本平均值和样本标准差。

[1] https://zh.wikipedia.org/wiki/皮尔逊积矩相关系数 [2] https://www.zhihu.com/question/20852004/answer/134902061

斯皮尔曼等级相关系数 Spearman’s

衡量单调关系(无论是线性的还是非线性的)的标准,Spearman系数适用于连续和离散变量,包括序数变量(Ordinal variable)。

[1] https://zh.wikipedia.org/wiki/斯皮尔曼等级相关系数

Kendall 等级相关系数

是用于测量两个测量量之间的序数关联的统计量。与Spearman相关性相反,Kendall相关性不受彼此等级之间的距离的影响,而仅受观察之间的等级是否相等的影响,因此仅适用于离散变量但不适用于连续变量。

假设检验

中心极限定理