期望

如果 随机变量数字特征 - 图1 是在概率空间随机变量数字特征 - 图2中的随机变量,那么它的期望值 随机变量数字特征 - 图3 的定义是:

  1. ![](https://cdn.nlark.com/yuque/__latex/f1c6436ff10c7d987b1802ce2a912715.svg#card=math&code=%5Cdisplaystyle%20%5Coperatorname%20%7BE%7D%20%28X%29%3D%5Cint%20_%7B%5COmega%20%7DX%5C%2C%5Cmathrm%20%7Bd%7D%20P&height=41&width=123)

并不是每一个随机变量都有期望值的,因为有的时候上述积分不存在。

如果两个随机变量的分布相同,则它们的期望值也相同。

如果 随机变量数字特征 - 图4离散的随机变量,输出值为随机变量数字特征 - 图5,和输出值相应的概率为 随机变量数字特征 - 图6(概率和为1)。
级数 随机变量数字特征 - 图7 绝对收敛,那么期望值 随机变量数字特征 - 图8 是一个无限数列的和。

随机变量数字特征 - 图9

如果 随机变量数字特征 - 图10连续的随机变量,存在一个相应的概率密度函数 随机变量数字特征 - 图11,若积分 随机变量数字特征 - 图12 绝对收敛,那么随机变量数字特征 - 图13 的期望值可以计算为:

  1. ![](https://cdn.nlark.com/yuque/__latex/eb34ad4a7c48075d0518a63238eb7de1.svg#card=math&code=%5Cdisplaystyle%20%5Coperatorname%20%7BE%7D%20%28X%29%3D%5Cint%20_%7B-%5Cinfty%20%7D%5E%7B%5Cinfty%20%7Dxf%28x%29%5C%2C%5Cmathrm%20%7Bd%7D%20x&height=43&width=160)

是针对于连续的随机变量的,与离散随机变量的期望值的算法同出一辙,由于输出值是连续的,所以把求和改成了积分。

方差

定义

方差(Variance),应用数学里的专有名词。在概率论和统计学中,一个随机变量的方差描述的是它的离散程度,也就是该变量离其期望值的距离。这里把复杂说白了,就是各个误差将之平方(而非取绝对值,使之肯定为正数),相加之后再除以总数,透过这样的方式来算出各个数据分布、零散(相对中心点)的程度。继续延伸的话,方差的正平方根称为该随机变量的标准差(此为相对各个数据点间)。

随机变量数字特征 - 图14 为服从分布 随机变量数字特征 - 图15 的随机变量, 如果 随机变量数字特征 - 图16 是随机变数 随机变量数字特征 - 图17 的期望值。 随机变量 随机变量数字特征 - 图18 或者分布 随机变量数字特征 - 图19方差为(均值随机变量数字特征 - 图20):

随机变量数字特征 - 图21

这个定义涵盖了连续、离散、或两者都有的随机变数。方差亦可当作是随机变数与自己本身的共变异数(或协方差):

随机变量数字特征 - 图22

离散随机变量的方差

如果随机变数X是具有机率质量函数的离散机率分布 随机变量数字特征 - 图23,则:

随机变量数字特征 - 图24

随机变量数字特征 - 图25 是其期望值:

随机变量数字特征 - 图26

连续随机变量的方差

如果随机变量 随机变量数字特征 - 图27 是连续分布,并对应至概率密度函数 随机变量数字特征 - 图28,则其方差为:

随机变量数字特征 - 图29

随机变量数字特征 - 图30 是其期望值
随机变量数字特征 - 图31

[1] https://zh.wikipedia.org/wiki/方差

标准差

定义

标准差(又称标准偏差、均方差,英语:Standard Deviation,缩写SD),数学符号 随机变量数字特征 - 图32(sigma),在概率统计中最常使用作为测量一组数值的离散程度之用。标准差定义:为方差开算术平方根,反映组内个体间的离散程度;标准差与期望值之比为标准离差率。测量到分布程度的结果,原则上具有两种性质:

  • 为非负数值(因为开平方后再做平方根);
  • 与测量资料具有相同单位(这样才能比对)。

一个总体的标准差或一个随机变量的标准差,及一个子集合样本数的标准差之间,有所差别。
**

总体标准差

随机变量数字特征 - 图33
上述公式可以如下代换而简化:

随机变量数字特征 - 图34

所以:
随机变量数字特征 - 图35

根号里面,亦即变异数 随机变量数字特征 - 图36 的简易口诀为:「平方和的平均」减去「平均的平方」。

[1] https://zh.wikipedia.org/wiki/標準差

协方差 Covariance

定义

协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
随机变量数字特征 - 图37

可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?
**

  • 你变大,同时我也变大,说明两个变量是同向变化的,这时协方差就是正的;
  • 你变大,同时我变小,说明两个变量是反向变化的,这时协方差就是负的;
  • 从数值来看,协方差的数值越大,两个变量同向程度也就越大,反之亦然。

性质

如果 随机变量数字特征 - 图38 随机变量数字特征 - 图39 是实数随机变量,随机变量数字特征 - 图40 随机变量数字特征 - 图41 是常数,那么根据协方差的定义可以得到以下性质:

随机变量数字特征 - 图42
随机变量数字特征 - 图43
随机变量数字特征 - 图44

对于随机变量序列 随机变量数字特征 - 图45随机变量数字特征 - 图46,有

随机变量数字特征 - 图47

对于随机变量序列 随机变量数字特征 - 图48,有
随机变量数字特征 - 图49

相关系数

在概率论和统计学中,相关(Correlation),显示两个随机变量之间线性关系的强度和方向。在统计学中,相关的意义是用来衡量两个变量相对于其相互独立的距离。在这个广义的定义下,有许多根据数据特点而定义的用来衡量数据相关的系数。

皮尔逊积矩相关系数 Pearson’s

相关性的度量有很多种,这里介绍一种最常用的皮尔逊积矩相关系数。在统计学中,皮尔逊积矩相关系数(英語:Pearson product-moment correlation coefficient,又称作 PPMCCPCCs,文章中常用r或Pearson’s r表示)用于度量两个变量X和Y之间的相关程度(线性相关),其值介于-1与1之间。在自然科学领域中,该系数广泛用于度量两个变量之间的线性相关程度。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来。这个相关系数也称作“皮尔森相关系数r”。

pearson 描述的是线性相关关系,取值[-1, 1]。负数表示负相关,正数表示正相关。在显著性的前提下,绝对值越大,相关性越强。绝对值为0, 无线性关系;绝对值为1表示完全线性相关。

相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。既然是一种特殊的协方差,那它:

  1. 也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。
  2. 由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。

总体相关系数

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差标准差的商:

随机变量数字特征 - 图50

上式定义了总体相关系数,常用希腊小写字母 随机变量数字特征 - 图51 作为代表符号。

样本相关系数

估算样本的协方差和标准差,可得到样本相关系数(样本皮尔逊系数),常用英文小写字母 随机变量数字特征 - 图52 代表:

随机变量数字特征 - 图53
随机变量数字特征 - 图54 亦可由随机变量数字特征 - 图55 样本点的标准分数均值估算,得到与上式等价的表达式:

随机变量数字特征 - 图56

其中随机变量数字特征 - 图57随机变量数字特征 - 图58随机变量数字特征 - 图59 分别是 随机变量数字特征 - 图60 样本的标准分数、样本平均值和样本标准差。

[1] https://zh.wikipedia.org/wiki/皮尔逊积矩相关系数 [2] https://www.zhihu.com/question/20852004/answer/134902061

斯皮尔曼等级相关系数 Spearman’s

衡量单调关系(无论是线性的还是非线性的)的标准,Spearman系数适用于连续和离散变量,包括序数变量(Ordinal variable)。

[1] https://zh.wikipedia.org/wiki/斯皮尔曼等级相关系数

Kendall 等级相关系数

是用于测量两个测量量之间的序数关联的统计量。与Spearman相关性相反,Kendall相关性不受彼此等级之间的距离的影响,而仅受观察之间的等级是否相等的影响,因此仅适用于离散变量但不适用于连续变量。

矩和协方差矩阵