前面介绍的分布描述量,比如期望和方差,都是基于单一随机变量的。现在考虑多个随机变量的情况。我们使用联合分布来表示定义在同一个样本空间的多个随机变量的概率分布。

协方差

协方差(covariance)表达了两个随机变量的协同变化关系。

举例

举个例子,学生的身高为随机变量 X,体重为随机变量 Y。
一般来说,当身高较高时,体重也较重;当身高较低时,体重较轻。

我们把 X 与 Y 之间的协方差公式写作:
协方差与相关系数 - 图1

那么,
协方差与相关系数 - 图2,X 与 Y 正相关,(身高与体重)
协方差与相关系数 - 图3,X 与 Y 负相关,(降雨量与光照量)
协方差与相关系数 - 图4,X 与 Y 不相关。(两个指标没有关系)

方差求和公式

两个随机变量的方差的和
协方差与相关系数 - 图5

两个随机变量方差的和 = X 随机变量的方差 + Y 随机变量的方差 + 2 倍的协方差
当两个随机变量相互独立,也就是 协方差与相关系数 - 图6 的时候,那么两者方差的和就是 协方差与相关系数 - 图7

相关系数

正的协方差表达了正相关性,负的协方差表达了负相关性。对于同样的两个随机变量来说,计算出的协方差越大,相关性越强。

但随后一个问题,身高和体重的协方差为30,这究竟是多大的一个量呢?如果我们又发现,身高与鞋号的协方差为5,是否说明,相对于鞋号,身高与体重的的相关性更强呢?

这样横向对比超出了协方差的能力范围。从日常生活经验来说,体重的上下浮动大约为20kg,而鞋号的上下浮动大约可能只是5个号码。所以,对于体重来说,5kg与中心的偏离并不算大,而5个号码的鞋号差距,就可能是最极端的情况了。假设身高和体重的相关强度,与身高和鞋码的相关强度类似,但由于体重本身的数值上下浮动更大,所计算出的协方差也会更大。另一个情况,依然是计算身高与体重的协方差。数据完全不变,而只更改单位。我们的体重用克而不是千克做单位,计算出的协防差是原来数值的1000倍!

为了能进行这样的横向对比,我们需要排除用统一的方式来定量某个随机变量的上下浮动。这时,我们计算相关系数(correlation coefficient)。相关系数是“归一化”的协方差。它的定义如下:

协方差与相关系数 - 图8

相关系数是用协方差除以两个随机变量的标准差。相关系数的大小在-1和1之间变化。再也不会出现因为计量单位变化,而数值暴涨的情况了。这样一个“归一化”了的相关系数,更容易让人把握到相关性的强弱,也更容易在不同随机变量之间,做相关性的横向比较。


参考文献: