1、方差、标准差、协方差
(1)方差、标准差
- 方差是衡量源数据和期望值相差的度量值,即度量随机变量和其数学期望(即均值)之间的偏离程度
- 方差(样本方差需除以)是实际值与期望值(平均数)之差的平方的平均值,而标准差是方差算术平方根。
- x:样本的平均数
- n:样本的数量
- :个体
- :方差
- 当用作为样本 X 的方差的估计时,发现其数学期望并不是 X 的方差,而是 X 方差的倍,的数学期望才是 X 的方差,用它作为 X 的方差的估计具有 “无偏性”,所以总是用来估计 X 的方差,并且把它叫做 “样本方差”。
- 方差是和中心偏离的程度,用来衡量一批数据的波动大小(即这批数据偏离平均数的大小)并把它叫做这组数据的方差,记作。
- 在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定。
- 公式可以进一步推导为:
- 协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。方差是协方差的一种特殊情况,即当两个变量是相同的情况。
- 协方差表示两个变量的总体的误差,这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致(即:如果其中一个大于自身的期望值,另外一个也大于自身的期望值),那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反(即:其中一个大于自身的期望值,另外一个却小于自身的期望值),那么两个变量之间的协方差就是负值。
- 期望值分别为与的两个实随机变量与之间的协方差定义为
- 从直观上看,协方差表示两个变量总体误差的期望(即均值)。
- 如果与是统计独立的,那么二者之间的协方差就是 0,因为两个独立的随机变量满足。
- 反过来并不成立:如果与的协方差为 0,二者并不一定是统计独立的。
- 协方差的度量单位是的协方差乘以的协方差。
- 协方差为 0 的两个随机变量称为是不相关的。
- 若两个随机变量与相互独立,则,因而若该数学期望不为零,则与必不是相互独立的,即它们之间存在着一定的关系。
- 协方差与方差之间有如下关系:
- 协方差与期望值有如下关系:
- 协方差的性质:
- ,(a,b 是常数)
- 协方差作为描述与相关程度的量,在同一物理量纲之下有一定的作用,但同样的两个量采用不同的量纲时它们的协方差在数值上表现出很大的差异。为此引入如下概念:
- 称为随机变量与的 Pearson 相关系数。
- 若,则称与不线性相关。
- 即的充分必要条件是,即不线性相关和协方差为零是等价的。
- 定理
- 设是随机变量与的相关系数,则有
- 充分必要条件为,(a, b 为常数,a≠0)
- 定义
- 充分必要条件为,(a, b 为常数,a≠0)
- 设与是随机变量,若存在,则称它为 X 的 k 阶原点矩,简称 k 阶矩。
- 若存在,则称它为 X 的 k 阶中心矩。
- 若存在,则称它为 X 和 Y 的 k+p 阶混合原点矩。
- 若存在,则称它为 X 和 Y 的 k+l 阶混合中心矩。
- 显然,X 的数学期望 E(X) 是 X 的一阶原点矩,方差 D(X) 是 X 的二阶中心矩,协方差 Cov(X,Y) 是 X 和 Y 的二阶混合中心矩。
- 对于随机变量序列与,有
- 对于随机变量序列,有
(a)矩阵
- 分别为 m 与 n 个标量元素的列向量随机变量 X 与 Y,这两个变量之间的协方差定义为矩阵。其中 X 包含变量,Y 包含变量,假设的期望值为,的期望值为,那么在协方差矩阵中 (1,2) 的元素就是和的协方差。
- 两个向量变量的协方差与互为转置矩阵。
协方差有时也称为是两个随机变量之间“线性独立性”的度量,但是这个含义与线性代数中严格的线性独立性不同。
(b)应用
协方差在农业上的应用
- 农业科学实验中,经常会出现可以控制的质量因子和不可以控制的数量因子同时影响实验结果的情况,这时就需要采用协方差分析的统计处理方法,将质量因子与数量因子(也称协变量)综合起来加以考虑。
- 比如,要研究 3 种肥料对苹果产量的实际效应,而各棵苹果树头年的“基础产量”不一致,但对试验结果又有一定的影响。要消除这一因素带来的影响,就需将各棵苹果树第 1 年年产量这一因素作为协变量进行协方差分析,才能得到正确的实验结果。
- 当两个变量相关时,用于评估它们因相关而产生的对应变量的影响。
- 当多个变量独立时,用方差来评估这种影响的差异。
-
2、相关系数(correlation coefficient)
相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,研究变量之间的线性相关程度,一般用字母
r
表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。- 相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间的相关程度。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度。
- 此处着重研究线性的单相关系数。
- 皮尔逊相关系数是最常见的相关系数(并不是唯一的相关系数),以下解释都是针对皮尔逊相关系数。
- 依据相关现象之间的不同特征,其统计指标的名称有所不同,如:
- 相关系数:反映两变量间线性相关关系的统计指标(相关系数的平方称为判定系数)
- 非线性相关系数、非线性判定系数:反映两变量间曲线相关关系的统计指标
- 复相关系数、复判定系数:反映多元线性相关关系的统计指标
- 简单相关系数(相关系数、线性相关系数),一般用字母
r
表示,用来度量两个变量间的线性关系。 - 复相关系数(多重相关系数)。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。
- 典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性关系的综合指标,再通过综合指标之间的线性相关系数来研究原各组变量间相关关系。
- ,是一个可以表征和之间线性关系紧密程度的量。它具有两个性质:
- 的充要条件是,存在常数 a,b,使得
- 由性质衍生:
- 相关系数定量地刻画了 X 和 Y 的相关程度,即越大,相关程度越大;对应相关程度最低。
- X 和 Y 完全相关的含义是在概率为 1 的意义下存在线性关系,于是 是一个可以表征 X 和 Y 之间线性关系紧密程度的量。当 较大时,通常说X 和Y相关程度较好;当 较小时,通常说X和Y相关程度较差;当X和Y不相关,通常认为X和Y之间不存在线性关系,但并不能排除X和Y之间可能存在其他关系。
不相关和独立
研究相关关系的直观工具。在进行详细的定量分析之前,可利用相关图对现象之间存在的相关关系的方向、形式和密切程度进行大致的判断。它是以直角坐标系的横轴代表变量 X,纵轴代表变量 Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。变量之间的相关关系可以简单分为四种表现形式:正线性相关、负线性相关、非线性相关和不相关,从图形上各点的分散程度即可判断两变量间关系的密切程度。
- 正线性强相关
- 正线性弱相关
- 负线性强相关
- 负线性弱相关
- 曲线相关(非线性相关)
- 无线性相关:y 不随 x 增减呈线性关系
(2)相关度的划分
- 按相关程度划分
- 完全相关、不完全相关、不相关
- 按变量多少划分
- 单相关:两个变量间的相关,即一个变量对另一个变量的相关关系,单相关关系只有一个自变量。
- 复相关:当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。复相关关系有多个自变量。例如,某种商品的需求量与该商品价格以及消费者收人水平之间的相关关系便属于复相关。
- 偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量的相关关系称为偏相关。如在上例中,若假定在消费者收入水平不变的条件下,商品需求量与其价格水平的关系就是偏相关关系。
- 按相关方向划分
- 正相关:两个变量的变化同方向。例如,居民的消费支出随着居民收入水平的提高而提高。
- 负相关:当两个变量的变化反方向时,这种反方向变动的关系称为负相关。例如,一定范围内,商品生产的规模越大,单位产品成本会越低。
按相关形式划分
在自然科学领域中,皮尔逊相关系数广泛用于度量两个变量之间的相关程度,其值介于 -1 与 1 之间。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。这个相关系数也称作“皮尔逊积矩相关系数”。
- 皮尔逊相关系数举例
- 上图中,几组的点集,以及各个点集中和之间的相关系数。我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向(第一排),而不是相关性的斜率(中间),也不是各种非线性关系(第三排)。请注意:中间的图中斜率为0,但相关系数是没有意义的,因为此时变量是0。
- 两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
- 上式定义了总体相关系数,常用希腊小写字母作为代表符号。估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母 代表:
- 亦可由 样本点的标准分数均值估计,得到与上式等价的表达式:
- 其中 、 及 分别是对 样本的标准分数、样本平均值和样本标准差。
- 总体和样本皮尔逊系数的绝对值小于或等于1。如果样本数据点精确的落在直线上(计算样本皮尔逊系数的情况),或者双变量分布完全在直线上(计算总体皮尔逊系数的情况),则相关系数等于1或-1。皮尔逊系数是对称的:
- 皮尔逊相关系数有一个重要的数学特性是,因两个变量的位置和尺度的变化并不会引起该系数的改变,即它该变化的不变量(由符号确定)。也就是说,我们如果把移动到和把Y移动到,其中a、b、c和d是常数,并不会改变两个变量的相关系数(该结论在总体和样本皮尔逊相关系数中都成立)。我们发现更一般的线性变换则会改变相关系数:
- 由于 , , 也类似, 并且
- 故相关系数也可以表示成
- 对于样本皮尔逊相关系数:
- 由于 , , 也类似, 并且
- 以上方程给出了计算样本皮尔逊相关系数简单的单流程算法,但是其依赖于涉及到的数据,有时它可能是数值不稳定的。
- 皮尔逊相关系数的变化范围为-1到1。 系数的值为1意味着X和Y可以很好的由直线方程来描述,所有的数据点都很好的落在一条直线上,且随着 的增加而增加。系数的值为−1意味着所有的数据点都落在直线上,且随着的增加而减少。系数的值为0意味着两个变量之间没有线性关系。
- 更一般的, 我们发现,当且仅当 和 均落在他们各自的均值的同一侧, 则 的值为正。 也就是说,如果 和 同时趋向于大于,或同时趋向于小于他们各自的均值,则相关系数为正。 如果 和 趋向于落在他们均值的相反一侧,则相关系数为负。
- 几何学的解释
- 对于没有中心化的数据, 相关系数与两条可能的回归线和 夹角的余弦值一致。
- 对于中心化过的数据 (也就是说, 数据移动一个样本平均值以使其均值为0), 相关系数也可以被视作由两个随机变量向量夹角 的余弦值。
- 一些人倾向于使用非中心化的相关系数, 比较如下:
- 例如,有5个国家的国民生产总值分别为 10, 20, 30, 50 和 80 亿美元。 假设这5个国家 (顺序相同) 的贫困百分比分别为 11%, 12%, 13%, 15%, and 18% 。 令x和y分别为包含上述5个数据的向量:x= (1, 2, 3, 5, 8) 和y= (0.11, 0.12, 0.13, 0.15, 0.18)。
- 利用通常的方法计算两个向量之间的夹角,未中心化的相关系数是:
- 我们发现以上的数据特意选定为完全相关:。 于是,皮尔逊相关系数应该等于1。将数据中心化 (通过移动和通过 移动) 得到和从中,
- 几何解释——皮尔逊相关系数
- 说明:图中,回归直线: [红色] 和 [蓝色]
- 皮尔逊距离
- 皮尔逊距离度量的是两个变量X和Y,它可以根据皮尔逊系数定义成我们可以发现,皮尔逊系数落在,而皮尔逊距离落在。
- 样本相关系数的平方, 亦称作coefficient of determination, 利用简单线性回归估计由引起的的变化。 一开始,围绕它们平均值上的变化可以分解成
- 其中 是作回归分析时的适应值。 整理后得
- 两个被加数是由(右边)引起的的变化和不是由(左边) 引起的变化。
- 接下来, 我们利用最小方差回归模型, 使和 的样本协方差为0。 于是,观测数据和适应值的样本相关系数可以被写成
- 于是
-
(4)应用示例
软件公司在全国有许多代理商,为研究它的财务软件产品的广告投入与销售额的关系,统计人员随机选择10家代理商进行观察,搜集到年广告投入费和月平均销售额的数据,并编制成相关表: | 年广告费投入 | 12.5 | 15.3 | 23.2 | 26.4 | 33.5 | 34.4 | 39.4 | 45.2 | 55.4 | 60.9 | | —- | —- | —- | —- | —- | —- | —- | —- | —- | —- | —- | | 月均销售额 | 21.2 | 23.9 | 32.9 | 34.1 | 42.5 | 43.2 | 49.0 | 52.8 | 59.4 | 63.5 |
参照表1,可计算相关系数: | 序号 | 广告投入(万元)
x | 月均销售额(万元)
y |
|
|
| | —- | —- | —- | —- | —- | —- | | 1
2
3
4
5
6
7
8
9
10 | 12.5
15.3
23.2
26.4
33.5
34.4
39.4
45.2
55.4
60.9 | 21.2
23.9
32.9
34.1
42.5
43.2
49.0
52.8
59.4
63.5 | 156.25
234.09
538.24
696.96
1122.25
1183.36
1552.36
2043.04
3069.16
3708.81 | 449.44
571.21
1082.41
1162.81
1806.25
1866.24
2401.00
2787.84
3528.36
4032.25 | 265.00
365.67
763.28
900.24
1423.75
1486.08
1930.60
2386.56
3290.76
3867.15 | | 合计 | 346.2 | 422.5 | 14304.52 | 19687.81 | 16679.09 |相关系数为0.9942,说明广告投入费与月平均销售额之间有高度的线性正相关关系。
(a)概率论
若将一枚硬币抛n次,X表示n次试验中出现正面的次数,Y表示n次试验中出现反面的次数。计算ρXY。
一种新产品上市。在上市之前,公司的物流部需把新产品合理分配到全国的 10 个仓库,新品上市一个月后,要评估实际分配方案与之前考虑的其他分配方案中,是实际分配方案好还是其中尚未使用的分配方案更好,通过这样的评估,可以在下一次的新产品上市使用更准确的产品分配方案,以避免由于分配而产生的积压和断货。表1是根据实际数据所列的数表。
通过计算,很容易得出这 3 个分配方案中,B 的相关系数是最大的,这样就评估到B的分配方案比实际分配方案A更好,在下一次的新产品上市分配计划中,就可以考虑用B这种分配方法来计算实际分配方案。
(c)聚类分析
如果有若干个样品,每个样品有n个特征,则相关系数可以表示两个样品间的相似程度。借此,可以对样品的亲疏远近进行距离聚类。例如9个小麦品种(分别用_A_1,_A_2,…,_A_9表示)的6个性状资料见表2,作相关系数计算并检验。
由相关系数计算公式可计算出6个性状间的相关系数,分析及检验结果见表3。由表3可以看出,冬季分蘖与每穗粒数之间呈现负相关(ρ = − 0.8982),即麦冬季分蘖越多,那么每穗的小麦粒数越少,其他性状之间的关系不显著。
(5)相关系数的缺点
需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。