1、方差、标准差、协方差

(1)方差、标准差

  • 方差是衡量源数据和期望值相差的度量值,即度量随机变量和其数学期望(即均值)之间的偏离程度

(00)基本数学概念 - 图1

  • 方差(样本方差需除以(00)基本数学概念 - 图2)是实际值与期望值(平均数)之差的平方的平均值,而标准差是方差算术平方根。

(00)基本数学概念 - 图3

  • x:样本的平均数
  • n:样本的数量
  • (00)基本数学概念 - 图4:个体
  • (00)基本数学概念 - 图5:方差
    • 当用(00)基本数学概念 - 图6作为样本 X 的方差的估计时,发现其数学期望并不是 X 的方差,而是 X 方差的(00)基本数学概念 - 图7倍,(00)基本数学概念 - 图8的数学期望才是 X 的方差,用它作为 X 的方差的估计具有 “无偏性”,所以总是用(00)基本数学概念 - 图9来估计 X 的方差,并且把它叫做 “样本方差”。
    • 方差是和中心偏离的程度,用来衡量一批数据的波动大小(即这批数据偏离平均数的大小)并把它叫做这组数据的方差,记作(00)基本数学概念 - 图10
    • 在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定。
    • 公式可以进一步推导为:

(00)基本数学概念 - 图11

  • x:这组数据中的数据
  • n:大于 0 的整数

    (2)协方差

  • 协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。方差是协方差的一种特殊情况,即当两个变量是相同的情况。
  • 协方差表示两个变量的总体的误差,这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致(即:如果其中一个大于自身的期望值,另外一个也大于自身的期望值),那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反(即:其中一个大于自身的期望值,另外一个却小于自身的期望值),那么两个变量之间的协方差就是负值。
  • 期望值分别为(00)基本数学概念 - 图12(00)基本数学概念 - 图13的两个实随机变量(00)基本数学概念 - 图14(00)基本数学概念 - 图15之间的协方差(00)基本数学概念 - 图16定义为

(00)基本数学概念 - 图17

  • 从直观上看,协方差表示两个变量总体误差的期望(即均值)。
  • 如果(00)基本数学概念 - 图18(00)基本数学概念 - 图19是统计独立的,那么二者之间的协方差就是 0,因为两个独立的随机变量满足(00)基本数学概念 - 图20
  • 反过来并不成立:如果(00)基本数学概念 - 图21(00)基本数学概念 - 图22的协方差为 0,二者并不一定是统计独立的。
  • 协方差(00)基本数学概念 - 图23的度量单位是(00)基本数学概念 - 图24的协方差乘以(00)基本数学概念 - 图25的协方差。
  • 协方差为 0 的两个随机变量称为是不相关的。
  • 若两个随机变量(00)基本数学概念 - 图26(00)基本数学概念 - 图27相互独立,则(00)基本数学概念 - 图28,因而若该数学期望不为零,则(00)基本数学概念 - 图29(00)基本数学概念 - 图30必不是相互独立的,即它们之间存在着一定的关系。
  • 协方差与方差之间有如下关系:
    • (00)基本数学概念 - 图31
    • (00)基本数学概念 - 图32
    • (00)基本数学概念 - 图33
  • 协方差与期望值有如下关系:
    • (00)基本数学概念 - 图34
  • 协方差的性质:
    • (00)基本数学概念 - 图35
    • (00)基本数学概念 - 图36,(ab 是常数)
    • (00)基本数学概念 - 图37
    • (00)基本数学概念 - 图38
  • 协方差作为描述(00)基本数学概念 - 图39(00)基本数学概念 - 图40相关程度的量,在同一物理量纲之下有一定的作用,但同样的两个量采用不同的量纲时它们的协方差在数值上表现出很大的差异。为此引入如下概念:

(00)基本数学概念 - 图41

  • 称为随机变量(00)基本数学概念 - 图42(00)基本数学概念 - 图43的 Pearson 相关系数。
  • (00)基本数学概念 - 图44,则称(00)基本数学概念 - 图45(00)基本数学概念 - 图46不线性相关。
  • (00)基本数学概念 - 图47的充分必要条件是(00)基本数学概念 - 图48,即不线性相关和协方差为零是等价的。
    • 定理
  • (00)基本数学概念 - 图49是随机变量(00)基本数学概念 - 图50(00)基本数学概念 - 图51的相关系数,则有
    • (00)基本数学概念 - 图52
    • (00)基本数学概念 - 图53充分必要条件为(00)基本数学概念 - 图54,(a, b 为常数,a≠0)
      • 定义
  • (00)基本数学概念 - 图55(00)基本数学概念 - 图56是随机变量,若(00)基本数学概念 - 图57存在,则称它为 X 的 k 阶原点矩,简称 k 阶矩。
  • (00)基本数学概念 - 图58存在,则称它为 X 的 k 阶中心矩。
  • (00)基本数学概念 - 图59存在,则称它为 X 和 Y 的 k+p 阶混合原点矩。
  • (00)基本数学概念 - 图60存在,则称它为 X 和 Y 的 k+l 阶混合中心矩。
    • 显然,X 的数学期望 E(X) 是 X 的一阶原点矩,方差 D(X) 是 X 的二阶中心矩,协方差 Cov(X,Y) 是 X 和 Y 的二阶混合中心矩。
    • 对于随机变量序列(00)基本数学概念 - 图61(00)基本数学概念 - 图62,有

(00)基本数学概念 - 图63

  • 对于随机变量序列(00)基本数学概念 - 图64,有

(00)基本数学概念 - 图65

(a)矩阵

  • 分别为 m n 个标量元素的列向量随机变量 X Y,这两个变量之间的协方差定义为(00)基本数学概念 - 图66矩阵。其中 X 包含变量(00)基本数学概念 - 图67,Y 包含变量(00)基本数学概念 - 图68,假设(00)基本数学概念 - 图69的期望值为(00)基本数学概念 - 图70(00)基本数学概念 - 图71的期望值为(00)基本数学概念 - 图72,那么在协方差矩阵中 (1,2) 的元素就是(00)基本数学概念 - 图73(00)基本数学概念 - 图74的协方差。
  • 两个向量变量的协方差(00)基本数学概念 - 图75(00)基本数学概念 - 图76互为转置矩阵。
  • 协方差有时也称为是两个随机变量之间“线性独立性”的度量,但是这个含义与线性代数中严格的线性独立性不同。

    (b)应用

  • 协方差在农业上的应用

  • 农业科学实验中,经常会出现可以控制的质量因子和不可以控制的数量因子同时影响实验结果的情况,这时就需要采用协方差分析的统计处理方法,将质量因子与数量因子(也称协变量)综合起来加以考虑。
  • 比如,要研究 3 种肥料对苹果产量的实际效应,而各棵苹果树头年的“基础产量”不一致,但对试验结果又有一定的影响。要消除这一因素带来的影响,就需将各棵苹果树第 1 年年产量这一因素作为协变量进行协方差分析,才能得到正确的实验结果。
  • 当两个变量相关时,用于评估它们因相关而产生的对应变量的影响。
  • 当多个变量独立时,用方差来评估这种影响的差异。
  • 当多个变量相关时,用协方差来评估这种影响的差异。

    2、相关系数(correlation coefficient)

  • 相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,研究变量之间的线性相关程度,一般用字母r表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。

  • 相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间的相关程度。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度。
  • 此处着重研究线性的单相关系数。
  • 皮尔逊相关系数是最常见的相关系数(并不是唯一的相关系数),以下解释都是针对皮尔逊相关系数。
  • 依据相关现象之间的不同特征,其统计指标的名称有所不同,如:
    • 相关系数:反映两变量间线性相关关系的统计指标(相关系数的平方称为判定系数)
    • 非线性相关系数、非线性判定系数:反映两变量间曲线相关关系的统计指标
    • 复相关系数、复判定系数:反映多元线性相关关系的统计指标
  • 简单相关系数(相关系数、线性相关系数),一般用字母r表示,用来度量两个变量间的线性关系。
    • (00)基本数学概念 - 图77
  • 复相关系数(多重相关系数)。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。
  • 典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性关系的综合指标,再通过综合指标之间的线性相关系数来研究原各组变量间相关关系。
  • (00)基本数学概念 - 图78(00)基本数学概念 - 图79是一个可以表征(00)基本数学概念 - 图80(00)基本数学概念 - 图81之间线性关系紧密程度的量。它具有两个性质:
    • (00)基本数学概念 - 图82
    • (00)基本数学概念 - 图83 的充要条件是,存在常数 a,b,使得(00)基本数学概念 - 图84
  • 由性质衍生:
    • 相关系数定量地刻画了 X 和 Y 的相关程度,即(00)基本数学概念 - 图85越大,相关程度越大;(00)基本数学概念 - 图86对应相关程度最低。
    • X 和 Y 完全相关的含义是在概率为 1 的意义下存在线性关系,于是(00)基本数学概念 - 图87 是一个可以表征 X 和 Y 之间线性关系紧密程度的量。当 (00)基本数学概念 - 图88 较大时,通常说X 和Y相关程度较好;当 (00)基本数学概念 - 图89 较小时,通常说X和Y相关程度较差;当X和Y不相关,通常认为X和Y之间不存在线性关系,但并不能排除X和Y之间可能存在其他关系。
  • 不相关和独立

    • 若X和Y不相关,(00)基本数学概念 - 图90 ,通常认为X和Y之间不存在线性关系,但并不能排除X和Y之间可能存在其他关系;若(00)基本数学概念 - 图91 ,则X和Y不相关。
    • 若X和Y独立,则必有(00)基本数学概念 - 图92 ,因而X和Y不相关;若X和Y不相关,则仅仅是不存在线性关系,可能存在其他关系,如(00)基本数学概念 - 图93 ,X和Y不独立。
    • 因此,“不相关”是一个比“独立”要弱的概念。

      (1)相关图(散点图、散布图)

  • 研究相关关系的直观工具。在进行详细的定量分析之前,可利用相关图对现象之间存在的相关关系的方向、形式和密切程度进行大致的判断。它是以直角坐标系的横轴代表变量 X,纵轴代表变量 Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。变量之间的相关关系可以简单分为四种表现形式:正线性相关、负线性相关、非线性相关和不相关,从图形上各点的分散程度即可判断两变量间关系的密切程度。

  • 正线性强相关

(00)基本数学概念 - 图94

  • 正线性弱相关

(00)基本数学概念 - 图95

  • 负线性强相关

(00)基本数学概念 - 图96

  • 负线性弱相关

(00)基本数学概念 - 图97

  • 曲线相关(非线性相关)

(00)基本数学概念 - 图98

  • 无线性相关:y 不随 x 增减呈线性关系

(00)基本数学概念 - 图99

(2)相关度的划分

  • 按相关程度划分
    • 完全相关不完全相关不相关
  • 按变量多少划分
    • 单相关:两个变量间的相关,即一个变量对另一个变量的相关关系,单相关关系只有一个自变量。
    • 复相关:当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。复相关关系有多个自变量。例如,某种商品的需求量与该商品价格以及消费者收人水平之间的相关关系便属于复相关。
    • 偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量的相关关系称为偏相关。如在上例中,若假定在消费者收入水平不变的条件下,商品需求量与其价格水平的关系就是偏相关关系。
  • 按相关方向划分
    • 正相关:两个变量的变化同方向。例如,居民的消费支出随着居民收入水平的提高而提高。
    • 负相关:当两个变量的变化反方向时,这种反方向变动的关系称为负相关。例如,一定范围内,商品生产的规模越大,单位产品成本会越低。
  • 按相关形式划分

    • 线性相关:当两种相关现象之间的关系大致呈现为直线关系时,称之为线性相关或直线相关。例如,人均消费水平与人均收入水平之间通常呈线性关系。
    • 非线性相关:如果两种相关现象之间并不表现为直线的关系,而是近似于某种曲线方程的关系,则这种相关关系称为非线性相关或曲线相关。例如,某种产品的平均成本与产品总产量之间的关系就属于非线性相关关系。

      (3)皮尔逊相关系数

  • 在自然科学领域中,皮尔逊相关系数广泛用于度量两个变量之间的相关程度,其值介于 -1 与 1 之间。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。这个相关系数也称作“皮尔逊积矩相关系数”。

  • 皮尔逊相关系数举例

(00)基本数学概念 - 图100

  • 上图中,几组(00)基本数学概念 - 图101的点集,以及各个点集中(00)基本数学概念 - 图102(00)基本数学概念 - 图103之间的相关系数。我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向(第一排),而不是相关性的斜率(中间),也不是各种非线性关系(第三排)。请注意:中间的图中斜率为0,但相关系数是没有意义的,因为此时变量(00)基本数学概念 - 图104是0。
  • 两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差标准差的商:
    • (00)基本数学概念 - 图105
  • 上式定义了总体相关系数,常用希腊小写字母(00)基本数学概念 - 图106作为代表符号。估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母 (00)基本数学概念 - 图107 代表:
    • (00)基本数学概念 - 图108
  • (00)基本数学概念 - 图109 亦可由 (00)基本数学概念 - 图110 样本点的标准分数均值估计,得到与上式等价的表达式:
    • (00)基本数学概念 - 图111
  • 其中 (00)基本数学概念 - 图112(00)基本数学概念 - 图113(00)基本数学概念 - 图114分别是对 (00)基本数学概念 - 图115 样本的标准分数、样本平均值和样本标准差
  • 总体和样本皮尔逊系数的绝对值小于或等于1。如果样本数据点精确的落在直线上(计算样本皮尔逊系数的情况),或者双变量分布完全在直线上(计算总体皮尔逊系数的情况),则相关系数等于1或-1。皮尔逊系数是对称的:
    • (00)基本数学概念 - 图116
  • 皮尔逊相关系数有一个重要的数学特性是,因两个变量的位置和尺度的变化并不会引起该系数的改变,即它该变化的不变量(由符号确定)。也就是说,我们如果把(00)基本数学概念 - 图117移动到(00)基本数学概念 - 图118和把Y移动到(00)基本数学概念 - 图119,其中a、b、c和d是常数,并不会改变两个变量的相关系数(该结论在总体和样本皮尔逊相关系数中都成立)。我们发现更一般的线性变换则会改变相关系数:
    • 由于(00)基本数学概念 - 图120(00)基本数学概念 - 图121(00)基本数学概念 - 图122也类似, 并且
      • (00)基本数学概念 - 图123
    • 故相关系数也可以表示成
      • (00)基本数学概念 - 图124
    • 对于样本皮尔逊相关系数:
      • (00)基本数学概念 - 图125
  • 以上方程给出了计算样本皮尔逊相关系数简单的单流程算法,但是其依赖于涉及到的数据,有时它可能是数值不稳定的。
  • 皮尔逊相关系数的变化范围为-1到1。 系数的值为1意味着XY可以很好的由直线方程来描述,所有的数据点都很好的落在一条直线上,且(00)基本数学概念 - 图126随着 (00)基本数学概念 - 图127 的增加而增加。系数的值为−1意味着所有的数据点都落在直线上,且(00)基本数学概念 - 图128随着(00)基本数学概念 - 图129的增加而减少。系数的值为0意味着两个变量之间没有线性关系。
  • 更一般的, 我们发现,当且仅当(00)基本数学概念 - 图130(00)基本数学概念 - 图131均落在他们各自的均值的同一侧, 则 (00)基本数学概念 - 图132的值为正。 也就是说,如果 (00)基本数学概念 - 图133(00)基本数学概念 - 图134同时趋向于大于,或同时趋向于小于他们各自的均值,则相关系数为正。 如果(00)基本数学概念 - 图135(00)基本数学概念 - 图136趋向于落在他们均值的相反一侧,则相关系数为负。
  • 几何学的解释
    • 对于没有中心化的数据, 相关系数与两条可能的回归线(00)基本数学概念 - 图137(00)基本数学概念 - 图138 夹角的余弦值一致。
    • 对于中心化过的数据 (也就是说, 数据移动一个样本平均值以使其均值为0), 相关系数也可以被视作由两个随机变量向量夹角 (00)基本数学概念 - 图139的余弦值。
    • 一些人倾向于使用非中心化的相关系数, 比较如下:
      • 例如,有5个国家的国民生产总值分别为 10, 20, 30, 50 和 80 亿美元。 假设这5个国家 (顺序相同) 的贫困百分比分别为 11%, 12%, 13%, 15%, and 18% 。 令xy分别为包含上述5个数据的向量:x= (1, 2, 3, 5, 8) 和y= (0.11, 0.12, 0.13, 0.15, 0.18)。
      • 利用通常的方法计算两个向量之间的夹角(00)基本数学概念 - 图140,未中心化的相关系数是:
        • (00)基本数学概念 - 图141
    • 我们发现以上的数据特意选定为完全相关:(00)基本数学概念 - 图142。 于是,皮尔逊相关系数应该等于1。将数据中心化 (通过(00)基本数学概念 - 图143移动(00)基本数学概念 - 图144和通过 (00)基本数学概念 - 图145移动(00)基本数学概念 - 图146) 得到(00)基本数学概念 - 图147(00)基本数学概念 - 图148从中,
      • (00)基本数学概念 - 图149
  • 几何解释——皮尔逊相关系数

(00)基本数学概念 - 图150

  • 说明:图中,回归直线:(00)基本数学概念 - 图151 [红色] 和 [蓝色](00)基本数学概念 - 图152
  • 皮尔逊距离
    • 皮尔逊距离度量的是两个变量X和Y,它可以根据皮尔逊系数定义成(00)基本数学概念 - 图153我们可以发现,皮尔逊系数落在(00)基本数学概念 - 图154,而皮尔逊距离落在(00)基本数学概念 - 图155
  • 样本相关系数的平方, 亦称作coefficient of determination, 利用简单线性回归估计由(00)基本数学概念 - 图156引起的(00)基本数学概念 - 图157的变化。 一开始,(00)基本数学概念 - 图158围绕它们平均值上的变化可以分解成
    • (00)基本数学概念 - 图159
  • 其中(00)基本数学概念 - 图160 是作回归分析时的适应值。 整理后得
    • (00)基本数学概念 - 图161
  • 两个被加数是由(00)基本数学概念 - 图162(右边)引起的(00)基本数学概念 - 图163的变化和不是由(00)基本数学概念 - 图164(左边) 引起的变化。
  • 接下来, 我们利用最小方差回归模型, 使(00)基本数学概念 - 图165(00)基本数学概念 - 图166的样本协方差为0。 于是,观测数据和适应值的样本相关系数可以被写成
    • (00)基本数学概念 - 图167
    • (00)基本数学概念 - 图168
  • 于是
    • (00)基本数学概念 - 图169
  • 是由(00)基本数学概念 - 图170的线性方程引起的(00)基本数学概念 - 图171的平均变化。

    (4)应用示例

  • 软件公司在全国有许多代理商,为研究它的财务软件产品的广告投入与销售额的关系,统计人员随机选择10家代理商进行观察,搜集到年广告投入费和月平均销售额的数据,并编制成相关表: | 年广告费投入 | 12.5 | 15.3 | 23.2 | 26.4 | 33.5 | 34.4 | 39.4 | 45.2 | 55.4 | 60.9 | | —- | —- | —- | —- | —- | —- | —- | —- | —- | —- | —- | | 月均销售额 | 21.2 | 23.9 | 32.9 | 34.1 | 42.5 | 43.2 | 49.0 | 52.8 | 59.4 | 63.5 |

  • 参照表1,可计算相关系数: | 序号 | 广告投入(万元)
    x | 月均销售额(万元)
    y |
    |
    |
    | | —- | —- | —- | —- | —- | —- | | 1
    2
    3
    4
    5
    6
    7
    8
    9
    10 | 12.5
    15.3
    23.2
    26.4
    33.5
    34.4
    39.4
    45.2
    55.4
    60.9 | 21.2
    23.9
    32.9
    34.1
    42.5
    43.2
    49.0
    52.8
    59.4
    63.5 | 156.25
    234.09
    538.24
    696.96
    1122.25
    1183.36
    1552.36
    2043.04
    3069.16
    3708.81 | 449.44
    571.21
    1082.41
    1162.81
    1806.25
    1866.24
    2401.00
    2787.84
    3528.36
    4032.25 | 265.00
    365.67
    763.28
    900.24
    1423.75
    1486.08
    1930.60
    2386.56
    3290.76
    3867.15 | | 合计 | 346.2 | 422.5 | 14304.52 | 19687.81 | 16679.09 |

  • 相关系数为0.9942,说明广告投入费与月平均销售额之间有高度的线性正相关关系。

    (a)概率论

  • 若将一枚硬币抛n次,X表示n次试验中出现正面的次数,Y表示n次试验中出现反面的次数。计算ρXY

    • 解:由于X+Y=n,则Y=-X+n,根据相关系数的性质推论,得ρXY = − 1。

      (b)企业物流

  • 一种新产品上市。在上市之前,公司的物流部需把新产品合理分配到全国的 10 个仓库,新品上市一个月后,要评估实际分配方案与之前考虑的其他分配方案中,是实际分配方案好还是其中尚未使用的分配方案更好,通过这样的评估,可以在下一次的新产品上市使用更准确的产品分配方案,以避免由于分配而产生的积压和断货。表1是根据实际数据所列的数表。

  • 通过计算,很容易得出这 3 个分配方案中,B 的相关系数是最大的,这样就评估到B的分配方案比实际分配方案A更好,在下一次的新产品上市分配计划中,就可以考虑用B这种分配方法来计算实际分配方案。

    (c)聚类分析

  • 如果有若干个样品,每个样品有n个特征,则相关系数可以表示两个样品间的相似程度。借此,可以对样品的亲疏远近进行距离聚类。例如9个小麦品种(分别用_A_1,_A_2,…,_A_9表示)的6个性状资料见表2,作相关系数计算并检验。

  • 由相关系数计算公式可计算出6个性状间的相关系数,分析及检验结果见表3。由表3可以看出,冬季分蘖与每穗粒数之间呈现负相关(ρ = − 0.8982),即麦冬季分蘖越多,那么每穗的小麦粒数越少,其他性状之间的关系不显著。

    (5)相关系数的缺点

  • 需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。