方差分析是在20世纪20年代发展起来的一种统计方法,它是由英国统计学家费希尔在进行试验设计时为解释试验数据而首先引入的。目前,方差分析方法广泛用于分析心理学、生物学、工程和医药领域的试验数据,例如新药的临床试验。

01 方差分析基本概念

与假设检验每次只能分析两组总体数据相对,方差分析是检验多个总体均值是否相等的统计方法,但本质上它所研究的是分类型自变量对数值型应变量的影响,例如,变量之间有没有关系,关系的强度如何等。方差分析(analysis of variance, ANOVA)就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。

以下通过一个各行业服务投诉次数进行举例说明。为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的企业作为样本。其中零售业抽取7家,旅游业抽取6家,航空公司抽取5家,家电制造业抽取5家。每个行业中所抽取的这些企业,假定它们在服务对象、服务内容、企业规模等方面基本上是相同的。然后统计出最近一年中消费者对这23家企业投诉的次数,结果如下表。

| | 服务行业一 | 服务行业二 | 服务行业三 | 服务行业四 | | 企业名称 | 零售 | 旅游 | 航空公司 | 家电制造 | | —- | —- | —- | —- | —- | | 企业一 | 57 | 68 | 31 | 44 | | 企业二 | 66 | 39 | 49 | 51 | | 企业三 | 49 | 29 | 21 | 65 | | 企业四 | 40 | 45 | 34 | 77 | | 企业五 | 34 | 56 | 40 | 58 | | 企业六 | 53 | 51 |
|
| | 企业七 | 44 |
|
|
|

一般而言,收到投诉的次数越多,说明服务的质量越差。消费者协会想知道这几个行业之间的服务质量是否有显著差异。

分析思路:分析服务质量之间的差异,实际上就是判断行业对被投诉次数是否有显著影响,作出这种判断最终被归结为这四个行业被投诉次数的均值是否相等。如果它们的均值相等,就意味着行业对被投诉次数是没有影响的,也就是它们之间的服务质量没有显著差异;如果均值不全相等,则意味着行业对被投诉次数是有影响的,它们之间的服务质量有显著差异。

在方差分析中,所要检验的对象称为因素或因子(factor)。因素的不同表现称为水平或处理(treatment)。在每个因子水平下得到的样本数据称为观测值。本例子中,行业是要检验的对象,称为因素;零售业,旅游业是行业这一因素的具体表现,称为水平;每个行业下得到的被投诉次数称为观测值。由于这里只涉及行业一个因素,因此称为单因素4水平的试验。

在只有一个因素的方差分析中,涉及两个变量:一个是分类型自变量(具体的行业),一个是数值型因变量(被投诉次数)。方差分析要研究的就是行业对被投诉次数是否有显著影响。

02 方差分析的基本思想和原理

  1. 图形描述 绘制各个水平下的散点图

方差分析 - 图1
从散点图看,不同行业被投诉的次数是有明显差异的,这表明行业与被投诉次数之间有一定的关系。

  1. 误差分解

仅仅在散点图上观察还不能提供充分的证据证明不同行业被投诉次数之间有显著差异,也许这种差异是由抽样的随机性造成的。因此,需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析。

要进行方差分析,需要理解组内误差和组间误差的概念。在同一个行业内,随机抽取了的不同企业的投诉次数,这些企业间的次数存在差异。差异是因为抽样的随机性造成的,称为组内误差。对于不同行业之间,数据的差异可能是抽样本身的随机误差,也可能是由行业本身的系统性因素造成的系统误差。对于组间误差,是随机误差和系统误差的综合。

在方差分析中,数据的误差使用平方和来表示的。反映全部数据误差大小的平方和称为总平方和,记为SST。例如,所抽取的23家企业投诉次数之间的误差平方和就是总平方和,它反映了全部观测值的离散状况。

反映组内误差大小的平方和称为组内平方和,也称为误差平方和或残差平方和,记为SSE。例如,每个样本内部的数据平方和加在一起就是组内平方和,它反映了每个样本内观测值的离散状况。

反映组间误差大小的平方和称为组间平方和,也称为因素平方和,记为SSA。例如,四个行业被投诉次数之间的误差平方和就是组间平方和,它反映了样本均值之间的差异程度。

  1. 误差分析

如果不同行业对被投诉次数没有影响,那么在组间误差只包含随机误差,而没有系统误差。这时,组间误差与组内误差经过平均后的数值(称为均方或方差)就应该很接近,他们的比值会接近1。反之,就会大于1。当这个比值大到某种程序时,就认为因素的不同水平之间存在显著差异,也就是自变量对因变量有显著影响。

03 方差分析的基本假定

(1) 每个总体(水平,下同)都应服从正态分布。
(2) 各个总体的方差 方差分析 - 图2必须相同。
3) 观测值是独立的。
在这3个假定下,判断行业对被投诉次数是否有显著影响,实际上就是检验具有相同方差的四个正态总体的均值(被投诉次数的均值)是否相等。因此方差分析的一般性表示如下。
设因素有k个水平,每个水平的均值分别用方差分析 - 图3表示,要检验k个水平(总体)的均值是否相等,需要提出如下假设:
方差分析 - 图4自变量对因变量没有显著影响
方差分析 - 图5不全相等 自变量对应变量有显著影响

04 单因素方差分析

定义:当方差分析中只涉及一个分类型自变量时,称为单因素方差分析(one-way analysis of variance)。

首先根据03节的内容提出方差分析的假设,然后构造检验的统计量。