参考资料
相关系数对应的相关强度如下:
- 0.8-1.0 极强相关
- 0.6-0.8 强相关
- 0.4-0.6 中等程度相关
- 0.2-0.4 弱相关
- 0.0-0.2 极弱相关或无相关
基本概念
相关分析是一种简单易行的测量定量数据之间的关系情况的分析方法。可以分析变量间的关系情况以及关系强弱程度等。
比如,身高和体重的相关性;降水量与河流水位的相关性;工作压力与心理健康的相关性等。
变量之间的分类
由于变量可分为定性和定量,所以变量之间的相关关系可分为:
- 连续变量之间的相关关系;
- 有序变量之间的相关关系;
- 名义变量之间的相关关系;
- 名义与连续变量之间的相关关系;
对不同的变量之间的相关关系的分析方法也不一样。
两变量都为连续:pearson相关系数 两变量都为定序:GMMA相关系数 两变量都为定类:LAMMDA相关系数 一个是定类,一个是连续:ETA系数
常用方法:
- 散点图
- 计算相关系数
相关分析前,首先通过散点图了解变量间大致的关系情况。
如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。
相关系数
概念
相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。
相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
需要说明的是,皮尔逊相关系数并不是唯一的相关系数,但是最常见的相关系数,以下解释都是针对皮尔逊相关系数。
依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。
相关关系的种类
按相关程度划分
按客观现象间相关关系的密切程度不同可分为完全相关、不完全相关和不相关三种类型。
当一种现象的数量变化完全由另一种现象的数量变化所确定时,称这两种现象间的关系为完全相关。因此也可以说函数关系是相关关系的一个特例。当两个现象彼此互不影响,其数量变化各自独立时,称为不相关。例如,经济发展水平与精神病患者的人数是不相关的。当两个现象之间的关系介于完全相关和不相关之间时,称其为不完全相关。一般说的相关现象都是指这种不完全相关关系。
按变量多少划分
按所研究的变量多少,相关关系可分为单相关、复相关和偏相关。
我们把两个变量间的相关,即一个变量对另一个变量的相关关系,称为单相关,单相关关系只有一个自变量。当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。
复相关关系有多个自变量。例如,某种商品的需求量与该商品价格以及消费者收人水平之间的相关关系便属于复相关。在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量的相关关系称为偏相关。如在上例中,若假定在消费者收入水平不变的条件下,商品需求量与其价格水平的关系就是偏相关关系。
按相关方向划分
按相关关系的方向可分为正相关和负相关。
当两个变量的变化同方向时,这种同方向变动的关系称为正相关。例如,居民的消费支出随着居民收入水平的提高而提高。当两个变量的变化反方向时,这种反方向变动的关系称为负相关。例如,一定范围内,商品生产的规模越大,单位产品成本会越低。
按相关形式划分
相关关系按相关的形式不同可分为线性相关和非线性相关。当两种相关现象之间的关系大致呈现为直线关系时,称之为线性相关或直线相关。例如,人均消费水平与人均收入水平之间通常呈线性关系。
如果两种相关现象之间并不表现为直线的关系,而是近似于某种曲线方程的关系,则这种相关关系称为非线性相关或曲线相关。例如,某种产品的平均成本与产品总产量之间的关系就属于非线性相关关系。
三种重要相关系数
pearson相关系数:用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。系数的值为−1意味着所有的数据点都落在直线上,且y随着x的增加而减少。系数的值为0意味着两个变量之间没有线性关系。皮尔森相关系数是参数检验,针对两个都是连续变量的数据进行判断。
spearman相关系数:非参数检验,针对两个都是定序变量。它是衡量两个变量的依赖性的 非参数 指标。 它利用单调方程评价两个统计变量的相关性。 如果数据中没有重复值, 并且当两个变量完全单调相关时,斯皮尔曼相关系数则为+1或−1。
kendall’s rau-b相关系数:非参数检验,针对两个都是定序变量。肯德尔相关系数,又称肯德尔秩相关系数,它也是一种秩相关系数,不过,它的目标对象是有序的类别变量,比如名次、年龄段、肥胖等级(重度肥胖,中度肥胖、轻度肥胖、不肥胖)等。它可以度量两个有序变量之间单调关系强弱。肯德尔相关系数使用了“成对“这一概念来决定相关系数的强弱。
成对可以分为一致对(Concordant)和分歧对(Discordant)。一致对是指两个变量取值的相对关系一致,可以理解为X2-X1与Y2-Y1有相同的符号;分歧对则是指它们的相对关系不一致,X2-X1与Y2-Y1有着相反的符号。
相关分析的假设检验
h0:两个变量来自总体中不存在显著相关性。
h1:两个变量来自总体中存在显著相关性。
显著性检验目的:用来判断两个变量在总体中是否存在相关性。
相关系数的目的:是计算两个变量在样本数据中的相关性强弱。