来源:https://zhuanlan.zhihu.com/p/395447829
列联表分析( Contingency Table Analysis)基于列联表所进行的相关统计分析与推断。列联表分析的基本问题是,判明所考察的各属性之间有无关联,即是否独立。
当我们在对数据进行分析时,数据类型不一样,可以选取不同的分析方法,遇到定类数据与定类数据之间关系情况的研究问题时,我们可以使用列联表分析(卡方分析,交叉表分析),可以从定性的角度得出两个变量是否存在关联。
例如研究人员想知道性别(男性、女性)与是否吸烟(吸烟、不吸烟)之间是否有关系,在这个例子里,性别是定类数据,是否吸烟也是定类数据。
一,列联表
下面先了解一下什么是列联表,所谓列联表即由两个以上的定类变量交叉分类的频数分布表。
交叉分类,是指同时依据两个变量的值,将所研究的个案分类。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。
还是以上文的例子说明具体如何交叉分类:
存在两个定类变量:性别(X)—是否吸烟(Y)
我们进行交叉分类可以得到以下四个分组:
当“性别=男性”时:
① 性别=男性,是否吸烟=吸烟
②性别=男性,是否吸烟=不吸烟
当“性别=女性”时:
③性别=女性,是否吸烟=吸烟
④性别=女性,是否吸烟=不吸烟
按照这样的分类形成的表格就是列联表,且是一个二维的列联表。
二、列联表一般形式
三,列联表分析(卡方分析)
根据收集的样本数据,SPSSAU在线数据分析平台能对两个或多个分类变量进行联合描述,可生产二维甚至n维的列联表,并计算相应的行、列合计百分比和行、列汇总指标。提供对应分析方法。
在此举例:用SPSSAU进行二乘二列联表分析:
- 1、案例背景
想研究性别和是否抽烟之间有没有关系,男性抽烟的比例有没有更高等。
(案例数据文件在SPSSAU案例数据集中,需要的朋友可以前往下载体验)
- 2、理论
性别和是否抽烟的关系,这一句话里面包含两个词语,分别是:性别,是否抽烟。性别为X,是否抽烟为Y。性别为定类数据,是否抽烟也是定类数据。因而使用卡方分析进行研究。
- 3、操作
性别和是否抽烟的关系,性别为X,是否抽烟为Y,对应放置。如下图:
- 4、SPSSAU输出结果
- 特别提示
- 表格和图形均是呈现结果的形式,建议结合着使用,图形共提供四类(堆积柱形图,柱形图,堆积条形图,条形图),选择使用即可,下图为堆积柱形图。
- 5、文字分析
从上表格可以看出,研究性别和是否吸烟之间的关系,由于性别和是否吸烟这两项均为定类数据,因而使用卡方分析进行研究。从上表可知,不同性别群体吸烟情况呈现出显著性差异(χ²=5.734,p =0.017 <0.05),具体通过对比百分比差异可知,男性群体中有65.4%吸烟(明显高于平均水平56.5%),但是女性群体中45%会吸烟。说明男性群体抽烟的比例明显的高于女性群体。
- 6、剖析
卡方是研究关系,那么差异或者区别即是关系。如何对比差异呢?直接横向对比即可,比如65.4%和45.0%进行对比,也或者65.4%和56.5%(不区分性别时平均水平)对比均可。分析是柔性的,只要先确认有差异,接着具体按照自己的一套思路进行描述具体差异即可。