#1、作用
卡方检验(Pearson 卡方检验)主要是比较定类变量与定类变量之间的差异性分析。通过统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为 0,表明理论值完全符合。
#2、输入输出描述
输入:一个定类变量 X(如学校字段,包括甲学校、乙学校)与定类字段 Y(如甲学校 40 名学生与乙学校 60 名学生的体育成绩等级)
输出:模型检验的结果,如甲学校与乙学校的学生体育成绩等级存在/不存在显著性差异
#3、案例示例
从某高中学随机抽取两个以上的班级,调查他们对待文理分科的态度是否有显著差异。
#4、案例数据
#5、案例操作
Step1:新建分析;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
step4:选择【卡方检验】;
step5-6:查看对应的数据数据格式,【卡方检验】要求输入数据为分组定类变量 X,(1≤ 变量数 ≤50);放入定量变量量 Y(1≤ 变量数 ≤50);
step6:点击【开始分析】,完成全部操作。
#6、输出结果分析
输出结果 1:卡方检验分析结果
题目 | 名称 | 班级 | 总计 | X² | 校正 X² | P | |
---|---|---|---|---|---|---|---|
1.0 | 2.0 | ||||||
分科意向 | 1.0 | 8 | 16 | 24 | 3.069 | 2.119 | 0.080 |
2.0 | 13 | 9 | 22 |
图表说明:上表展示了模型检验的结果,包括数据的频数、频数百分比、卡方值、显著性 P 值。P 值小于 0.01。卡方检验分析的结果显示,对于班级,显著性 P 值为 0.080,水平上不呈现显著性,接受原假设,因此对于班级和分科意向数据存在显著性差异
输出结果 2:卡方交叉热力图
图表说明:上图展示了热力图的形式展示了交叉列联表的值,主要通过颜色深浅去表示值的大小。
输出结果 3:效应量化分析
字段名/分析项 | Phi | Crammer’s V | 列联系数 | lambda |
---|---|---|---|---|
分科意向 | 0.258 | 0.258 | 0.250 | 0.227 |
图表说明:上表展示了效应量化分析的结果,包括 phi、Crammer’s V、列联系数、lambda ,用于分析样本的相关程度。效应量化分析的结果显示,分析项:分科意向 Cramer’s V 值为 0.2583106399751794,因此分科意向和班级的差异程度为中等程度差异。
#7、注意事项
- 科学文献中,当提及卡方检验而没有特别指明类型时,通常即指皮尔森卡方检验,SPSSPRO 的卡方检验默认为皮尔逊卡方检验;
#8、模型理论
皮尔森卡方检验分析步骤如下:
(1)提出原假设: H0:总体 X 的分布函数为 F(x). 如果总体分布为离散型,则假设具体为 H0:总体 X 的分布律为 P{X=xi}=pi, i=1,2,…
(2)将总体 X 的取值范围分成 k 个互不相交的小区间 A1,A2,A3,…,Ak,如可取 A1=(a0,a1],A2=(a1,a2],…,Ak=(ak-1,ak), 其中 a0 可取-∞,ak 可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于 5,而区间个数 k 不要太大也不要太小。
(3)把落入第 i 个小区间的 Ai 的样本值的个数记作 fi,成为组频数(真实值),所有组频数之和 f1+f2+…+fk 等于样本容量 n。
(4)当 H0 为真时,根据所假设的总体理论分布,可算出总体 X 的值落入第 i 个小区间 Ai 的概率 pi,于是,npi 就是落入第 i 个小区间 Ai 的样本值的理论频数(理论值)。
(5)当 H0 为真时,n 次试验中样本值落入第 i 个小区间 Ai 的频率 fi/n 与概率 pi 应很接近,当 H0 不真时,则 fi/n 与 pi 相差很大。基于这种思想,皮尔逊引进如下检验统计量:
在 0 假设成立的情况下服从自由度为 k-1 的卡方分布。