非参数检验 - 【‼️】卡方检验 - 《数据分析系统知识学习》

#1、作用
#2、输入输出描述">#2、输入输出描述
#3、案例示例">#3、案例示例
#4、案例数据">#4、案例数据
#5、案例操作">#5、案例操作
#6、输出结果分析">#6、输出结果分析
#7、注意事项">#7、注意事项
#8、模型理论">#8、模型理论

#1、作用

卡方检验（Pearson 卡方检验）主要是比较定类变量与定类变量之间的差异性分析。通过统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为 0，表明理论值完全符合。

#2、输入输出描述

输入：一个定类变量 X（如学校字段，包括甲学校、乙学校）与定类字段 Y（如甲学校 40 名学生与乙学校 60 名学生的体育成绩等级）
输出：模型检验的结果，如甲学校与乙学校的学生体育成绩等级存在/不存在显著性差异

#3、案例示例

从某高中学随机抽取两个以上的班级，调查他们对待文理分科的态度是否有显著差异。

#4、案例数据

【‼️】卡方检验 - 图1
卡方检验案例数据

#5、案例操作

【‼️】卡方检验 - 图2
Step1：新建分析；
Step2：上传数据；
Step3：选择对应数据打开后进行预览，确认无误后点击开始分析；
【‼️】卡方检验 - 图3
step4：选择【卡方检验】；
step5-6：查看对应的数据数据格式，【卡方检验】要求输入数据为分组定类变量 X，（1≤ 变量数 ≤50）；放入定量变量量 Y（1≤ 变量数 ≤50）；
step6：点击【开始分析】，完成全部操作。

#6、输出结果分析

输出结果 1：卡方检验分析结果

题目	名称	班级		总计	X²	校正 X²	P
		1.0	2.0
分科意向	1.0	8	16	24	3.069	2.119	0.080
	2.0	13	9	22

图表说明：上表展示了模型检验的结果，包括数据的频数、频数百分比、卡方值、显著性 P 值。P 值小于 0.01。卡方检验分析的结果显示，对于班级，显著性 P 值为 0.080，水平上不呈现显著性，接受原假设，因此对于班级和分科意向数据存在显著性差异
输出结果 2：卡方交叉热力图
【‼️】卡方检验 - 图4
图表说明：上图展示了热力图的形式展示了交叉列联表的值，主要通过颜色深浅去表示值的大小。
输出结果 3：效应量化分析

字段名/分析项	Phi	Crammer’s V	列联系数	lambda
分科意向	0.258	0.258	0.250	0.227

图表说明：上表展示了效应量化分析的结果，包括 phi、Crammer’s V、列联系数、lambda ，用于分析样本的相关程度。效应量化分析的结果显示，分析项：分科意向 Cramer’s V 值为 0.2583106399751794，因此分科意向和班级的差异程度为中等程度差异。

#7、注意事项

科学文献中，当提及卡方检验而没有特别指明类型时，通常即指皮尔森卡方检验，SPSSPRO 的卡方检验默认为皮尔逊卡方检验；
#8、模型理论
皮尔森卡方检验分析步骤如下：
（1）提出原假设： H0：总体 X 的分布函数为 F(x). 如果总体分布为离散型，则假设具体为 H0：总体 X 的分布律为 P{X=xi}=pi， i=1，2，…
（2）将总体 X 的取值范围分成 k 个互不相交的小区间 A1，A2，A3，…，Ak，如可取 A1=（a0，a1]，A2=(a1，a2]，…，Ak=(ak-1,ak)，其中 a0 可取-∞，ak 可取+∞，区间的划分视具体情况而定，但要使每个小区间所含的样本值个数不小于 5，而区间个数 k 不要太大也不要太小。
（3）把落入第 i 个小区间的 Ai 的样本值的个数记作 fi，成为组频数（真实值），所有组频数之和 f1+f2+…+fk 等于样本容量 n。
（4）当 H0 为真时，根据所假设的总体理论分布，可算出总体 X 的值落入第 i 个小区间 Ai 的概率 pi，于是，npi 就是落入第 i 个小区间 Ai 的样本值的理论频数（理论值）。
（5）当 H0 为真时，n 次试验中样本值落入第 i 个小区间 Ai 的频率 fi/n 与概率 pi 应很接近，当 H0 不真时，则 fi/n 与 pi 相差很大。基于这种思想，皮尔逊引进如下检验统计量：

在 0 假设成立的情况下服从自由度为 k-1 的卡方分布。

【‼️】卡方检验