卡方检验
# 卡方检验
# 1、作用
卡方检验(Pearson 卡方检验)主要是比较定类变量与定类变量之间的差异性分析。通过统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为 0,表明理论值完全符合。
# 2、输入输出描述
输入:一个定类变量 X(如学校字段,包括甲学校、乙学校)与定类字段 Y(如甲学校 40 名学生与乙学校 60 名学生的体育成绩等级)
输出:模型检验的结果,如甲学校与乙学校的学生体育成绩等级存在/不存在显著性差异
# 3、案例示例
从某高中学随机抽取两个以上的班级,调查他们对待文理分科的态度是否有显著差异。
# 4、案例数据
卡方检验案例数据
# 5、案例操作
Step1:新建分析;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
step4:选择【卡方检验】;
step5-6:查看对应的数据数据格式,【卡方检验】要求输入数据为分组定类变量 X,(1≤ 变量数 ≤50);放入定量变量量 Y(1≤ 变量数 ≤50);
step6:点击【开始分析】,完成全部操作。
# 6、输出结果分析
输出结果 1:卡方检验分析结果
题目 | 名称 | 班级 | 总计 | X² | 校正 X² | P | |
---|---|---|---|---|---|---|---|
1.0 | 2.0 | ||||||
分科意向 | 1.0 | 8 | 16 | 24 | 3.069 | 2.119 | 0.080 |
2.0 | 13 | 9 | 22 |
图表说明:上表展示了模型检验的结果,包括数据的频数、频数百分比、卡方值、显著性 P 值。P 值小于 0.01。卡方检验分析的结果显示,对于班级,显著性 P 值为 0.080,水平上不呈现显著性,接受原假设,因此对于班级和分科意向数据不存在显著性差异。
输出结果 2:卡方交叉热力图
图表说明:上图展示了热力图的形式展示了交叉列联表的值,主要通过颜色深浅去表示值的大小。
输出结果 3:效应量化分析
字段名/分析项 | Phi | Crammer's V | 列联系数 | lambda |
---|---|---|---|---|
分科意向 | 0.258 | 0.258 | 0.250 | 0.227 |
图表说明:上表展示了效应量化分析的结果,包括 phi、Crammer's V、列联系数、lambda ,用于分析样本的相关程度。效应量化分析的结果显示,分析项:分科意向 Cramer’s V 值为 0.2583106399751794,因此分科意向和班级的差异程度为中等程度差异。
# 7、注意事项
- 科学文献中,当提及卡方检验而没有特别指明类型时,通常即指皮尔森卡方检验,SPSSPRO 的卡方检验默认为皮尔逊卡方检验;
# 8、模型理论
皮尔森卡方检验分析步骤如下:
(1)提出原假设:
H0:总体 X 的分布函数为 F(x).
如果总体分布为离散型,则假设具体为
H0:总体 X 的分布律为 P{X=xi}=pi, i=1,2,...
(2)将总体 X 的取值范围分成 k 个互不相交的小区间 A1,A2,A3,…,Ak,如可取
A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak),
其中 a0 可取-∞,ak 可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于 5,而区间个数 k 不要太大也不要太小。
(3)把落入第 i 个小区间的 Ai 的样本值的个数记作 fi,成为组频数(真实值),所有组频数之和 f1+f2+...+fk 等于样本容量 n。
(4)当 H0 为真时,根据所假设的总体理论分布,可算出总体 X 的值落入第 i 个小区间 Ai 的概率 pi,于是,npi 就是落入第 i 个小区间 Ai 的样本值的理论频数(理论值)。
(5)当 H0 为真时,n 次试验中样本值落入第 i 个小区间 Ai 的频率 fi/n 与概率 pi 应很接近,当 H0 不真时,则 fi/n 与 pi 相差很大。基于这种思想,皮尔逊引进如下检验统计量:
在 0 假设成立的情况下服从自由度为 k-1 的卡方分布。
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2]茆诗松, 王静龙, 濮晓龙, 等. 高等数理统计 (第二版)[M]. 北京: 高等教育出版社, 2006.
[3]陆运清. 用 Pearson's 卡方统计量进行统计检验时应注意的问题[J]. 统计与决策, 2009 (15): 32-33.