卡方检验
# 卡方检验
# 1、作用
在卡方检验中,最常用的就是Pearson卡方检验(Pearson's chi-squared test),它是一种非参数检验,适用于定类变量之间的关联性分析,可以用于衡量观察值与期望值之间偏离程度的统计检验方法。通过统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为 0,表明理论值完全符合。
Pearson卡方检验有两种类型:适配度检验和独立性检验。
适配度检验(chi-square goodness of fit best),即卡方拟合优度检验,常用于只有一个分类变量时,用于验证一组定类数据观察值的频数分配是否异于理论上的分布。在通常情况下,我们常期望各类型具有相同的比例。
独立性检验(chi-square test of independence) 是用于验证两个分类变量是否互相独立。
# 2、输入输出描述
输入:一个定类变量 X(如学校字段,包括甲学校、乙学校)与定类字段 Y(如甲学校 40 名学生与乙学校 60 名学生的体育成绩等级)
输出:模型检验的结果,如甲学校与乙学校的学生体育成绩等级存在/不存在显著性差异
# 3、案例示例
从某高中学随机抽取两个以上的班级,调查他们对待文理分科的态度是否有显著差异。
# 4、案例数据
卡方检验案例数据
# 5、案例操作
Step1:新建分析;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
step4:选择【卡方检验】;
step5-6:查看对应的数据数据格式,【卡方检验】要求输入数据为分组定类变量 X,(1≤ 变量数 ≤50);放入定量变量量 Y(1≤ 变量数 ≤50);
step6:点击【开始分析】,完成全部操作。
# 6、输出结果分析
输出结果 1:卡方检验分析结果
题目 | 名称 | 班级 | 总计 | X² | 校正 X² | P | |
---|---|---|---|---|---|---|---|
1.0 | 2.0 | ||||||
分科意向 | 1.0 | 8 | 16 | 24 | 3.069 | 2.119 | 0.080 |
2.0 | 13 | 9 | 22 |
图表说明:上表展示了模型检验的结果,包括数据的频数、频数百分比、卡方值、显著性 P 值。P 值小于 0.01。卡方检验分析的结果显示,对于班级,显著性 P 值为 0.080,水平上不呈现显著性,接受原假设,因此对于班级和分科意向数据不存在显著性差异。
输出结果 2:卡方交叉热力图
图表说明:上图展示了热力图的形式展示了交叉列联表的值,主要通过颜色深浅去表示值的大小。
输出结果 3:效应量化分析
字段名/分析项 | Phi | Crammer's V | 列联系数 | lambda |
---|---|---|---|---|
分科意向 | 0.258 | 0.258 | 0.250 | 0.227 |
图表说明:上表展示了效应量化分析的结果,包括 phi、Crammer's V、列联系数、lambda ,用于分析样本的相关程度。效应量化分析的结果显示,分析项:分科意向 Cramer’s V 值为 0.2583106399751794,因此分科意向和班级的差异程度为中等程度差异。
# 7、注意事项
- 科学文献中,当提及卡方检验而没有特别指明类型时,通常即指皮尔森卡方检验,SPSSPRO 的卡方检验默认为皮尔逊卡方检验;
# 8、模型理论
当满足以下要求时,可以使用Pearson卡方检验:
(1) 变量为定类变量
(2) 样本是从总体中随机抽取的
(3) 每个组中都至少有5个观测值
Pearson卡方检验通用的分析步骤如下:
(1)制作列联表,统计观察频数
(2)提出假设,设置显著性水平
(3)计算统计量,包括理论频数、
其中,O为实际的观测频数,E为理论频数
(3)查表得p值,与
若p<a,则拒绝原假设,接受备择假设;若p>a,则不拒绝原假设。
适配度检验分析步骤如下:
(1)提出原假设,设置显著性水平
H0:各个类别具有相同的比例
H1:各个类别的比例不全相同
a 通常可以用0.01,0.05,或0.1
(2)计算统计量。
理论频数:
其中,m为m个类别,N为总观察值;
自由度:
(3) 查表得p值,与
若p<a,则拒绝原假设,接受备择假设,认为各类别不具有相同的比例;若p>a,则不拒绝原假设,暂时没有证据认为各类别具有不同的比例。
独立性检验分析步骤如下:
(1)提出假设,设置显著性水平
H0:变量A与变量B之间相互独立
H1:变量A与变量B不独立
a 通常可以用0.01,0.05,或0.1
(2)计算统计值
期望次数:
其中,r和c表示该列联表中共有r行c列;
自由度为:
(3) 查表得p值,与
若p<a,则拒绝原假设,接受备择假设,认为两变量之间相互独立;若p>a,则不拒绝原假设,暂时没有证据认为变量之间具有相关性。
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2]茆诗松, 王静龙, 濮晓龙, 等. 高等数理统计 (第二版)[M]. 北京: 高等教育出版社, 2006.
[3]陆运清. 用 Pearson's 卡方统计量进行统计检验时应注意的问题[J]. 统计与决策, 2009 (15): 32-33.