• 产品简介

  • 我的数据

  • 数据处理

  • 数据分析

    • 描述性分析

    • 问卷分析

    • 综合评价

    • 差异性分析

      • 差异性分析自动求解器
      • 参数检验

      • 非参数检验

        • 卡方检验
          • 1、作用
          • 2、输入输出描述
          • 3、案例示例
          • 4、案例数据
          • 5、案例操作
          • 6、输出结果分析
          • 7、注意事项
          • 8、模型理论
          • 9、参考文献
        • 单样本Wilcoxon符号秩检验
        • 配对样本Wilcoxon符号秩检验
        • 独立样本MannWhitney检验
        • 多配对样本Friedman检验
        • 多独立样本Kruskal-Wallis检验
        • 卡方拟合优度检验
    • 相关性分析

    • 预测模型

    • 统计建模

    • 计量经济模型

    • 医学统计模型

    • 机器学习分类

    • 机器学习回归

    • 规划求解

卡方检验

操作视频
SPSSPRO教程-卡方检验

# 卡方检验

# 1、作用

卡方检验(Pearson 卡方检验)主要是比较定类变量与定类变量之间的差异性分析。通过统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为 0,表明理论值完全符合。

# 2、输入输出描述

输入:一个定类变量 X(如学校字段,包括甲学校、乙学校)与定类字段 Y(如甲学校 40 名学生与乙学校 60 名学生的体育成绩等级)

输出:模型检验的结果,如甲学校与乙学校的学生体育成绩等级存在/不存在显著性差异 ​

# 3、案例示例

从某高中学随机抽取两个以上的班级,调查他们对待文理分科的态度是否有显著差异。

# 4、案例数据

卡方检验案例数据

卡方检验案例数据

# 5、案例操作

卡方检验上传数据

Step1:新建分析;

Step2:上传数据;

Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;

卡方检验操作

step4:选择【卡方检验】;

step5-6:查看对应的数据数据格式,【卡方检验】要求输入数据为分组定类变量 X,(1≤ 变量数 ≤50);放入定量变量量 Y(1≤ 变量数 ≤50);

step6:点击【开始分析】,完成全部操作。

# 6、输出结果分析

输出结果 1:卡方检验分析结果

题目 名称 班级 总计 X² 校正 X² P
1.0 2.0
分科意向 1.0 8 16 24 3.069 2.119 0.080
2.0 13 9 22

图表说明:上表展示了模型检验的结果,包括数据的频数、频数百分比、卡方值、显著性 P 值。P 值小于 0.01。卡方检验分析的结果显示,对于班级,显著性 P 值为 0.080,水平上不呈现显著性,接受原假设,因此对于班级和分科意向数据存在显著性差异 ​

输出结果 2:卡方交叉热力图

卡方交叉热力图

图表说明:上图展示了热力图的形式展示了交叉列联表的值,主要通过颜色深浅去表示值的大小。 ​

输出结果 3:效应量化分析

字段名/分析项 Phi Crammer's V 列联系数 lambda
分科意向 0.258 0.258 0.250 0.227

图表说明:上表展示了效应量化分析的结果,包括 phi、Crammer's V、列联系数、lambda ,用于分析样本的相关程度。效应量化分析的结果显示,分析项:分科意向 Cramer’s V 值为 0.2583106399751794,因此分科意向和班级的差异程度为中等程度差异。

# 7、注意事项

  • 科学文献中,当提及卡方检验而没有特别指明类型时,通常即指皮尔森卡方检验,SPSSPRO 的卡方检验默认为皮尔逊卡方检验;

​

# 8、模型理论

皮尔森卡方检验分析步骤如下:
(1)提出原假设: H0:总体 X 的分布函数为 F(x). 如果总体分布为离散型,则假设具体为 H0:总体 X 的分布律为 P{X=xi}=pi, i=1,2,...
(2)将总体 X 的取值范围分成 k 个互不相交的小区间 A1,A2,A3,…,Ak,如可取 A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak), 其中 a0 可取-∞,ak 可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于 5,而区间个数 k 不要太大也不要太小。
(3)把落入第 i 个小区间的 Ai 的样本值的个数记作 fi,成为组频数(真实值),所有组频数之和 f1+f2+...+fk 等于样本容量 n。
(4)当 H0 为真时,根据所假设的总体理论分布,可算出总体 X 的值落入第 i 个小区间 Ai 的概率 pi,于是,npi 就是落入第 i 个小区间 Ai 的样本值的理论频数(理论值)。
(5)当 H0 为真时,n 次试验中样本值落入第 i 个小区间 Ai 的频率 fi/n 与概率 pi 应很接近,当 H0 不真时,则 fi/n 与 pi 相差很大。基于这种思想,皮尔逊引进如下检验统计量:

公式

在 0 假设成立的情况下服从自由度为 k-1 的卡方分布。 ​

# 9、参考文献

[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2]茆诗松, 王静龙, 濮晓龙, 等. 高等数理统计 (第二版)[M]. 北京: 高等教育出版社, 2006.
[3]陆运清. 用 Pearson's 卡方统计量进行统计检验时应注意的问题[J]. 统计与决策, 2009 (15): 32-33.

建议反馈