SPSSPRO,让数据分析更简单,问卷调查类数据分析不再愁 产品介绍 帮助中心 客户端
微信登录
  • 产品简介

  • 我的数据

  • 数据处理

  • 数据分析

    • 描述性分析

    • 问卷分析

    • 综合评价

    • 差异性分析

    • 相关性分析

    • 预测模型

    • 统计建模

    • 计量经济模型

    • 医学统计模型

      • 比例风险回归(COX回归)
      • Kaplan-Meier生存曲线
      • Ridit分析
      • 卡方检验(自动选取最优求解器)
        • 1、作用
        • 2、输入输出描述
        • 3、案例示例
        • 4、案例数据
        • 5、案例操作
        • 6、输出结果分析
        • 7、注意事项
        • 8、模型理论
        • 9、参考文献
      • Pearson卡方检验
      • Yates校正卡方检验
      • Fisher精确检验
      • 分层卡方分析
      • 配对卡方检验
      • 重复测量方差
      • 条件逻辑回归
      • Bland-Altman法
      • 竞争风险模型
      • 概率单位回归(剂量分析)
      • 寿命表
    • 机器学习分类

    • 机器学习回归

    • 规划求解

    • 研究模型

    • 信号分析

    • 自定义算法

卡方检验(自动选取最优求解器)

操作视频
SPSSPRO教程-卡方检验(自动选取最优求解器)

# 1、作用

卡方检验主要是比较定类变量X与定类变量Y之间的差异性分析。系统将根据输入的数据,自动判断其更适合于哪种卡方检验。

# 2、输入输出描述

输入:一个定类变量 X(如学校字段,包括甲学校、乙学校)与定类字段 Y(如甲学校 40 名学生与乙学校 60 名学生的体育成绩等级)。
输出:模型检验的结果,如甲学校与乙学校的学生体育成绩等级存在/不存在显著性差异。

# 3、案例示例

案例:分析班级(定类变量)与分科意向(定类变量)是否有显著性差异。

# 4、案例数据


卡方检验(自动选取最优求解器)

# 5、案例操作


Step1:新建项目;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;

step4:选择【卡方检验(自动选取最优求解器)】;
step5:查看对应的数据数据格式,【卡方检验(自动选取最优求解器)】要求输入数据为一个定类变量 X 和另一个定类变量 Y;
step6:点击【开始分析】,完成全部操作。

# 6、输出结果分析

输出结果 1:卡方检验结果
注:*、**、***分别代表 1%、5%、10%的显著性水平

图表说明:
上表展示了模型检验的结果,包括数据的频数、频数百分比、卡方值、显著性P值。若p<0.05,呈现显著性,拒绝原假设,则说明分类变量X与分类变量Y之间存在显著性差异。
卡方检验方法的选取有以下规则:
● 针对2×2列联表(R=2,C=2,即在列联表中行R、列C都只有两个分类水平,比如性别只有男、女两个分类水平):可选择使用pearson卡方检验、Yates校正卡方检验、fisher精确检验。
1.所有的单元格理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验。
2.如果存在单元格理论数1 <=T<5,并且总样本量n≥40,用Yates校正卡方进行检验。
3.如果存在单元格理论数T<1或总样本量n<40,则用Fisher精确检验。
● 针对R×C列联表(R>2或C>2):可选择使用pearson卡方检验、Yates校正卡方检验。
● 1.全部单元格理论数T>=1 且 1 <=T<5单元格的比例小于20% ,则使用Pearson卡方
2.若不能达到Pearson卡方检验的使用要求,则使用Yates校正卡方检验。
分析:根据列联表的数据,系统智能选择Pearson卡方检验,显著性P值为0.080*,水平上不呈现显著性,不能拒绝原假设,因此班级和分科意向数据不存在显著性差异。

输出结果 2:交叉列联表热力图

图表说明:上图展示了热力图的形式展示了交叉列联表的值,主要通过颜色深浅去表示值的大小。

输出结果 3:效应量化分析

字段名/分析项 Phi Crammer‘s V 列联系数 lambda
分科意向-班级 0.258 0.258 0.25 0.227

图表说明:上表展示了效应量化分析的结果,包括 phi、Crammer's V、列联系数、lambda ,用于分析样本的相关程度。
1. 当呈现出显著性差异(前提),结合分析效应量指标对差异性进行量化分析;
2. 效应量化指标反映的是变量之间的相关程度;
3. 根据交叉类型的不同,可以选用不同的效应量指标。(交叉类型表示:交叉表横向格子数 × 纵向格子数);
4. phi 系数: phi 相关系数的大小,表示两样本之间的关联程度。当 phi 系数小于 0.3 时,表示相关较弱;当 phi 系数大于 0.6 时,表示相关较强。(用于 2×2 交叉类型表);
5. Cramer's V: 与 phi 系数作用相似,但 Cramer's V 系数的作用范围较广。当两个变量相互独立时,V=0,当数据中只有 2 个二分类变量时,Cramer's V 系数的结果与 phi 相同(若 m≠n,建议使用 Cramer's V );
6. 列联系数:简称 C 系数,用于 3×3 或 4×4 交叉表,但其受行列数的影响,随着 R 和 C 的增大而增大。因此根据不同的行列和计算的列联系数不便于比较,除非两个列联表中行数和列数一致;
7. lambda:用于反应自变量对因变量的预测效果,一般情况下,其值为 1 时表示自变量预测因变量效果较好,为 0 时表明自变量预测因变量较差(X 或 Y 有定序数据时,建议使用 lambda)。
分析:效应量化分析的结果显示,分析项:分科意向 Cramer's V 值为 0.258,因此班级和分科意向的差异程度为中等程度差异。

# 7、注意事项

  • 如果个别字段的期望次数太低,会使机率分配无法近似于卡方分配。一般要求:自由度 df>1 时,期望次数小于 5 的字段不多于总字段的 20%;

# 8、模型理论

卡方检验(自动选取最优求解器)在Pearson卡方检验、Pearson卡方检验、Fisher精确检验中选中,理论部分详见上三种卡方检验的帮助文档。

# 9、参考文献

[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2]方积乾.生物医学研究的统计方法[M].高等教育出版社:北京,2007:138-139.
[3]Greenwood, P. (1996).A Guide to Chi-Squared Testing (Wiley Series in Probability and Statistics)1st Edition. Wiley Interscience.

建议反馈