单因素方差分析
# 方差分析
# 1、作用
方差分析(单因素方差分析或 F 检验)用于定类字段(X)与 1 个或 1 个以上的定量字段(Y)之间的差异性研究。需要注意的是,一个定类字段称为单因素方差分析,两个定类字段及以上称为多因素方差分析,与独立样本 T 检验不同的是,方差分析可用于多分类定类字段数据的差异性分析,T 检验只能作用于二分类定类变量。
# 2、输入输出描述
输入:一个定类字段(如受教育程度)、一个或多个定量字段(如工资、家庭年收入)
输出:模型检验的结果:同一因素不同分组(如:不同的受教育程度 X)对定量变量(如:工资 Y)产生/不产生显著性影响
# 3、案例示例
案例:分析个人受教育程度(定类变量)是否给个人的经济收入(定量变量)带来显著性影响
# 4、案例数据
方差分析案例数据
# 5、案例操作
Step1:新建项目;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
step4:选择【方差分析】;
step5-6:查看对应的数据数据格式,【方差分析】要求输入数据为分组定类变量,变量数=1;放入定量变量,变量数至少为 1 项;
step6:点击【开始分析】,完成全部操作。
# 6、输出结果分析
输出结果 1:正态性检验结果
变量名 | 样本量 | 平均值 | 标准差 | 偏度 | 峰度 | S-W 检验 | K-S 检验 |
---|---|---|---|---|---|---|---|
月收入 | 50 | 4959.8 | 3279.92 | 0.6 | -0.468 | 0.945(0.022*) | 0.116(0.481*) |
图表说明: 上表展示了定量变量月收入描述性统计和正态性检验的结果,包括中位数、平均值等,用于检验数据的正态性。分析项:月收入,样本采用 Shapiro-Wilk 检验,显著性 P 值为 0.022_,水平上呈现显著性,拒绝原假设,因此数据不满足正态分布,其峰度(-0.468)绝对值小于 10 并且偏度(0.6)绝对值小于 3,可以结合正态分布直方图、PP 图或者 QQ 图进行进一步分析,如果分布大致正态化,可以描述为基本符合正态分布。
输出结果 2:正态性检验直方图
图表说明:上图展示了定量变量月收入数据正态性检验的结果,若正态图基本上呈现出钟形(中间高,两端低), 则说明数据虽然不是绝对正态,但基本可接受为正态分布。
输出结果 3:方差齐性检验
学历(标准差) | F | P | ||||
---|---|---|---|---|---|---|
1(n=13) | 2(n=19) | 3(n=6) | 4(n=12) | |||
学历 | 1960.623 | 2729.114 | 1633.732 | 1721.270 | 1.602 | 0.202 |
图表说明:上表展示了方差齐性的结果,包括标准差、F 检验结果、显著性 P 值。方差齐性检验的结果显示,对于时间,显著性 P 值为 0.202*,水平上不呈现显著性,不能拒绝原假设,因此数据满足方差齐性。
输出结果 4:单因素方差分析对比图
图表说明:上图展示了方差分析的均值的结果,通过比较均值,可以挖掘其差异关系。
输出结果 5:方差分析结果表
变量名 | 变量值 | 样本量 | 平均值 | 标准差 | F 值 | p 值(双尾) |
---|---|---|---|---|---|---|
月收入 | 1.0 | 13 | 4420.462 | 1960.623 | -3.932 | 0.000 |
2.0 | 19 | 7889.263 | 2729.114 | |||
3.0 | 6 | 2803.833 | 1633.732 | |||
4.0 | 12 | 1983.750 | 1721.270 | |||
总计 | 50 | 4959.800 | 3279.920 |
图表说明:上表展示了方差分析的结果,包括均值 ± 标准差的结果、F 检验结果、显著性 P 值。1.0 与 2.0 与 3.0 与 4.0 在月收入上的均值分别为:4420.462、7889.263、2803.833、1983.750;T 检验结果 p 值为 0.000≤0.05,因此统计结果显著,说明 1.0 与 2.0 与 3.0 与 4.0 在月收入上存在显著差异。
输出结果 6:效应量化分析表
分析项 | 组间差 | 总离差 | 偏 Eta 方(Partial η²) | Cohen’s f 值 |
---|---|---|---|---|
月收入 | 301006488.002 | 527136008.000 | 0.571 | 1.154 |
图表说明:上表展示了效应量化分析的结果,包括组间差异、总差异、偏 Eta 方 η²、Cohen's f 值,用于分析数据间的差异。效应量化分析的结果显示,基于月收入,Eta 方(η² 值)为 0.571,说明数据的差异有 57.1%是来源于不同组别间的差异。Cohen’s f 值为 1.154,说明数据的效应量化的差异程度为大程度差异
# 7、注意事项
- 从理论上方差分析的分析变量(定量变量)Y 需要满足正态性检验与方差齐检验,如果不满足,建议采用非参数多独立样本检验;
- 单因素方差分析与独立样本 T 检验的区别主要在于分析的分组个数,独立样本 T 检验支持 2 个分组,超过三个分组需要采用方差分析,从原理上来说本来 t 检验和 F 检验在公式上推倒上是可以相通的,两个检验的条件都得符合正态性和方差齐性
# 8、模型理论
# 概念
- 因素(条件):在进行方差分析研究时,所要检验的对象称为因素或条件;
- 水平(处理):因素对应的不同取值称为水平或处理;
- 观测值:每个因素水平下得到的实验数据称为观 测值。 设因素共有k个水平,而各个水平的均值分别用
表示,要同时检验k个水平(即k个总体)的均值是否相等,需要提出如下假设: - ,因素对实验结果的影响比随机误 差对实验结果的影响小; - 不全相等,因素对实验结果的影响比 随机误差对实验结果的影响大。
# 基本假设
- 线性假定,即模型假定为线性的;
- 各个总体均服从正态分布。对于因素的每一个水平来说,观测值都是来自正态总体的简单随机样本;
- 各个总体的方差$σ^{2} $应相等。对于各组观测数据,它们是具有从相同方差的正态分布中抽取的;
- 观测值是独立的。
# 分析操作步骤
第一步:
提出两种假设(原假设与备择假设)。
,因素对实验结果的影响比随机误差对实验结果的影响小; 不全相等,因素对实验结果的影响比随机误差对实验结果的影响大。
如果拒绝原假设
如果不拒绝原假设
特别指出,当拒绝原假设
第二步:
选择并且构造检验统计量。 为了检验原假设H0是否成立,需要先选择合适的检验统计量,并且计算检验统计量的值。 分别计算因素在不同水平的均值:
计算全部观测值的总均值:
其中,n = n1 + n2 + ... + nk
为了构造检验统计量,首先需要计算3个误差平方和:分别是总误差平方和(SST )、因素误差平方和(SSA )、 随机误差平方和( SSE )。其计算公式如下:
三者之间存在:
即SST = SSA + SSE
由于三个误差平方和的大小都受到观测数据数目多少的影响,观测值数目越多,计算得到的误差平方和越大。为了消除观测值数目多少对误差平方和计算结果大小的影响,需要用各平方和计算结果除以它们各自所对应的自由度,即是均方。三个自由度分别为: n-1,k-1 与 n-k 。
SSA 的均方也被称为组间均方或组间方差,记为 MSA 。计算公式可以表示为:
SSE 的均方也被称为组内均方或组内方差,记为 MSE 。其计算公式为:
统计理论已经证明,组间均方与组内均方之比是一个服从F分布的统计量。将 MSA 与 MSE 进行对比,即得到所需要的 F 检验统计量,如下所示。
第三步:
根据给定的显著性水平α,查F分布表,确定临界值F_α(k-1,n-k)。
根据给定的显著性水平α 、分子(组间均方)自由度
第四步:
做出统计意义上的决策。 根据计算得到的检验统计量的值F,与查表所得的 临界值
若
若
在进行统计决策时,还可以直接利用方差分析表中输出 P值与显著性水平α进行比较,得出结论。
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2]戴金辉, 袁靖. 单因素方差分析与多元线性回归分析检验方法的比较[J]. 统计与决策, 2016, No.453(09):23-26.