双因素方差分析
# 1、作用
在现实研究中,一个变量的影响可能不足以说明差异效果,当方差分析中涉及两个定类自变量时,称为双因素方差分析,用于分析两个自变量对因变量带来的显著性影响。例如,分析对于电脑销售量,品牌和地区两个定类自变量对销量(定量变量)的影响。
# 2、输入输出描述
输入:两个定类变量(如电脑的品牌和生产地区)与一个定量变量(如电脑销量)。
输出:模型双因素方差分析的结果:变量一对定量变量产生/不产生显著性影响,变量二对定量变量产生/不产生显著性影响。
# 3、案例示例
案例:分析品牌和地区两个定类自变量对电脑销量(定量因变量)的影响。
# 4、案例数据
双因素方差分析案例数据
# 5、案例操作
step1:新建项目;
step2:上传数据;
step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
step4:选择【双因素方差分析】;
step5:查看对应的数据数据格式,【双因素方差分析】要求输入数据为分组定类变量,变量数为2项;放入定量变量,变量数为1项;
step6:进行相关设置;
step7:点击【开始分析】,完成全部操作。
# 6、输出结果分析
输出结果1:双因素方差分析结果
图表说明:上表展示了双因素方差分析的结果,主效应如果显著可以进一步分析事后多重分析结果。
分析:对于变量品牌,从F检验的结果分析可以得到,显著性P值为0.000***水平上呈现显著性,对结果有显著性影响,存在主效应。 对于变量地区,从F检验的结果分析可以得到,显著性P值为0.000***水平上呈现显著性,对结果有显著性影响,存在主效应。
输出结果2:均值对比图
图表说明:上图展示了双因素方差分析的均值的结果,通过比较不同分组变量的均值以及交叉情况(通常有交叉则有交互作用),可以挖掘其差异关系。
# 7、注意事项
- 每一个总体都服从正态分布,且有相同的方差。
- 需考虑是否是重复测量/是否满足独立性假设。
- 需考虑两个因素之间是否有交互作用,有交互作用可以在算法界面选择分析交互作用。
# 8、模型理论
# 1.介绍
1.概念 单因素方差分析只考虑一个定类自变量对定量因变量的影响。但在现实研究中,一个变量的影响可能不足以说明差异效果,有时候需要考察两个甚至多个因素对因变量的影响。当方差分析中涉及两个定类自变量时,称为双因素方差分析。例如,分析对于电脑销售量,品牌和地区两个定类自变量对销量 (定量变量) 的影响。
2.基本假设
- 线性假定,即模型假定为线性的;
- 各个总体均服从正态分布。对于因素的每一 个水平来说,观测值都是来自正态总体的简单随机样本;
- 各个总体的方差应相等。对于各组观测数据,它们是具有从相同方差的正态分布中抽取的;
- 观测值是独立的。
# 2.案例分析
1.案例介绍
例如,分析对于电脑销售量,品牌和地区两个定类自变量对销量的影响。假设品牌因素共有k个类型,列因素有r个水平。每一个观测值看做由行因素的k个水平和列因素的r个水平所组合成的k*r个总体中抽取的样本量为 1 的独立随机样本。这k*r个总体中的每一个总体都服从正态分布,且有相同的方差。
是列因素的第 i 个水平下各观察值的平均值,计算公式为,
是列因素的第 j 个水平下各观察值的平均值,计算公式为,
是全部个样本数据的总平均值,计算公式为。
2.分析操作步骤
第一步:提出假设
为了检验两个因素的影响,需要对两个因素分别提出以下假设:
对行因素提出的假设为:
- ,行因素(自变量)对因变量没有显著影响,(μi为行因素的第 i 个水平的均值)
- 不完全相等,行因素(自变量)对因变量有显著影响
对列因素提出的假设为: - ,列因素(自变量)对因变量没有显著影响,(μj为行因素的第 j 个水平的均值)
- 不完全相等,列因素(自变量)对因变量有显著影响
第二步:构造检验的统计量
为检验H0是否成立,需要分别确定检验行因素和列因素的统计量。与单因素方差分析构造统计量的方法一样,也需要从总平方和的分解入手。总平方和是全部样本观察值与总的样本平均值的误差平方和,记为SST,即:
- 其中分解后等式右边的第一项是行因素所产生的误差平方和。记为SSR,即
- 第二项是列因素所产生的误差平方和,记为 SSC,即
- 第三项是除行因素和列因素之外的剩余因素产生的误差平方和,称为随机误差平方和,记为 SSE,即
上述各平方和的关系:SST = SSR + SSC +SSE
在上述误差平方和的基础上,计算均方,即将各平方和除以相应的自由度,即为均方。与误差平方和相对应的自由度分别是:
- 总平方和SST的自由度为 kr - 1;
- 行因素的误差平方和SSR的自由度为k - 1;
- 列因素的误差平方和SSC的自由度为r - 1;
- 随机误差平方和SSE的自由度为(k-1)(r-1)。
为构造检验统计量,需要计算下列各均方:
- 行因素的均方,记为MSR:
- 列因素的均方,记为MSC:
- 随机误差项的均方,记为MSE:
为检验行因素对因变量的影响是否显著,采用下面的统计量:
为检验列因素对因变量的影响是否显著,采用下面的统计量:
第三步:统计决策
双因素方差分析表
计算出检验统计量后,根据给定的显著性水平α和两个自由度,查F分布表得到相应的临界值Fα,然后将F分布表得到相应的临界值FR和FC与Fα进行比较。
若FR>Fα,则拒绝原假设,表明之间的差异性是显著的;也就是说,所检验的行因素对观测值有显著影响。
若FC>Fα,则拒绝原假设,表明之间的差异性是显著的;也就是说,所检验的列因素对观测值有显著影响。
# 3.总结
双因素方差分析包括无交互作用和有交互作用两种:
- 无交互作用的双因素方差分析假定两个因素的效应之间相互独立,不存在相互关系;
- 有交互作用的双因素方差分析假定两个因素的结合会产生出一种新的效应。
以上介绍为无交互作用的双因素方差分析,有交互作用的方差分析需考虑交互作用项,系统提供了带有交互作用的双因素方差分析。
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2] Navidi W C . Principles of Statistics for Engineers and Scientists[J]. Business & Economics, 2009.