多因素方差分析
# 1、作用
当有两个或者两个以上的因素对因变量产生影响时,可以用多因素方差分析的方法来进行分析。其原理与单因素方差分析基本一致,也是利用方差比较的方法,通过假设检验的过程来判断多个因素是否对因变量产生显著性影响。在多因素方差分析中,由于影响因变量的因素有多个,其中某些因素除了自身对因变量产生影响之外,它们之间也有可能会共同对因变量产生影响。
# 2、输入输出描述
输入:多个定类变量 X1,X2,...,Xn(如电脑的品牌、广告形式和生产地区)与一个定量变量 Y(如电脑销量)
输出:模型分析的结果:变量 X1 对定量变量产生/不产生显著性影响,变量 X2 对定量变量产生/不产生显著性影响, ... ,变量 Xn 对定量变量产生/不产生显著性影响等
# 3、案例示例
案例:分析品牌、地区和广告形式多个定类自变量对电脑销量 (定量因变量) 的影响。
# 4、案例数据
# 5、案例操作
Step1:新建项目;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
step4:选择【多因素方差分析】;
step5:查看对应的数据数据格式,【多因素方差分析】要求输入数据为分组定类自变量,变量数>=2;放入定量因变量,变量数为1项;
step6:进行相关设置;
step7:点击【开始分析】,完成全部操作。 ## 6、输出结果分析 **输出结果1:多因素方差分析结果**
项 | 平方和 | 自由度 | 均方 | F | p |
---|---|---|---|---|---|
截距 | 2649689679.717 | 1 | 2649689679.717 | 3601.38 | 0.000*** |
品牌 | 286834540.466 | 4 | 71708635.117 | 97.464 | 0.000*** |
广告形式 | 8428.282 | 1 | 8428.282 | 0.011 | 0.915 |
地区 | 38251430.782 | 3 | 12750476.927 | 17.33 | 0.000*** |
误差 | 66952596.343 | 91 | 735742.817 | NaN | |
R方=0.852(调整后R方=0.839) |
图表说明:上表展示了多因素方差分析的结果,主效应如果显著可以进一步分析事后多重分析结果。
智能分析:多因素方差结果显示:
对于变量截距,从F检验的结果分析可以得到,显著性P值为0.000***水平上呈现显著性,对结果有显著性影响,存在主效应。
对于变量品牌,从F检验的结果分析可以得到,显著性P值为0.000***水平上呈现显著性,对结果有显著性影响,存在主效应。
对于变量广告形式,从F检验的结果分析可以得到,显著性P值为0.915水平上不呈现显著性,对结果没有显著性影响,不存在主效应。
对于变量地区,从F检验的结果分析可以得到,显著性P值为0.000***水平上呈现显著性,对结果有显著性影响,存在主效应。
# 7、注意事项
- 各样本须是相互独立的随机样本
- 各样本来自正态分布总体
- 各总体方差相等, 即方差齐
- 如果存在主效应显著,说明该因素不同组别之间存在显著差异,可以进一步对两两组别进行对比。通过案例操作 step6 选择事后多重比较
# 8、模型理论
# 1.介绍
当有两个或者两个以上的因素对因变量产生影响时,可以用多因素方差分析的方法来进行分析。其原理与单因素方差分析基本一致,也是利用方差比较的方法,通过假设检验的过程来判断多个因素是否对因变量产生显著性影响。
在多因素方差分析中,把因素单独对因变量产生的影响称之为“主效应”;把因素之间共同对因变量产生的影响,或者因素某些水平同时出现时,除了主效应之外的附加影响,称之为“交互效应”。多因素方差分析分为无交互效应和有交互效应两类情况。
此外,多因素方差分析往往假定因素与因变量之间的关系是线性关系。从这个方面来说,方差分析的模型也是如下一个一般化线性模型的延续:
无交互效应时:因变量=因素 1 主效应+因素 2 主效应+…+因素 n 主效应+随机误差。
有交互效用时:因变量=因素 1 主效应+因素 2 主效应+…+因素 n 主效应+因素交互效应1+因素交互效应2+…+因素交互效应m+随机误差。所以多因素方差分析往往选用一般化线性模型进行参数估计。
# 2.原理
# 1.模型建立
假设有 n 个因素 X1, ...,Xn,它们分别有个水平。在水平组合下样本相互独立,且。
是全部样本数据的总平均值:
,
是因素 1 的第 i1 个水平下各观察值的平均值:,
是因素 2 的第 i2 个水平下各观察值的平均值:,
........
是因素 n 的第in个水平下各观察值的平均值:,
为因素 1 的第i1 个水平的效应,为因素 2 的第i2 个水平的效应,...,为因素 n 的第 in 个水平的效应,分别为:。他们分别满足:
,若,则模型为:
# 2.提出假设
为了检验 n 个因素的影响,需要对 n 个因素分别提出以下假设:
- ,因素 1 (自变量)对因变量没有显著影响;
- ,因素 2 (自变量)对因变量没有显著影响;
- ......
- ,因素 n (自变量)对因变量没有显著影响。
# 3.构造检验的统计量
为检验假设是否成立,需要分别确定检验因素的统计量。
,
引入,则
因素 1 所产生的误差平方和为:
因素 2 所产生的误差平方和为:
.......
因素 n 所产生的误差平方和为:,
随机误差平方和:
# 4.多因素方差分析表
# 5.检验规则
若,则拒绝,表示在因素 1 的各水平下的效应有显著差异。其它因素的判断同。
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2] 郭萍. 三因素方差分析的原理及应用[J]. 沈阳大学学报(自然科学版),2015,27(1):40-43. DOI:10.3969/j.issn.2095-5456.2015.01.009.