SPSSPRO,让数据分析更简单,问卷调查类数据分析不再愁 产品介绍 帮助中心 客户端
微信登录
  • 产品简介

  • 我的数据

  • PRO绘图

  • 数据处理

  • 数据分析

    • 描述性分析

    • 问卷分析

    • 综合评价

    • 差异性分析

    • 相关性分析

    • 预测模型

    • 统计建模

    • 计量经济模型

      • 时间序列分析

      • 进阶回归分析

        • 稳健回归(RANSAC)
        • 分位数回归
        • 面板模型
        • 两阶段回归
          • 1、作用
          • 2、输入输出描述
          • 3、案例示例
          • 4、案例数据
          • 5、案例操作
          • 6、输出结果分析
          • 7、注意事项
          • 8、模型理论
          • 9、参考文献
        • GMM估计
        • 双重差分DID(倍差法)
        • Tobit回归
        • 计数数据回归
        • 倾向得分匹配
        • 断点回归
    • 医学统计模型

    • 机器学习分类

    • 机器学习回归

    • 规划求解

    • 研究模型

    • 信号分析

    • 自定义算法

    • 过程能力分析

    • 控制图

    • 测量系统分析

    • 可靠性生存分析

两阶段回归

操作视频
SPSSPRO教程-两阶段回归

# 1、作用

标准线性回归模型无法解决内生性问题(内生性问题通常由 X 变量遗漏、X->Y 时 X 与 Y 没有相关关系、XY 双向影响三类产生),此类问题一般采用两阶段回归解决,其分两个阶段进行,第一阶段,被解释变量(内生变量)与解释变量(工具变量、外生变量)进行回归,得到内生变量的拟合值;第二阶段,被解释变量(因变量)与解释变量(内生变量的拟合值、外生变量)进行回归。

# 2、输入输出描述

输入:因变量 Y 要求为一个定量变量。内生变量 X1 要求为定量变量。
工具变量 Z 为定量变量,且个数要大于等于内生变量个数。
外生变量 X2 要求为定量变量,若为定类变量,建议自行对其进行哑变量化后再进行处理。
输出:内生变量的内生性检验、外生变量的过度识别检验、两阶段回归系数及拟合效果。

# 3、案例示例

案例:想要研究影响工资收入的因素,我们根据理论知识,选用能力、受教育年限、是否居住于大城市、在现单位工作年限作为自变量。但是我们很快面临了一个问题,就是这个能力变量无法获得,因为一个人的能力我们很难了解,也很难衡量,这就是遗漏变量问题。解决方法:我们可以引入代理变量的概念,选择智商作为“能力”的一个代理变量, 智商解释了能力的一部分,这个是符合常理的,但由于智商不能完全度量能力,依旧是存在内生性问题。所以选用智商作为内生变量,并且由理论基础可以知道,在校成绩、母亲受教育水平与智商相关,与收入相关不大,由此选用这两个因素作为工具变量,建立两阶段回归。

# 4、案例数据


两阶段回归案例数据

# 5、案例操作


Step1:新建分析;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;

step4:选择【两阶段回归】;
step5:查看对应的数据数据格式,按【两阶段回归】要求输入数据;
step6:点击【开始分析】,完成全部操作。

# 6、输出结果分析

输出结果 1:变量类型

字段名 变量类型
工资 因变量
智商 内生变量
母亲受教育年限 工具变量
成绩 工具变量
受教育年限 外生变量
是否大城市 外生变量
当前单位工作年限 外生变量

图表说明:上表为模型变量类型。
● 在两阶段回归中,内生变量和外生变量都是解释变量。外生变量是指可以直接完全对因变量产生影响的解释变量;内生变量是指可以直接但不完全对因变量产生影响的解释变量,(通常包括有出现 X 变量遗漏、X 测量误差、XY 双向影响这三种情况的变量)。
● 工具变量是为了把内生变量中能对因变量的产生影响的那部分过滤出来。工具变量通常选取与内生变量 X1 有着强相关,但其与因变量 Y 有着弱相关的那些变量。

输出结果 2:内生性检验

检验 统计量 p 值
Wu-hausman 5.927 0.015**

图表说明:上表格展示了内生性检验结果,显著性 P 值为 5.927,呈现显著性,拒绝原假设,选中的内生变量中具有内生性。

输出结果 3:过度识别检验

检验 统计量 p 值
sargan 检验 0.095 0.758

图表说明:上图展示了过度识别检验结果,显著性 P 值为 0.095,不呈现显著性,不能拒绝原假设,工具变量变量全为外生。

输出结果 4:两阶段回归结果

图表说明:上表格展示了两阶段模型的参数结果及检验结果,wald 值为 299.209,其显著性 P 值为 0.000***,呈现显著性,拒绝原假设,说明解释变量中至少有一个变量会对被解释变量产生显著影响。

# 7、注意事项

  • 内生性问题首先是理论模型,需要根据理论研究来发现可能存在的内生性问题,其次才是统计模型,在发现可能存在的内生性问题后用统计模型去验证。所以内生性问题不是靠统计发现的,是要自己去发掘的。

# 8、模型理论

两阶段最小二乘法可以解决内生性问题,若现有以下回归方程:

其中,y1 是被解释变量,y2 是内生变量,x1 是外生变量。X 由(y2, x1)组合而成,包含了内生和外生变量。
假设我们可以找到一组外生的变量(工具变量)z=(x1,x21),其中 x1 是自己的工具变量,x2 是 y2 的工具变量。

两阶段回归将通过 1 两个阶段来对问题进行求解。
(一)第一阶段:用内生解释变量对所有外生解释变量、工具变量回归得到拟合值。第一阶段回归的参数约束 检验,可以确定工具变量的有效性:检验统计量 时,认为工具变量与被工具的内生变量充分相关,工具变量可行。

(二) 第二阶段,用被解释变量对外生解释变量、第 1 阶段回归的拟合值进行回归。

# 9、参考文献

[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2]陈强,高级计量经济学及 Stata 应用[M], 高等教育出版社,2014.

建议反馈