SPSSPRO,让数据分析更简单,问卷调查类数据分析不再愁 产品介绍 帮助中心 客户端
微信登录
  • 产品简介

  • 我的数据

  • PRO绘图

  • 数据处理

  • 数据分析

    • 描述性分析

    • 问卷分析

    • 综合评价

    • 差异性分析

    • 相关性分析

    • 预测模型

    • 统计建模

    • 计量经济模型

      • 时间序列分析

      • 进阶回归分析

        • 稳健回归(RANSAC)
        • 分位数回归
        • 面板模型
        • 两阶段回归
        • GMM估计
        • 双重差分DID(倍差法)
        • Tobit回归
        • 计数数据回归
        • 倾向得分匹配
        • 断点回归
          • 1、作用
          • 2、输入输出描述
          • 3、案例示例
          • 4、案例数据
          • 5、案例操作
          • 6、输出结果分析
          • 7、注意事项
          • 8、模型理论
          • 9、参考文献
    • 医学统计模型

    • 机器学习分类

    • 机器学习回归

    • 规划求解

    • 研究模型

    • 信号分析

    • 自定义算法

    • 过程能力分析

    • 控制图

    • 测量系统分析

    • 可靠性生存分析

断点回归

操作视频
SPSSPRO教程-断点回归

# 1、作用

断点回归主要用于政策分析,其基本思想是存在分组变量X,该变量能决定个体在断点两侧接受政策干预的概率(精确断点回归处理概率为0跳跃至1,模糊断点回归则不是)。由于X在断点两侧是连续的且认为个体针对X的取值落入断点任意一侧是随机发生的,则断点附近是一个准自然实验,从而可以用于分析引起断点的政策因素对结果的具体影响。

# 2、输入输出描述

输入:定量的结果变量Y、分组变量X,可选的定量协变量和处理变量D。
输出:断点回归的方程以及政策因素的影响情况。

# 3、案例示例

案例:统计局需要考上重点大学对工资收入的影响,而是否上本科取决于高考分数。故可以使用断点回归对该情况进行分析。其中工资收入为结果变量,高考分数为分组变量(根据断点进行分组),是否上重点大学为处理变量,文科理科为协变量(其中1为文科;2为理科)。

# 4、案例数据


断点回归案例数据

# 5、案例操作


Step1:新建分析;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;

step4:选择【断点回归】;
step5:查看对应的数据数据格式,按要求输入【断点回归】数据;
step6:点击【开始分析】,完成全部操作。

# 6、输出结果分析

输出结果1:散点分布图

图表说明:上图以可视化的形式展示接受不同处理的样本的分布情况。以高考分数520作为断点,将数据分成两部分,其中低于520分的工资水平偏低;高于520的工资水平偏高。

输出结果2:断点回归拟合图

图表说明:上图展示了在对应阶数断点回归模型的拟合情况,由拟合结果可知,低于520分的人群,随着成绩的增加,工资水平有着缓慢的增长,增长的幅度不大;而高于520分的人群,求着成绩的增加,工资水平有着明显的增长。

输出结果3:断点回归结果


图表说明:上表展示了断点模型的结果。
Conventional方法的系数为6.942,显著性P值为0.023**,认为有明显的效应,效应为正向。
Bias-Corrected方法的系数为6.701,显著性P值为0.028**,认为有明显的效应,效应为正向。
Robust方法的系数为6.701,显著性P值为0.067*,认为没有明显的效应,效应为正向。
各种方法在10%的显著性水平下的结论都是显著的,且均为正向效应。

**输出结果4:协变量连续性检验
**

图表说明:上表展示了协变量连续性检验结果,检验了协变量在断点处有没有出现跳跃性,我们希望协变量符合连续性假设。文科理科的系数为0.145,说明理科的工资会比文科工资稍微高一些,显著性P值为0.659,水平上不呈现显著性,不拒绝原假设,认为没有跳跃性。

输出结果5:稳健性检验

图表说明:上表展示了稳健性结果,分析不同带宽情况下断点回归的结果,检验结果是否产生较大的变化。在该检验中,我们希望结果差异不要太大,如果差异较大,尤其是影响方向有变化,需要考虑断点回归结果是否存在问题。

# 7、注意事项

  • 断点的值是针对于分组变量而言的,断点的值必须位于分组变量值中。

# 8、模型理论

断点回归设计是一种准自然实验, 其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的,因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。一般将该连续变量X称为分组变量 (assignment variable)。

断点回归是局部的随机实验,则原则上只应使用断点附近的观测值,而不是使用全部数据。这就需要使用宽带,例如汇报的带宽是0.5,那么就是说假设你的断点是10,那么一倍最优带宽(mbw(100))回归的就是取值在9.75-10.25范围的做了局部回归,如果你设置带宽为最优带宽的2倍也就是mbw(200)那就是说你的局部回归是从断点的取值9-11。最优带宽的计算是通过最小化两个回归函数在断点的均方误来选择的。

其中

假设c是断点(cutoff ),Di是处理变量,处理变量完全依赖于分组变量:

得到局部回归方程:

(1)精确断点回归
特征是断点x=c处,个体得到处理的概率从0跳跃到1。比如说上重点高中的分数在XX分,低于录取线的学生上重点高中的比例为0,高于录取线的学生上重点高中的比例为1。
(2)模糊断点回归
特征是断点x=c处,个体得到处理的概率从a跳跃到b,其中0<a<b<1。比如说上重点高中的分数在XX分,但由于个人偏好有些人达到了分数却没有上重点高中;又或者由于少数民族身份等有些人没有达到分数却可以上重点高中。
很明显,模糊断点回归更接近于现实,在进行断点回归时最好加入其它遗漏掉的处理变量。

# 9、参考文献

[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2] 陈强. 高级计量经济学及 Stata 应用[M]. 高等教育出版社, 2010.

建议反馈