稳健回归(RANSAC)
# 1、作用
稳健回归(RANSAC),用于当线性回归(OLS)遇到样本点存在异常点的时候,用于代替最小二乘法的一个算法。同时稳健回归还可以用于异常点检测,或者是找出那些对模型影响最大的样本点。
# 2、输入输出描述
输入:自变量 X 至少一项或以上的定量变量或二分类定类变量,因变量 Y 要求为定量变量(若为定类变量,请使用逻辑回归)。
输出:模型检验优度的结果,自变量对因变量的线性关系等等。
# 3、案例示例
案例:通过自变量(房子年龄、是否有电梯、楼层高度、房间平方)拟合预测因变量(房价),有些样本存在虚假交易、炒房等行为,即为异常样本,不能使用常见的最小二乘法 OLS 回归分析,需要使用稳健回归(RANSAC)模型。
# 4、案例数据
# 5、案例操作
Step1:新建分析;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
step4:选择【稳健回归】;
step5:查看对应的数据数据格式,按要求输入【稳健回归】的数据。
step6:设置事件发生节点。
step7:点击【开始分析】,完成全部操作。
# 6、输出结果分析
输出结果 1:稳健回归(RANSAC)
图表说明:
上表格展示了本次模型的分析结果,包括模型的标准化系数、t 值,VIF 值,R²,调整 R² 等 ,用于模型的检验,并分析模型的公式 。
● Robust 回归主要用于存在异常值时进行回归分析、对回归结果的稳定性进一步考查。
● Robust 回归的 R² 和 F 检验结果,一般不具有参考意义,可以不进行分析。
B 是有常数情况下的的系数 标准误=B/t 值;
标准化系数是将数据标准化后得到的系数;
F(df1,df2)是 df1 等于自变量数量;
df2 等于样本量 -(自变量数量+1);
分析:
相较于线性回归分析结果(如下表):
稳健回归认为,楼层对房价的负面影响没有那么大,线性回归可能是受到了虚假交易、炒房数据的极端值影响。
输出结果 2:模型路径图
图表说明:
上图以路径图形式展示了本次模型结果,主要包括模型的系数,用于分析 X 对于 Y 的影响关系情况。
输出结果 3:模型结果图
图表说明:
上图以可视化的形式展示了本次模型的原始数据图、模型拟合值。
图表说明:
上表格用于对稳健回归(RANSAC)的进行预测。
# 7、注意事项
- 稳健回归对残差赋予权重,因此 R² 与 F 值已经丢失原有的意义,不具有参考意义,可以不进行分析。
- 稳健回归不需要对数据进行清洗(包括异常值检验等),如果数据不存在离群点,建议使用线性回归(OLS)即可。
- SPSSPRO 使用的稳健回归算法为 RANSAC——随机抽样一致。
# 8、模型理论
估计的稳健性(Robustness)概念指的是在估计过程中产生的估计量对模型误差的不敏感性。因此,稳健估计是在较宽的资料范围内产生的优良估计。如在独立同分布正态误差的线性模型中,最小二乘估计(LSE)是有效无偏估计,而当误差是非正态分布时,LSE 不一定是最有效的。误差分布事先不一定知道,故有必要考虑稳健回归的问题。稳健回归(Robust Regression)估计,若误差为正态,它比 LSE 稍差,若误差为非正态,则比 LSE 要好得多。这种对误差项分布的稳健特性,常能有效排除异常值干扰。一般回归模型:
其中,β1,β2,…,βp 为未知回归系数,e1,e2,…,en 独立同分布,均值为 0。最小二乘法是找到一组 β1,β2,…,βp,使得表达式达到最小时作为代价函数。但这样做往往使得远离数据群体的数据(很可能是异常值)对残差平方和影响比其他数据大得多,因为 LSE 为了达到极小化残差平方和的目的,必须迁就远端的数据,所以异常值对于参数估计相当敏感。
稳健回归的基本思想是采用迭代加权最小二乘估计回归系数,根据回归残差的大小确定各点的权重 wi,以达到稳健的目的,其优化的目标函数 Gmin 为:
为减少“异常点”作用,可对不同的点施加不同的权重,即对残差小的点给予较大的权重,而对残差较大的点给予较小的权重。根据残差大小确定权重,并据此建立加权的 LSE,反复迭代以改进权重系数,直至权重系数的改变小于一定的允许误差。参数 βj 可采用迭代加权最小二乘方法求解。目前构造权重的方法很多,得到的稳健回归估计大同小异。
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.