稳健回归(RANSAC)

操作视频

SPSSPRO教程-稳健回归(RANSAC)

# 1、作用

稳健回归（RANSAC），用于当线性回归（OLS）遇到样本点存在异常点的时候，用于代替最小二乘法的一个算法。同时稳健回归还可以用于异常点检测，或者是找出那些对模型影响最大的样本点。

# 2、输入输出描述

输入：自变量 X 至少一项或以上的定量变量或二分类定类变量，因变量 Y 要求为定量变量（若为定类变量，请使用逻辑回归）。
输出：模型检验优度的结果，自变量对因变量的线性关系等等。

# 3、案例示例

案例：通过自变量（房子年龄、是否有电梯、楼层高度、房间平方）拟合预测因变量（房价），有些样本存在虚假交易、炒房等行为，即为异常样本，不能使用常见的最小二乘法 OLS 回归分析，需要使用稳健回归（RANSAC）模型。

# 4、案例数据

稳健回归案例数据

# 5、案例操作

Step1：新建分析；
Step2：上传数据；
Step3：选择对应数据打开后进行预览，确认无误后点击开始分析；

step4：选择【稳健回归】；
step5：查看对应的数据数据格式，按要求输入【稳健回归】的数据。
step6：设置事件发生节点。
step7：点击【开始分析】，完成全部操作。

# 6、输出结果分析

输出结果 1：稳健回归（RANSAC）

图表说明：
上表格展示了本次模型的分析结果，包括模型的标准化系数、t 值，VIF 值，R²，调整 R² 等，用于模型的检验，并分析模型的公式。
● Robust 回归主要用于存在异常值时进行回归分析、对回归结果的稳定性进一步考查。
● Robust 回归的 R² 和 F 检验结果，一般不具有参考意义，可以不进行分析。
B 是有常数情况下的的系数标准误=B/t 值;
标准化系数是将数据标准化后得到的系数;
F（df1，df2）是 df1 等于自变量数量；
df2 等于样本量 -（自变量数量+1）;
分析：
相较于线性回归分析结果（如下表）：

稳健回归认为，楼层对房价的负面影响没有那么大，线性回归可能是受到了虚假交易、炒房数据的极端值影响。
输出结果 2：模型路径图

图表说明：
上图以路径图形式展示了本次模型结果，主要包括模型的系数，用于分析 X 对于 Y 的影响关系情况。
输出结果 3：模型结果图

图表说明：
上图以可视化的形式展示了本次模型的原始数据图、模型拟合值。

图表说明：
上表格用于对稳健回归（RANSAC）的进行预测。

# 7、注意事项

稳健回归对残差赋予权重，因此 R² 与 F 值已经丢失原有的意义，不具有参考意义，可以不进行分析。
稳健回归不需要对数据进行清洗（包括异常值检验等），如果数据不存在离群点，建议使用线性回归（OLS）即可。
SPSSPRO 使用的稳健回归算法为 RANSAC——随机抽样一致。

# 8、模型理论

估计的稳健性（Robustness）概念指的是在估计过程中产生的估计量对模型误差的不敏感性。因此，稳健估计是在较宽的资料范围内产生的优良估计。如在独立同分布正态误差的线性模型中，最小二乘估计（LSE）是有效无偏估计，而当误差是非正态分布时，LSE 不一定是最有效的。误差分布事先不一定知道，故有必要考虑稳健回归的问题。稳健回归（Robust Regression）估计，若误差为正态，它比 LSE 稍差，若误差为非正态，则比 LSE 要好得多。这种对误差项分布的稳健特性，常能有效排除异常值干扰。一般回归模型：

其中，β1，β2，…，βp 为未知回归系数，e1，e2，…，en 独立同分布，均值为 0。最小二乘法是找到一组 β1,β2,…,βp，使得表达式达到最小时作为代价函数。但这样做往往使得远离数据群体的数据（很可能是异常值）对残差平方和影响比其他数据大得多，因为 LSE 为了达到极小化残差平方和的目的，必须迁就远端的数据，所以异常值对于参数估计相当敏感。
稳健回归的基本思想是采用迭代加权最小二乘估计回归系数，根据回归残差的大小确定各点的权重 wi，以达到稳健的目的，其优化的目标函数 Gmin 为：

为减少“异常点”作用，可对不同的点施加不同的权重，即对残差小的点给予较大的权重，而对残差较大的点给予较小的权重。根据残差大小确定权重，并据此建立加权的 LSE，反复迭代以改进权重系数，直至权重系数的改变小于一定的允许误差。参数 βj 可采用迭代加权最小二乘方法求解。目前构造权重的方法很多，得到的稳健回归估计大同小异。

# 9、参考文献

[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.

建议反馈