Lasso回归
# 1、作用
Lasso 方法是一种替代最小二乘法的压缩估计方法。Lasso 的基本思想是建立一个 L1 正则化模型,在模型建立过程中会压缩一些系数和设定一些系数为零,当模型训练完成后,这些权值等于 0 的参数就可以舍去,从而使模型更为简单,并且有效防止模型过拟合。被广泛用于存在多重共线性数据的拟合和变量选择。
# 2、输入输出描述
输入:自变量 X 至少一项或以上的定量变量或二分类定类变量,因变量 Y 要求为定量变量(若为定类变量,请使用逻辑回归)。
输出:模型检验优度的结果,自变量对因变量的线性关系和变量筛选结果等。
# 3、案例示例
案例:现对一批糖尿病患者进行分析,分别获得了年龄、性别、体重指数、平均⾎压等数据,现使用 Lasso 回归分析⼀年后疾病进展的测量值和重要影响变量。
# 4、案例数据
# 5、案例操作
Step1:新建分析;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
step4:选择【Lasso 回归】;
step5:查看对应的数据数据格式,【Lasso 回归】要求自变量 X 至少一项或以上的定量变量或二分类定类变量,因变量 Y 要求为定量变量。
step6:选择自动选择 λ 值或者手动输入 λ 值;
step7:点击【开始分析】,完成全部操作。
# 6、输出结果分析
输出结果 1:Lasso 回归交叉验证图
图表说明:上图以可视化形式展示了使用交叉验证选择 λ 值的情况。
纵坐标:模型均方误差
横坐标:λ 的对数值
智能分析:为使得均方误差最小确定 λ=0.02,log(λ)=-3.902.
分析:使用交叉验证的方法进行 λ 值的选择,选择的标准是使得模型均方误差最小,SPSSPRO 自动给出了当均方误差最小的 λ 值,为 0.02。
输出结果 2:λ 与模型回归系数图
图表说明:上图展示了随着 λ 的对数值变化,模型系数变化的情况。
分析:随着 λ 的对数值变化,模型系数也在变化,变为 0 的时候可以认为被排除出了模型。
图表说明:上表展示了模型系数情况,当模型中标准化变量系数为 0 时,代表这个变量被排除出模型。
智能分析:
Lasso 回归的结果显示:
基于字段截距项、age、sex、bmi、bp、s1、s2、s3、s4、s5、s6 的标准化系数,变量截距项、sex、bmi、bp、s1、s3、s4、s5、s6 被保留,age、s2 变量被删除。
模型的标准化公式: y=153.5280972752513-147.175 × sex+540.91 × bmi+293.23 × bp-163.672 × s1-86.997 × s3+117.192 × s4+522.358 × s5+56.935 × s6
模型的非标准化公式: y=153.62608212353206-10.179 × age-167.295 × sex+537.592 × bmi+304.195 × bp-516.213 × s1+264.693 × s2+58.721 × s3+174.151 × s4+651.58 × s5+61.04 × s6
分析:Lasso 模型主要用于变量的筛选,筛选的标准是标准化系数是否为 0,可以看到 age、S2 两个变量是不重要的,被排除出模型。
输出结果 4:模型结果图
图表说明:上图展示了本次模型的原始数据图、模型拟合值、模型预测值。
输出结果 5:模型结果预测
图表说明:上表格显示了经过 Lasso 回归后的模型预测情况。
# 7、注意事项
- 一般会先对数据中心标准化,再进行 LASSO 回归的处理,SPSSPRO 在运算时已经进行了标准化,故不需要再进行标准化。
- Lasso 回归主要用于变量的筛选,如果数据并没有共线性,依旧建议使用普通线性最小二乘法回归。 -LASSO 使用 L1 正则化,岭回归使用 L2 正则化,L1 可以让一部分特征的系数缩小到 0,从而间接实现特征选择。所以 L1 适用于特征之间有关联的情况。L2 让所有特征的系数都缩小,但是不会减为 0,它会使优化求解稳定快速。所以 L2 适用于特征之间没有关联的情况。
# 8、模型理论
Lasso 回归(Least Absolute Selection and Shrinkage Operator)是一种替代最小二乘法的压缩估计方法,全名为最小绝对值选择与收缩算子。在Lasso回归中,模型的目标函数被修改为最小化残差平方和加上一个与模型参数绝对值相关的正则化项,这个正则化项通常是一个常数乘以所有模型参数绝对值的总和。假设数据{Xi,Yi},Xi={xi1,...,xim}T 和 Yi 分别是第 i 个观测值对应的解释变量和相应变量。考虑线性回归模型:
在通常的回归结构中,通过修改目标函数来引入正则化项,假设观测值彼此独立,或者 Yi 在观测值给定的情况下独立,即 Yi 关于 Xi 条件独立,同时假设 xij 是标准化的,也就是,Lasso 回归的目标函数为:
其中 t 是一个正的调和参数,用于控制正则化的强度。此时对于一切 t,有 α 的估计。不失一般性,假定,这样就省略了 α。当 t 增加时,正则化项的权重增加,使得回归系数总体变小,若令就会使一些回归系数缩小并趋于 0,一些系数甚至会达到 0,从而简化模型并减少过拟合。
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2]柯郑林. Lasso 及其相关方法在多元线性回归模型中的应用[D].北京交通大学,2011.