• 产品简介

  • 我的数据

  • 数据处理

  • 数据分析

    • 描述性分析

    • 问卷分析

    • 综合评价

    • 差异性分析

    • 相关性分析

    • 预测模型

      • 线性回归(最小二乘法)
      • 岭回归(Ridge)
      • 分层回归
      • 灰色预测模型GM(1,1)
      • 聚类分析(K-Means)
      • 逻辑回归
      • Lasso回归
      • 分层聚类
      • 有序逻辑回归
      • 偏最小二乘回归(PLSR)
        • 1、作用
        • 2、输入输出描述
        • 3、案例示例
        • 4、案例数据
        • 5、案例操作
        • 6、输出结果分析
        • 7、注意事项
        • 8、模型理论
        • 9、参考文献
      • 客户价值划分(RFM)
      • 二分类概率单位回归(Probit)
      • Deming's 回归
    • 统计建模

    • 计量经济模型

    • 医学统计模型

    • 机器学习分类

    • 机器学习回归

    • 规划求解

偏最小二乘回归(PLSR)

# 1、作用

1111偏最小二乘回归 (PLSR) 是一种多因变量对多自变量的回归建模方法,是最小二乘方法的推广。用于解决两组多重相关变量间的相互依赖关系,并研究用一组变量(自变量或预测变量)去预测另一组变量(因变量或响应变量)。

# 2、输入输出描述

输入:一组预测变量和一组响应变量。
输出:偏最小二乘回归结果,包括自变量累计投影重要性、成分矩阵表和模型系数结果等。

# 3、案例示例

案例:某康复俱乐部对20名中年人测量了三个生理指标:体重 x1, 腰围 x2, 脉搏 x3;三个训练指标:单杠 y1, 弯曲 y2, 跳高 y3。用偏最小二乘回归建立由三个生理指标分别预测三个训练指标的回归模型。

# 4、案例数据

# 5、案例操作

step1:新建项目;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
step4:选择【偏最小二乘回归(PLSR)】;
step5:查看对应的数据数据格式,按【偏最小二乘回归(PLSR)】要求输入多个定量变量X和多个定量变量Y;
step6:选择是否自动确定最大主成分数量;
step7:点击【开始分析】,完成全部操作。

# 6、输出结果分析

输出结果1:因子方差解释情况表

潜在因子 X方差 累计的X方差 Y方差 累计的Y方差(R方) 调整后的R方
1 0.701 0.701 0.209 0.209 0.166
2 0.255 0.957 0.029 0.239 0.149
3 0.043 1 0.038 0.277 0.141

图表说明:上表展示潜在因子的信息综合解释能力。其中,累计的X方差代表对自变量信息的提取,累计的Y方差(R方)代表对因变量信息的提取,可以以此为依据确定参数最大主成分数量。
分析:因子对方差解释情况表的结果显示,前【2】个潜在因子就可解释自变量80%的信息,全部潜在因子也不能解释因变量80%的信息。

输出结果2:自变量VIP(累积投影重要性)汇总表

变量 因子1 因子2 因子3
体重 1.022 0.998 1.019
腰围 1.336 1.298 1.22
脉搏 0.414 0.565 0.689

图表说明:上表展示VIP(累积投影重要性)的情况,它表示成分个数不同时,X对于Y的解释重要性力度,也可以用于参考最大主成分数量。其中对于VIP很大(大于1)的自变量,它在解释潜在因子(从而在解释因变量)时作用相对更大一些。

输出结果3:自变量VIP(累积投影重要性)图

图表说明:上图将VIP(累积投影重要性)的情况可视化的展示出来。

输出结果4:成分矩阵表

变量 因子1 因子2 因子3
体重 0.59 -0.368 0.935
腰围 0.771 0.7 -0.802
脉搏 -0.239 0.636 0.223
单杠 6.778 -11.376 -1.071
弯曲 -7.602 10.434 1.913
跳高 -1.068 -3.185 -3.01

图表说明:由上表可得到主成分分析降维后的成分矩阵表。

输出结果5:因子载荷系数表

变量 因子1 因子2 因子3
体重 0.666 0.02 0.657
腰围 0.676 0.355 -0.287
脉搏 -0.359 1.194 0.697
单杠 -0.342 -0.336 0.477
弯曲 -0.416 -0.291 0.455
跳高 -0.143 -0.065 -0.213

图表说明:上表为因子载荷系数表,可以分析到每个因子中隐变量的重要性。

输出结果6:模型系数结果表

单杠 弯曲 跳高 单杠(标准化) 弯曲(标准化) 跳高(标准化)
常数 47.968 623.282 179.887 0 0 0
体重 0.079 0.728 -0.538 0.368 0.287 -0.259
腰围 -1.456 -17.387 0.234 -0.882 -0.89 0.015
脉搏 -0.019 0.139 -0.389 -0.026 0.016 -0.055

图表说明:展示了本次PLS模型结果,主要包括模型的系数,用于分析自变量X对于因变量Y的影响关系情况。
分析:模型的标准化公式为: 单杠 = 47.968+0.079 * 体重-1.456 * 腰围-0.019 * 脉搏 弯曲 = 623.282+0.728 * 体重-17.387 * 腰围+0.139 * 脉搏 跳高 = 179.887-0.538 * 体重+0.234 * 腰围-0.389 * 脉搏

# 7、注意事项

  • 预测变量可以是连续的定量变量或定类变量
  • 响应变量应当是连续变量
  • 预测变量无需固定

# 8、模型理论

# 1.简介

偏最小二乘回归 (PLSR) 是一种多因变量对多自变量的回归建模方法,是最小二乘方法的推广。用于解决两组多重相关变量间的相互依赖关系,并研究用一组变量(自变量或预测变量)去预测另一组变量(因变量或响应变量)。
当两组变量的个数很多,且线性相关,而观测数据的数量又较少时,适合用偏最小二乘回归建立的模型。
偏最小二乘回归有如下优点:

  1. 提供了一种多因变量对多自变量的回归建模方法;
  2. 有效地解决变量之间的多重共线性问题;
  3. 适合当样本点数量少于自变量个数时进行回归建模;
  4. 最终模型中含原有所有自变量,回归系数容易解释。
  5. 计算简单、预测精度高,易于定性解释。

# 2.原理

典型相关分析(CCA)对特征的处理方式比较粗糙,用的是线性回归来,因此会存在线性回归的一些缺点。
多元线性回归的缺点: 当自变量的数量大于样本量的时候,解不出θ ,θ=(XTX)−1XTY ,设Xn∗k,当 k>n 时,(XTX)k∗k的秩为n,不是满秩的,所以没有逆矩阵 。
PCA 的缺点:PCA只考虑了自变量的方差,然后选取方差最大的几个正交变量,可以用于解决共线性问题(计量),没有考虑自变量对因变量的贡献。
偏最小二乘回归分析在建模过程中集中了主成分分析,典型相关分析和线性回归分析方法的特点,因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些信息。
对于 P 个因变量y1,...,yp与 m 个自变量x1,...,xm的回归问题。首先在自变量集中提出第一成分u1(u1是x1,...,xm的线性组合,且尽可能多地提取原自变量集中的变异信息);同时在因变量集中也提取第一成分v1,并要求u1与v1相关程度达到最大。然后建立因变量y1,...,yp与u1的回归,重复这个过程直到提取到足够的指定的成分。

# 3.适用情况

偏最小二乘回归是集【主成分分析】,【典型相关分析】和【多元线性回归分析】3种分析方法的优点于一身的方法。

  • 多元线性回归的缺点: 当自变量的数量大于样本量的时候,解不出θ=(XTX)−1XTY,设Xn∗k,当 k>n 时,(XTX)k∗k 的秩为n,不是满秩的,所以没有逆矩阵Rank(A,B)<=Rank(B)

  • PCA的缺点:PCA只考虑了自变量的方差,然后选取方差最大的几个正交变量,可以用于解决共线性问题(计量),没有考虑自变量对因变量的贡献

  • PLS:偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而样本又比较少的时候

# 4.计算步骤

先将 X 与 Y 标准化:

A=[x11...x1m......xn1...xnm],B=[y11...y1m......yn1...ynm]

第一步:
分别提取两组 X 与 Y 变量的第一对成分u1和v1,并使他们的相关性达到最大。假设从两组变量中第一成分为u1和v1,u1是自变量集X=[x1,...,xm]T的线性组合,v1是自变量集Y=[y1,...,yp]T的线性组合:
{u1=ρ1TXv1=γ1TY ,为主成分相同(um∗m=ρn∗mT⋅Xn∗m,u1为top1主成分,v相同)

为了回归分析的需要,要求:
(1)u1 和 v1各自尽可能多地提取所在变量组的变异信息;
(2))u1 和 v1的相关程度达到最大。


第二步:计算ρ1与γ1

  1. 最大化协方差,使得)u1 和 v1的相关程度达到最大,可以用得分向量)u^1 和 v^1的内积来计算:

    max<u^1,v^1>=ρ1TABγ1
    s.t.={ρ1Tρ1=1γ1Tγ1=1

  2. 采用拉格朗日乘数法,问题化为求单位向量ρ1与γ1,使γ1达到最大,问题求解只需计算M=ATBBTA的特征值与特征向量,且M的最大特征值为θ12,相应的特征向量就是所要求解的ρ1,进而也能得到γ1,γ1=1θ1BTAρ1

第三步
由两组变量集的标准化观察数据矩阵 X 和 Y,可以计算第一对成分的得分向量,记为u^1 和 v^1,u^1=Aρ1,v^1=Bγ1

  1. 建立<y1,...,yp对u1的回归及x1,...,xm对u1的回归,假定回归模型:
    {A=u^1σ1T+A1B=u^1τ1T+B1


其中,σ1T=[σ1,...,σm],τ1T=[τ1,...,τm]分别是多对一回归模型中的参数向量,A1,B1是残差阵。

  1. 回归系数σ1,τ1的最小二乘估计为

    {σ1=ATu^1||u^1||2τ1=BTu^1||u^1||2

  2. 用残差阵和A1和B1代替A,B,重复以上步骤,直到残差阵中元素的绝对值近似为0,每进行一次得到一个和σ1和τ1。

第四步
重复上面的步骤,得到 r 个成分

{A=u^1σ1T+...+u^rσrT+ArB=u^1τ1T+...+u^rτrT+Br

将u1=ρ1TX代入Y=u^1τ1T+...+u^rτrT,即得P个因变量的偏最小二乘回归方程式yj=cj1x1+...+cjmxm,j=1,2,...,p。

第五步:交叉有效性检验
应该提取多个成分,可以使用交叉有效性检验,每次舍去第 i 个观察数据,对余下的 n-1个观测数据用最小二乘回归方法,并考虑抽取 h(h<=r) 个成分后拟合的回归式,然后把舍去的自变量组第 j 个观测数据代入所拟合的回归方程式,得到yj(j=1,2,...,p)在第 i 观测点上的预测值为。对i=1,2,...,n重复以上的验证,即得抽取 h 个成分时第 j 个因变量 yj(j=1,2,...,p)的预测误差平方和为 PRESSj(h)=∑i=1n(bij−bi^j(h))2,j=1,2,...,p Y=[y1,...,yp]T 的预测误差平方和为PRESS(h)=∑j=1pPRESSj(h)。 另外,再采用所有的样本点,拟合含 h 个成分的回归方程。这时,记第 i 个样本点的预测值为b^ij(h),则可定义yi的误差平方和为SS(h)=∑j=1pSSj(h),当 PRESS (h) 达到最小值时,对应的 h 即为所求的成分个数。通常,总有 PRESS(h)>SS(h),而 SS(h)<SS(h-1)。因此在提取成分时,总是希望PRESS(h)SS(h−1)越小越好,一般可以设定阈值为0.05,判定规则为:PRESS(h)SS(h−1)<=(1−0.05)2时,新成分对回归改善是有帮助的,因此,可以定义交叉有效性Qh2=1−PRESS(h)SS(h−1),在每一步计算结束前,计算交叉有效性,在第 h 步有 Qh2<1−0.0952,则模型到达精度,可以停止提取成分。

# 9、参考文献

[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2] Jong S D , Phatak A . Partial least squares regression[C]// International Workshop on Recent Advances in Total Least Squares Techniques & Errors-in-variables Modeling. Society for Industrial and Applied Mathematics, 1997.

建议反馈