数据包络分析
# 数据包络分析
# 1、作用
数据包络分析是评价多输入指标和多输出指标的较为有效的方法,将多投入与多产出进行比较,得到效率分析,可广泛使用于业绩评价。
# 2、输入输出描述
输入:数据包络分析的输入是投入、产出的指标(定量变量)。
输出:效率评估结果,包含具体需要增大或减小哪些投入变量,如何调整产出变量,才能达到最优效率。
# 3、案例示例
案例:投入变量为:政府财政收入占 GDP 的比例、环保投资占 GDP 的比例、每千人科技人员数/人。
产出变量为:人均 GDP、城市环境质量指数。
试分析投入产出效率,得出如何调整投入变量和产出变量,才能达到最优效率。
# 4、案例数据
数据包络分析案例数据
数据包络分析的输入是投入、产出的指标(定量变量)。在本例中,政府财政收入占 GDP 的比例、环保投资占 GDP 的比例、每千人科技人员数/人是投入变量,人均 GDP、城市环境质量指数是产出变量,而城市名为索引变量。模型通过尽量使得投入变量值减少,产出变量值增大,达到最优效率。# 5、案例操作
Step1:新建分析;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
Step4:选择【数据包络分析】;
Step5:查看对应的数据数据格式,【数据包络分析】要求先放入投入指标(>=1 的定量变量),再放入产出指标(>=1 的定量变量),最后放入索引项(<=1 的定类变量)。
Step6:设置 DEA 类型(规模报酬不变(CCR)or 规模报酬可变(BCC)),例子中选择规模报酬可变模型(BCC)。
Step7:点击【开始分析】,完成全部操作。
# 6、输出结果分析
输出结果 1:效益分析表
图表说明:
CCR 模型只有综合效益,而在 BCC 模型(VRS)会将综合效益分解为技术效益和规模效益。
效益 S 的意义:
● 综合技术效益反映的是决策单元在最优规模时投入要素的生产效率,是对决策单元的资源配置能力、资源使用效率等多方面能力的综合衡量与评价,值等于 1 时,代表该决策单元的投入与产出结构合理,相对效益最优;
● 技术效益反映的是由于管理和技术等因素影响的生产效率,其值等于 1 时,代表投入要素得到了充分利用,在给定投入组合的情况下,实现了产出最大化;
● 规模效益反映的是由于规模因素影响的生产效率,其值等于 1 时,代表规模效率有效(规模报酬不变),也就是规模适宜,已达到最优的状态;
松弛变量的意义:
松驰变量 S-指为达到目标效率可以减少的投入量,增加这些投入量就能达到更高的效率;
松驰变量 S+指为达到目标效率可以增加的产出量,减少这些投入量就能达到更高的效率;
有效性的意义:
有效性分析结合综合效益指标,S-和 S+共 3 个指标,可判断 DEA 有效性:
● 如果综合效益=1 且 S-与 S+均为 0,则‘DEA 强有效’;
● 如果综合效益为 1 但 S-或 S+大于 0,则‘DEA 弱有效’;
● 如果综合效益<1 则为‘非 DEA 有效’。
结果分析:
由上表可知,其中城市 2,8,9,10 达到了 DEA 强有效(松弛变量均为 0),这说明达到了资源充分利用,是一种帕累托最优的状态。
其余决策单元非 DEA 有效,需要减少投入或者增加产出,怎么改变产出需要具体见后面的投入冗余分析和产出不足分析。
规模效益分析可以见后续的结果——规模报酬分析。
输出结果 2:效益有效性分析
图表说明:上图展示了效益分析图。其中 X 轴代表决策单元,Y 轴代表效益值。
结果分析:该图是上述有效性的可视化图,主要用于分析各个决策单元的有效性情况,寻找效益最低的决策单元,可见大部分城市是规模效益不足,少部分为技术效益不足。
输出结果 3:规模报酬分析
图表说明:● 在不同的生产规模下,规模报酬将会随之改变:
● 规模报酬系数< 1 时;生产规模较小,投入产出比会随着规模增加而迅速提升,称为规模报酬递增(IRS)(规模过小可扩大规模增加效益);
● 规模报酬系数=1 时,生产达到高峰期,产出与投入成正比而达到最适生产规模,称为规模报酬固定;
● 规模报酬系数>1 时;生产规模过于庞大,导致产出减缓,则称为规模报酬递减(DRS),也就是投入增加时,产出增加的比例会少于投入增加的比例(规模过大可减少规模增加效益)。
结果分析:由表可知,城市 1,4,5,6,7 需要提升规模以提高效率,城市 3 需要降低规模以提高效率,城市 2,8,9,10 达到了最优效率可以认为暂不需要变动。
输出结果 4: 象限分析
图表说明:投入产出象限图利用 PCA 降维方式把投入、产出指标进行单维化,进而通过象限图的方式呈现决策单元的空间分布,以下为各个象限的意义:
第一象限:高投入,高产出。
第二象限:低投入,高产出。
第三象限:低投入,低产出。
第四象限:高投入,低产出。
输出结果 5:象限分析输出汇总
图表说明:
上表展示了象限分析的部分/全部的象限分布。
输出结果 6:投入冗余分析
图表说明:投入冗余分析(差额变数分析)主要用于分析各变量需要减少多少投入时才能达目标效率。
● 松驰变量 S-(差额变数)指为达到目标效率需要减少的投入量;
● 投入冗余率指‘过多投入’与已投入的比值,该值越大意味着‘过多投入’越多;
结果分析:从上表可知,在城市 5,6 中政府财政收入占 GDP 的比例的量分别冗余了 0.037 个单位和 0.047 个单位,占该城市这个量的 15.2%和 20.6%,政府需要减少财政收入或者增加其他财政收入的方式。
城市 4、5、7 中环保投资占 GDP 的比例分别冗余了 0.003 个单位、0.003 个单位和 0.007 个单位,占该城市这个量的 5.0%、6.9%和 12.4%,政府需要减少环保投资占 GDP 的比例。
城市 6 中每千人科技人员数冗余了 25.509 个单位,占该城市这个量的 14.4%,说明在城市 6 中每千人中可以减少约 25.509 个单位的科技人员数。
输出结果 7:产出不足分析
图表说明:产出不足分析(超额变数分析)主要用于分析各变量需要增加多少产出时达目标效率。
● 松驰变量 S+(超额变数)指为达到目标效率可以增加的产出量;
● 产品不足率指‘产出不足’与已产出的比值,该值越大意味着‘产出不足’越多;
结果分析:从上表可知,在城市 3,5 中人均 GDP 需要增加 23432.000 个单位和 6794.00 个单位,占该城市人均 GDP 的 21.3%和 6.7%,政府需要想办法增加这些城市的人均 GDP。
各城市的环保指数都达到了最优产出。
# 7、注意事项
- 数据包络分析容易收到极值的影响,需要谨慎选择指标。
- 数据包络分析存在负向指标时,需要使用 SPSSPRO 的数据处理功能将指标正向化。
- 数据包络分析(EDA)并不直接对数据进行综合,因此决策单元指标与量纲选取无关,故无需进行无量纲化处理。
- 评估结果是相对效率而非绝对效率,因此效率为 1 只能说明在当前资源下不同方案同等有效,并不代表没有改进之处。
- 数据包络分析不依赖于权重的选择,将所有的投入、产出资源认为同等重要,一定程度上会损失模型的可靠性。
# 8、模型理论
DEA 模型分为 CCR 模型和 BCC 模型,一般较多采用 BBC 模型,SPSSPRO 默认也为 BBC 模型:
CCR 模型假设 DMU 处于固定规模报酬情形下,用来衡量总效率。
BCC 模型假设 DMU 处于变动规模报酬情形下,用来衡量纯技术和规模效率。
CCR 模型:
假设有 n 个生产决策单元
其中:
即表示在生产可能集 T 内,保持产出 Y0 不减,同时将输入量 X0 各分量按同一比例 θ 尽量减少。如果输入量不能减少即上式的最小值 θ* = 1,则被评估单元为有效单元;否则为相对无效单元。也可以这样解释,第 j0 个决策单元的输出向量 Y0 被其他单元的输出向量的组合从“上面”包络,而其输入向量 X0 被其他单元输入向量的组合从“下面”包络。
当 X0 和 Y0 不能被同时包络时,则第 j0 个 DMU 为有效单元;否则为无效单元。这也是 DEA 方法为何如此命名的原因所在。
BCC 模型:
生产可能集的锥性假设有时是不现实或不合理的,因此去掉该项假设。当生产可能集 T 只是满足凸性 (加入条件 ∑λj= 1)、无效性和最小性时,便可得到满足规模收益可变的 BCC 模型。
这种模型单纯评价 DMU 的技术有效性。其对偶形式为:
式中:
(1)
(2)
(3)
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2] 郭京福,杨德礼.数据包络分析方法综述[J].大连理工大学学报,1998(02):116-121.