熵值法

操作视频

# 1、作用

熵值法根据信息熵的定义，对于某项指标，可以用熵值来判断某个指标的离散程度，其信息熵值越小，指标的离散程度越大，该指标对综合评价的影响（即权重）就越大，如果某项指标的值全部相等，则该指标在综合评价中不起作用。因此，可利用信息熵这个工具，计算出各个指标的权重，为多指标综合评价提供依据。

# 2、输入输出描述

输入：至少两项或以上的定量变量（可以做正、负向处理，但是不要做标准化）。
输出：输入定量变量对应的权重值

# 3、案例示例

案例：数据是 100 个客户的各方面（能力，品格，担保，资本，环境）评分，利用熵值法来计算各个变量（能力，品格，担保，资本，环境）的重要性，即所占的权重。
（注意：若是各个指标之间的单位和量级(即计量指标的数量级)不同，在进行分析前需要自行对数据进行归一化）

# 4、案例数据

熵值法案例数据

# 5、案例操作

Step1：新建分析；
Step2：上传数据；
Step3：选择对应数据打开后进行预览，确认无误后点击开始分析；

step4：选择【熵值法】；
step5：查看对应的数据数据格式，【熵值法】要求特征序列为定量变量，分为正向指标变量和负向指标变量，且正向指标变量和负向指标变量的个数之和大于等于两项。
step6：点击【开始分析】，完成全部操作。

# 6、输出结果分析

输出结果 1：权重分析计算结果

图表说明：熵值法的权重计算结果显示，能力的权重为10.484%、品格的权重为19.313%、担保的权重为28.014%、资本的权重为18.062%、环境的权重为24.128%，其中指标权重最大值为担保（28.014%），最小值为能力（10.484%）。

输出结果 2：指标重要度直方图

图表说明：上图以直方图形式展示了指标的重要度排序（降序）。

输出结果 3：综合得分表

图表说明：上表格为综合得分。

# 7、注意事项

SPSSPRO默认会对指标进行正、负向指标处理，通过处理，数据就无需再进一行标准化；
熵值法的计算公式上会有取对数，因此如果小于等于 0 的数字取对数，则会出现 null 值，系统采用非负平移进行处理，即如果某列（某指标）数据出现小于等于 0，则让该列数据同时加上一个‘平移值’【该值为某列数据最小值的绝对值+0.01】，以便让数据全部都大于 0，因而满足算法要求。

# 8、模型理论

熵是信息论中的概念，是对不确定性的一种度量。信息量越大，不确定性越大，熵就越大；信息量越小，不确定性越小，熵也越小。根据信息熵的定义，对于某项指标可用熵值来判断某个指标的离散程度，信息熵越小表示指标的取值分布越集中和稳定，相对而言，其对应的权重在综合评价中应该更大；反之，信息熵越大则对应的权重应该较小。
其步骤为：
（1）对各个因素按照每个选项的数量进行归一化处理
由于平台存在“正向指标”、“负向指标”，将分别对这两类数据做预处理。这里对最小值减去0.0001，对最大值加上0.0001是为了兼容一整列都为相同的值的情况，对整体结果影响不大，可忽略不计

$X_{m i n} = m i n (X_{1 j}, X_{2 j}, . . ., X_{n j}) - 0.0001$

$X_{m a x} = m a x (X_{1 j}, X_{2 j}, . . ., X_{n j}) + 0.0001$

对于正向指标：

$z_{i j} = \frac{X_{i j} - X_{m i n}}{X_{m a x} - X_{m i n}}$

对于负向指标：

$z_{i j} = \frac{X_{m a x} - X_{i j}}{X_{m a x} - X_{m i n}}$

（2）计算第J项指标的熵值

（3) 计算信息熵冗余度（差异）：

（4) 计算各项指标的权重：

（5) 计算各样本的综合得分：

其中，Xij为归一化后的数据。根据每个影响因素的得分，即可得到所有因素的重要性排序。

# 9、手推步骤

# Step 1：数据归一化处理

先对数据进行清洗，随后可得：

随后对数据进行归一化处理：
公式：

$z_{i j} = \frac{X_{i j} - (X_{min} - 0.0001)}{(X_{max} + 0.0001) - (X_{min} - 0.0001)}$

示例计算（能力列第一行）:

$z_{11} = \frac{61.76 - 56.9399}{68.8801 - 56.9399} = \frac{4.8201}{11.9402} \approx 0.4037$

所有的归一化后的值：

# Step 2:计算比重 $p_{i j}$

公式：

$p_{i j} = \frac{z_{i j}}{\sum_{i = 1}^{100} z_{i j}}$

实际总和计算（以能力列为例）:

$\sum z_{j} = 0.4037 + 0.4932 + \dots + 0.6124 = 50.0000$

示例比重:

$p_{11} = \frac{0.4037}{50.0000} = 0.008074$

# Step 3:计算信息熵 $e_{j}$

公式:

$e_{j} = - k \sum_{i = 1}^{100} p_{i j} \ln (p_{i j}), k = \frac{1}{\ln (100)} \approx 0.2171$

实际计算（能力列）:

$\sum p_{i j} \ln (p_{i j}) = 0.008074 \times \ln (0.008074) + \dots + 0.012248 \times \ln (0.012248) \approx - 4.5201$

$e_{j} = - 0.2171 \times (- 4.5201) \approx 0.9810$

# Step 4:信息效用值 $d_{j}$

公式: $d_{j} = 1 - e_{j}$

总和：

$\sum d_{j} = 0.0190 + 0.0193 + 0.0285 + 0.0182 + 0.0240 = 0.1090$

# Step 5:计算权重 $w_{j}$

公式:

$w_{j} = \frac{d_{j}}{\sum d_{j}} \times 100 %$

权重结果：

# Step 6:计算综合得分

公式：

$s_{i} = \sum_{j = 1}^{m} w_{j} \cdot z_{i j}$

示例计算：

$s_{1} = (0.10484 \times 0.4037) + (0.19313 \times 0.3921) + (0.28014 \times 0.4215) + (0.18061 \times 0.3782) + (0.24128 \times 0.4356)$
$s_{1} = 0.0423 + 0.0756 + 0.1180 + 0.0683 + 0.1047 = 0.2709$

部分总得分表：

# 10、参考文献

[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2] 甘浪雄,张怀志,卢天赋,等. 基于熵权法的水上交通安全因素[J]. 中国航海,2021,44(2):53-58.

建议反馈

熵值法