# 相关性分析

# 1、作用

相关分析是对变量两两之间的相关程度进行分析。相关分析的计算方式有三种，分别是 Pearson 相关系数（适用于定量数据，且数据满足正态分布）、Spearman 相关系数（数据不满足正态分布时使用）。Kendall's tau -b 相关系数（有序定类变量）

# 2、输入输出描述

输入：两个或者两个以上的定量变量或有序定类变量

输出：两两定类变量之间是否呈现显著性相似以及相似的程度

# 3、案例示例

示例：人的身高和体重之间；空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题

# 4、案例数据

# 5、案例操作

相关性分析上传数据 Step1：新建分析；

Step2：上传数据；

Step3：选择对应数据打开后进行预览，确认无误后点击开始分析；

Step4：选中上传的数据或者之前上传过的数据进入分析页面进行分析；

# 6、输出结果分析

输出结果 1：相关系数表

	身高	体重
身高	1.000(***)	0.886(0.000)
体重	0.886(0.000)	1.000(***)

图表说明：上表展示了模型检验的参数结果表，包括了相关系数、显著性 P 值。P 值呈现显著性（0.000<p<0.01）,说明两变量之间存在相关性。

输出结果 2：相关系数热力图

# 7、注意事项

Pearson 相关系数适用于定量数据，且要求数据满足正态分布、Spearman 相关系数是数据不满足正态分布时使用，也可用于分析有序定类变量，Kendall's tau -b 相关系数用于分析有序定类变量

# 8、模型理论

皮尔逊相关系数

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商：

两个变量之间的协方差和标准差的商

上式定义了总体相关系数，常用希腊小写字母作为代表符号。估算样本的协方差和标准差，可得到皮尔逊相关系数，常用英文小写字母代表：

亦可由样本点的标准分数均值估计，得到与上式等价的表达式：

其中、及分别是对样本的标准分数、样本平均值和样本标准差。

斯皮尔曼相关系数

斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本，n个原始数据被转换成等级数据，相关系数 ρ 为

原始数据依据其在总体数据中平均的降序位置，被分配了一个相应的等级。如下表所示：

变量 Xi	降序位置	等级 xi
0.8	5	5
1.2	4	4
1.2	3	3
2.3	2	2
18	1	1

实际应用中，变量间的连结是无关紧要的，于是可以通过简单的步骤计算 ρ.被观测的两个变量的等级的差值，则 ρ 为

$K e n d a l l T a u_{b}$ 系数 Kendall's tau-b（肯德尔）等级相关系数，用于反映分类变量相关性的指标，适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验；定义为：

$τ_{b} = \frac{P - Q}{\sqrt{(P + Q + T) (P + Q + U)}}$

其中 P 是一致对的数量，Q 是不一致对的数量，T 是仅在 x 中的系数，U 是仅在 y 中的系数。如果同一分组在 x 和 y 中出现相同数量，则不将其添加到 T 或 U 中。

# 9、手推步骤

# Step 1：计算均值

总样本数 $n = 50$ 。

身高均值：
$\bar{X} = \frac{\sum X_{i}}{n} = \frac{176 + 164 + 160 + \dots + 186}{50} = 173.24 cm$
体重均值：
$\bar{Y} = \frac{\sum Y_{i}}{n} = \frac{73 + 67 + 65 + \dots + 83}{50} = 75.56 kg$

# Step 2：计算偏差乘积与平方

对每个数据点计算：

$(X_{i} - \bar{X}), (Y_{i} - \bar{Y}), (X_{i} - \bar{X}) (Y_{i} - \bar{Y}), (X_{i} - \bar{X})^{2}, (Y_{i} - \bar{Y})^{2}$

示例计算（序号1）：

$X_{1} - \bar{X} = 176 - 173.24 = 2.76$
$Y_{1} - \bar{Y} = 73 - 75.56 = - 2.56$
乘积： $2.76 \times (- 2.56) = - 7.0656$
平方： $(2.76)^{2} = 7.6176$ , $(- 2.56)^{2} = 6.5536$

# Step 3：应用皮尔逊公式

如下所示：

$r = \frac{\sum (X_{i} - \bar{X}) (Y_{i} - \bar{Y})}{\sqrt{\sum (X_{i} - \bar{X})^{2}} \cdot \sqrt{\sum (Y_{i} - \bar{Y})^{2}}} = \frac{12842.32}{\sqrt{15240.48} \cdot \sqrt{6845.12}}$

最终结果:

$r = \frac{12842.32}{10215.47} \approx 0.886$

# Step 4：显著性检验与相关性程度判断

根据输出结果1中的P值（ $p = 0.000$ ），远小于 $0.05$ ，说明身高与体重的相关性在统计学上显著。
皮尔逊相关系数 $r = 0.886$ ，根据常规标准： $| r | \geq 0.8$ 表示高度正相关。

# 10、参考文献

[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2]张厚粲，徐建平．现代心理与教育统计学．北京：北京师范大学出版社，1988：112-115
[3]Fieller, E.C.; Hartley, H.O.; Pearson, E.S. (1957) Tests for rank correlation coefficients. I. Biometrika 44, pp. 470–481
[4]Piantadosi, J.; Howlett, P.; Boland, J. (2007) "Matching the grade correlation coefficient using a copula with maximum disorder", Journal of Industrial and Management Optimization, 3 (2), 305–312
[5]Maurice G. Kendall, “The treatment of ties in ranking problems”, Biometrika Vol. 33, No. 3, pp. 239-251. 1945.

建议反馈