正态性分析
# 正态性分析
# 1、作用
正态性检验用于检验数据是否满足正态分布,一些算法需要数据满足正态分布(如单样本 t 检验,独立样本 t 检验等)。
# 2、输入输出描述
输入:一个或多个定量变量(如 30 名员工这个月的工资)。
输出:模型检验的结果,数据满足/不满足正态分布。
# 3、案例示例
案例:电信公司需要检验用户电话银行月费和最近一个月消费金额是否满足正态性。
PS:
右偏态特征:众数<中位数<均值;
左偏态特征:众数>中位数>均值。
# 4、案例数据
正态性分析案例数据
一个或多个定量变量指的是:一个或多个定量变量(电话银行月费/最近一个月消费金额)为变量X。若输入多个定量变量,则对多个定量变量重复进行正态性分析。
# 5、案例操作
Step1:新建分析;
Step2:上传文件;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
Step4:选择【正态性检验】;
Step5:查看对应的数据数据格式,【正态性检验】要求输入数据为定量变量,且至少有一项;
Step6:点击【开始分析】,完成全部操作。
# 6、输出结果分析
输出结果 1:总体描述结果
图表说明:上表展示了电话银行月费、最近一个月消费金额描述性统计和正态性检验的结果,包括中位数、平均值等,用于检验数据的正态性。以电话银行月费样本为例,电话银行月费样本【N <= 5000,采用 S-W 检验】,显著性 P 值为 0.015,水平呈现显著性,拒绝原假设,因此数据不满足正态分布。
结果分析:根据检验来看,最近一个月消费金额满足正态性,电话银行月费不满足正态性,然而通常现实研究情况下很难满足检验,若其样本峰度绝对值小于10并且偏度绝对值小于3,结合正态分布直方图、PP图或者QQ图可以描述为基本符合正态分布。
输出结果 2:正态性检验直方图
图表说明:上图展示了电话银行月费数据正态性检验的结果,若正态图基本上呈现出钟形(中间高,两端低),则说明数据虽然不是绝对正态,但基本可接受为正态分布。
结果分析:根据正态性检验直方图来看,电话银行月费的正态性检验直方图没有呈现出钟形,可以认为其不是正态数据;最近一个月消费金额的正态性检验直方图较为明显为钟形,故满足正态性。
输出结果 3:正态性检验 P-P 图
图表说明:上图是电话银行月费计算观测的累计概率(P)与正态累计概率(P)的拟合情况。拟合程度越高越服从正态分布。结果分析:根据P-P图结果,电话银行月费的拟合情况在最大值最小值附近较为不佳。
输出结果 4:正态性检验 Q-Q 图
图表说明:Q-Q 图,全称“Quantile Quantile Plot”用图形的方式比较观测值与预测值(假定正态下的分布)不同分位数的概率分布,从而检验是否吻合正态分布规律。并且将实际数据作为 X 轴,将假定正态时的数据分位数作为 Y 轴,作散点图,散点与直线重合度越高越服从正态分布,散点差异愈大越不服从正态分布,请视实际情况而定。结果分析:根据Q-Q图结果,电话银行月费的拟合情况在最大值最小值附近较为不佳。
# 7、注意事项
- 通常现实研究情况下很难满足检验,若其样本峰度绝对值小于 10 并且偏度绝对值小于 3,结合正态分布直方图、PP 图或者 QQ 图可以描述为基本符合正态分布;
- 若正态分布直方图基本上呈现出钟形(中间高,两端低),则说明数据虽然不是绝对正态,但基本可接受为正态分布;
- 小数据样本即一般样本数 50 以下进行 Shapiro-Wilk,大数据样本即一般样本数 50 以上使用 Kolmogorov–Smirnov 检验。
# 8、模型理论
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由棣莫弗(Abraham de Moivre)在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。 若随机变量 X 服从一个位置参数为、尺度参数为 μ 的正态分布,记为:
正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线(类似于寺庙里的大钟,因此得名)。我们通常所说的标准正态分布是位置参数 μ=0,尺度参数 σ^2 的正态分布(见下图中红色曲线)。
分位图(Q–Q plot)又称QQ 图,Q 代表分位数(Quantile)。是在统计学中,通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法。首先选定分位数的对应概率区间集合,在此概率区间上,点(x,y)对应于第一个分布的一个分位数 x 和第二个分布在和 x 相同概率区间上相同的分位数。因此画出的是一条含参数的曲线,参数为概率区间的分割数 。 如果被比较的两个分布比较相似,则其分位图近似地位于y = x上。如果两个分布线性相关,则分位图上的点近似地落在一条直线上,但并不一定是y = x。分位图同样可以用来估计一个分布的位置参数。 分位图可以比较概率分布的形状,从图形上显示两个分布的位置,尺度和偏度等性质是否相似或不同。它可以用来比较一组数据的经验分布和理论分布是否一致。另外,分位图也是一种比较两组数据背后的随机变量分布的非参数方法。一般来说,当比较两组样本时,分位图是一种比直方图更加有效的方法,但是理解分位图需要更多的背景知识。
Q-Q 图
P-P 图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。通过 P-P 图可以检验数据是否符合指定的分布。当数据符合指定分布时,P-P 图中各点近似呈一条直线。 如果在绘制中 P-P 图中各点不呈直线,但有一定规律,可以对变量数据进行转换,使转换后的数据更接近指定分布。P-P 图
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2] Shaou-Gang Miaou; Jin-Syan Chou. 《Fundamentals of probability and statistics》. 高立图书. 2012: 第 147 页. ISBN 9789864128990.
[3] Casella & Berger (2001, p. 102)
[4] 宗序平, 姚玉兰. 利用 Q-Q 图与 P-P 图快速检验数据的统计分布[J]. 统计与决策, 2010, 000(020):151-152.