异常值处理
# 异常值处理
# 1、作用
异常值可能是离群点,即与整体数据情况偏离很大的数据点(常见的3σ准则),也可能是超过某个不合理范围的数据点,在分析中应该首先排除掉异常值,异常值检测逻辑是对变量的数据集(类似于列)按照设置的或值进行判定,筛选出落在异常值检测范围内的数据,并对异常值进行置空或者是填补为其它有效值。
# 2、输入输出描述
输入:一项或以上的定量变量。
输出:对异常值置空或者是对异常值进行填补。
# 3、案例示例
案例:现有10个变量,对每一个变量的异常值进行识别并处理。
# 4、案例数据
异常值处理案例数据
# 5、案例操作
Step1:在“数据处理”模块新建处理;
Step2:上传文件;
Step3:选择对应数据打开后进行预览,确认无误后点击开始处理;
Step4:选择【异常值处理】;
Step5:查看对应的数据数据格式,【异常值处理】要求变量为定量变量,且至少有一项;
Step6:确认参数,有多种自动识别异常值的方法可选择,最常见的就是3
Step7:点击【开始处理】,完成全部操作。
# 6、输出结果分析
3
由于我们选择了3
# 7、注意事项
- 异常值处理不支持对存在空值的变量进行处理,需要提前处理空值。
- 异常值处理若将数据进行置空后要进行即时处理-->需要再进入到缺失值处理中将带有空值的样本进行处理。
- 异常值处理可以对单列处理或多列处理,多列处理中各个列处理是独立的,相互不影响。
# 8、模型理论
自动识别异常值的常用方法:
(1)绝对中位差MAD(median absolute deviation)异常值识别
在统计学中,中位数绝对偏差(MAD)是衡量统计离散度的一种方法,它是对定量数据单变量样本变异性的一个稳健度量。对于MAD,少量的异常值不会影响实验的结果。
其计算步骤如下:
- 计算样本数据的中位数(median),记为
- 计算每个数据点与中位数的绝对偏差(absolute deviation),即每个数据点与中位数的差的绝对值,记为:
其中,
- 计算所有绝对偏差的中位数,即:
在进行异常值检测时,我们要确定检测异常值的阈值,一种常见的方法是将异常值的阈值(threshold)设置为中位数加上一个常数
也就是说,如果
(2)IQR异常值识别
四分位距(InterQuartile Range,IQR)就是上四分位与下四分位的差值。而我们通过IQR的1.5倍为标准,规定:
Q1是所有样本数值从小到大排序后 第25% 的数字。
Q3是所有样本数值从小到大排序后 第75% 的数字。
(3)3
3
其中,
如果一个数据点的值超过了均值加减三倍标准差的范围,即超出
如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。这是最常用的异常值处理方法。
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.