异常值处理
# 异常值处理
# 1、作用
异常值可能是与整体数据情况偏离很大的数据点(常见的3σ准则),也可能是超过某个不合理范围的数据点,在分析中应该首先排除掉异常值,异常值检测逻辑是对变量的数据集(类似于列)按照设置的或值进行判定,筛选出落在异常值检测范围内的数据,并对异常值进行置空或者是填补为其它有效值。
# 2、输入输出描述
输入:一项或以上的定量或定类变量。
输出:对异常值置空或者是对异常值进行填补。
# 3、案例示例
案例:现有10个变量,对每一个变量的异常值进行识别并处理。
# 4、案例数据
异常值处理案例数据
# 5、案例操作
Step1:在“数据处理”模块新建处理;
Step2:上传文件;
Step3:选择对应数据打开后进行预览,确认无误后点击开始处理;
Step4:选择【异常值处理】;
Step5:查看对应的数据数据格式,【异常值处理】要求变量为定量变量,且至少有一项;
Step6:确认参数,有多种自动识别异常值的方法可选择,最常见的就是3sigma异常值识别;
Step7:点击【开始处理】,完成全部操作。
# 6、输出结果分析
3sigma异常值识别:现有一个变量X,它的平均值为8,标准差为2,当某个值不在[8-23,8+23]=[3,14]这个区间,即超过3倍标准差,那么可以将其视为异常值。
由于我们选择了3sigma异常值识别,以及将异常值置为空处理,输出结果空的地方就是异常值了,我们再看到原始数据,被置空的位置都是比较很明显的异常值,要么过大,要么过小。
# 7、注意事项
- 异常值处理不支持对存在空值的变量进行处理,需要提前处理空值。
- 异常值处理若将数据进行置空后要进行即时处理-->需要再进入到缺失值处理中将带有空值的样本进行处理。
- 异常值处理可以对单列处理或多列处理,多列处理中各个列处理是独立的,相互不影响。
# 8、模型理论
自动识别异常值的常用方法:
(1)MDA异常值识别
假定数据服从正态分布,让异常点(outliers)落在两侧的 50% 的面积里,让正常值落在中间的 50% 的区域里。
(2)IQR异常值识别
四分位距(IQR)就是上四分位与下四分位的差值。而我们通过IQR的1.5倍为标准,规定:超过(上四分位+1.5倍IQR距离,或者下四分位-1.5倍IQR距离)的点为异常值。
(3)3sigma异常值识别
数据需要服从正态分布,正负3∂的概率是99.7%,那么距离平均值3∂之外的值出现的概率为P(|x-u| 3∂) = 0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。这是最常用的异常值处理方法。
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.