SPSSPRO,让数据分析更简单,问卷调查类数据分析不再愁 产品介绍 帮助中心 客户端
微信登录
  • 产品简介

  • 我的数据

  • 数据处理

    • 数据标签
    • 数据编码
    • 异常值处理
      • 1、作用
      • 2、输入输出描述
      • 3、案例示例
      • 4、案例数据
      • 5、案例操作
      • 6、输出结果分析
      • 7、注意事项
      • 8、模型理论
      • 9、参考文献
    • 无效样本处理
    • 生成变量
    • 样本均衡
    • 缩尾截尾处理
    • 时序数据滑窗转换
    • 虚拟变量转换
    • 特征筛选
    • 数据标准化
    • 缺失值处理
    • 数据降维
    • 数据变换
    • 数据降采样
  • 数据分析

异常值处理

操作视频
SPSSPRO教程-异常值处理

# 异常值处理

# 1、作用

异常值可能是离群点,即与整体数据情况偏离很大的数据点(常见的3σ准则),也可能是超过某个不合理范围的数据点,在分析中应该首先排除掉异常值,异常值检测逻辑是对变量的数据集(类似于列)按照设置的或值进行判定,筛选出落在异常值检测范围内的数据,并对异常值进行置空或者是填补为其它有效值。

# 2、输入输出描述

输入:一项或以上的定量变量。
输出:对异常值置空或者是对异常值进行填补。

# 3、案例示例

案例:现有10个变量,对每一个变量的异常值进行识别并处理。

# 4、案例数据

异常值处理案例数据

# 5、案例操作


Step1:在“数据处理”模块新建处理;
Step2:上传文件;
Step3:选择对应数据打开后进行预览,确认无误后点击开始处理;

Step4:选择【异常值处理】;
Step5:查看对应的数据数据格式,【异常值处理】要求变量为定量变量,且至少有一项;
Step6:确认参数,有多种自动识别异常值的方法可选择,最常见的就是3σ异常值识别;
Step7:点击【开始处理】,完成全部操作。

# 6、输出结果分析

3σ异常值识别:现有一个变量X,它的平均值为8,标准差为2,当某个值不在[8−2∗3,8+2∗3]=[3,14]这个区间,即超过3倍标准差,那么可以将其视为异常值。

由于我们选择了3σ异常值识别,以及将异常值置为空处理,输出结果空的地方就是异常值了,我们再看到原始数据,被置空的位置都是比较很明显的异常值,要么过大,要么过小。

# 7、注意事项

  • 异常值处理不支持对存在空值的变量进行处理,需要提前处理空值。
  • 异常值处理若将数据进行置空后要进行即时处理-->需要再进入到缺失值处理中将带有空值的样本进行处理。
  • 异常值处理可以对单列处理或多列处理,多列处理中各个列处理是独立的,相互不影响。

# 8、模型理论

自动识别异常值的常用方法:
(1)绝对中位差MAD(median absolute deviation)异常值识别
在统计学中,中位数绝对偏差(MAD)是衡量统计离散度的一种方法,它是对定量数据单变量样本变异性的一个稳健度量。对于MAD,少量的异常值不会影响实验的结果。

其计算步骤如下:

  1. 计算样本数据的中位数(median),记为xm
  2. 计算每个数据点与中位数的绝对偏差(absolute deviation),即每个数据点与中位数的差的绝对值,记为:
|xi−xm|

其中,xi表示第i个数据点

  1. 计算所有绝对偏差的中位数,即:
MAD=Median(|xi−xm|)

在进行异常值检测时,我们要确定检测异常值的阈值,一种常见的方法是将异常值的阈值(threshold)设置为中位数加上一个常数k乘以MAD。即,如果某个数据点的绝对差超过了k倍的MAD,那么就可以将它视为异常值,其中k是一个经验常数,通常取2或3.

threshold=median+3∗MAD

也就是说,如果xi>threshold,则当做异常值处理。

(2)IQR异常值识别
四分位距(InterQuartile Range,IQR)就是上四分位与下四分位的差值。而我们通过IQR的1.5倍为标准,规定:xi<Q1−1.5IQR 或 xi>Q3+1.5IQR的点为异常值。

Q1是所有样本数值从小到大排序后 第25% 的数字。

Q3是所有样本数值从小到大排序后 第75% 的数字。

IQR=Q3−Q1

(3)3σ异常值识别
3σ准则基于正态分布的性质,通常适用于连续变量且符合正态分布假设的数据。在正态分布的假设下:

  1. P(μ−σ,μ+σ)=0.6826
  2. P(μ−2σ,μ+2σ)=0.9545
  3. P(μ−3σ,μ+3σ)=0.9973

其中,μ为均值,σ为标准差。

如果一个数据点的值超过了均值加减三倍标准差的范围,即超出 μ±3σ, 那么可以将该数据点视为异常值或者离群点。

如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。这是最常用的异常值处理方法。

​

# 9、参考文献

[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.

建议反馈