异常值处理
更新于2021-09-16
# 异常值处理
# 1、作用
可检测与处理变量数据中包含的异常值,异常值检测逻辑是对变量的数据集(类似于列)按照设置的或值进行判定,筛选出落在异常值检测范围内的数据,再根据处置方法将原数据替换。
# 2、案例操作
step 1:选择需要处理的变量,拖动至已选变量。
step 2:根据不同判断标准对数据进行筛选,包括数字缺失、数字范围等
- 数字缺失:在选中变量范围内检查列数据出现缺失的情况(如图)

- 数字 ≤、数字 ≥:在选中变量范围内检查列数据是否出现小于或大于某个常数的情况(示例:数字< 80)

- 平均值 ±n 倍标准差:默认均值 ±3 倍标准差;
均值 ±1 倍标准差可确保 68.27%的数据符合期望 均值 ±2 倍标准差可确保 95.45%的数据符合期望 均值 ±3 倍标准差可确保 99.73%的数据符合期望

step 3:根据不同判断标准所筛选出来的数据进行处理,处理方式有置为 null,或替换为(平均值、中位数、众数、数字 0、随机数),置为空值过多可能导致样本数据不全,请结合数据情况适当采用处理方法。
step 4:点击确认,即生成处理后的数值视图。