缩尾截尾处理
# 缩尾截尾处理
# 1、作用
样本数据足够多时为了剔除一些极端值对研究的影响,一般会对连续变量进行缩尾/截尾处理。首先对变量数值进行从小到大排列后,处理超出变量特定百分位范围的数值(被称作极端值)。缩尾是将这些极端值替换为其特定数值,截尾是直接删除这些极端值。
# 2、输入输出描述
输入:一项或以上定量变量。
输出:对极端值进行缩尾(填补)或截尾(删除)处理。
# 3、案例示例
案例:现有10个变量,对不在5%~95%范围内的数据进行缩尾/截尾处理。
# 4、案例数据
缩尾/截尾处理案例数据
# 5、案例操作
Step1:在“数据处理”模块新建处理;
Step2:上传文件;
Step3:选择对应数据打开后进行预览,确认无误后点击开始处理;
Step4:选择【缩尾/截尾处理】;
Step5:查看对应的数据数据格式,【缩尾/截尾处理】要求变量为定量变量,且至少有一项;
Step6:确认参数,对于极端值存在缩尾(填补)、截尾(删除)两种处理方法;
Step7:点击【开始处理】,完成全部操作。
# 6、输出结果分析
为了展现显示效果,我们选择了截尾处理--对极端值进行删除。 上图是截尾处理后的结果,下图是原始数据结果。由于我们选择了将不在5%~95%的数据截进行截尾置空处理,输出结果空的地方就是不在5%~95%范围内的数据了,我们再看到原始数据,被置空的数值在当列数据中要么略微过大,要么略微过小,所以缩尾、截尾处理相当于对尾端数据进行处理。
# 7、注意事项
- 缩尾/截尾处理不支持对存在空值的变量进行处理,需要提前处理空值。
- 缩尾/截尾处理可以对单列处理或多列处理,多列处理中各个列处理是独立的,相互不影响。
# 8、模型理论
(1)缩尾 样本数据足够多时为了剔除一些极端值对研究的影响,一般会对连续变量进行缩尾/截尾处理。会在从小到大排列后,处理超出变量特定百分位范围的数值,标准为低于下限和超出上限。缩尾是替换为其特定百分位数值,截尾是直接删除值。比如说我们设定了上限为95%,下限为5%,那么,超过95%分位数值的数据被识别为极端值,且用95%的分位数值去替换原本的极端值;低于5%分位数值的数据也被识别为极端值,且用5%的分位数值去替换原本的极端值。
(2)截尾
对于低于下限和超出上限的极端值又两种截尾处理:
(2.1)若列中的某个值达到某个标准,将该值删除:即相当于对每个变量的极端值进行置空。
(2.2)若列中的某个值达到某个标准,删除该值所在行:即相当于对每个变量的极端值所在的样本进行整行删除。
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.