缺失值处理
# 缺失值处理
# 1、作用
缺失值即空值,该方法可以识对各个变量的空值进行识别和填补,其中包括统计量填补和规则填补。
# 2、输入输出描述
输入:一项或以上定量或定类变量。
输出:对缺失值进行填补后的序列。
# 3、案例示例
案例:示例,现有一个变量,对空值进行识别,并且用当前的均值对空值进行填补。
# 4、案例数据
缺失值处理案例数据
# 5、案例操作
Step1:在“数据处理”模块新建处理;
Step2:上传文件;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
Step4:选择【缺失值处理】;
Step5:查看对应的数据数据格式,【缺失值处理】要求变量为定量或定类变量,且至少有一项;
Step6:确认参数,有不同的填充方法可选择;
Step7:点击【开始处理】,完成全部操作。
# 6、输出结果分析
根据每一列的平均值作为填补值,来对每列的空值位置进行填补,每一列的填补操作是相互独立的,互不影响的。
# 7、注意事项
- 缺失值处理对于定类变量和定量变量要分开处理:定类变量的统计填充只存在众数填充,定量变量的统计填充存在均值、中位数、众数、三倍标准差、负三倍标准差填充。
# 8、模型理论
(1)统计量填充
均值:即整列数据的均值作为填充值
中位数:即整列数据的中位数作为填充值
众数:即整列数据的众数作为填充值
三倍标准差:即“均值+三倍标准差”作为填充值
负三倍标准差:即“均值-三倍标准差”作为填充值
(2)规则填充
纵向用缺失值上面的值替换缺失值:缺失值上面的第一个有效值作为填充值
纵向用缺失值下面的值替换缺失值:缺失值下面的第一个有效值作为填充值
若某行全为缺失值,剔除所在行:若拖入的变量中某一行样本全是空值,则剔除整个数据集的这一行样本
固定值M填充:自定义M作为填充值
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.