无效样本处理
# 无效样本处理
# 1、作用
无效样本处理是指对一个样本的所有数据进行管理操作,目的是排除重复、无效的样本,使得整个分析数据符合研究的预期设想。SPSSPRO支持重复、无效个案筛选,筛选结果可以直接剔除,也可以标记后用户自己决定。
# 2、输入输出描述
输入:一项或以上的定量或定类变量。
输出:对满足条件的样本进行删除或是标记(生成标记变量)。
# 3、案例示例
案例:现有一份数据,分别按照相同数字出现50%及数字缺失50%及以上两个添加来筛选个案。
# 4、案例数据
个案处理案例数据
# 5、案例操作
Step1:在“数据处理”模块新建处理;
Step2:上传文件;
Step3:选择对应数据打开后进行预览,确认无误后点击开始处理;
Step4:选择【个案处理】;
Step5:查看对应的数据数据格式,【个案处理】要求变量为定量或定类变量,且至少有两项;
Step6:确认无效样本的识别规则(详情可看模型理论);
Step7:点击【开始处理】,完成全部操作。
# 6、输出结果分析
由于选了“缺失比例出现50%及以上”,首列标记1为有效样本,0为无效样本,很明显,无效样本的缺失值较多。
一般情况下也可以直接删除这种无效样本,删除刚刚三个无效样本后,还剩下17个样本。
# 7、注意事项
- 若是要进行“相同数据出现XX%及以上”的识别,对于定类变量来说,是识别了相同编码出现了XX%及以上的情况,建议不要对定类变量进行该识别。
# 8、模型理论
一般在问卷回答中,若是对于不同的问题,回答情况都是一样的,说明这个样本可能是乱填的,我们就有必要将它进行识别,然后确定为无效样本,进行标记或者最直接删除该样本(删除整行数据)。
另外一种无效样本是存在较多的缺失值,我们就有必要将它进行识别,然后确定为无效样本,进行标记或者最直接删除该样本(删除整行数据)。
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.