数据概览
# 数据概览
# 1、作用
用于对数据集的基本特征、属性和统计信息进行总结和描述。
# 2、输入输出描述
输入:一个或以上的定量变量。
输出:图形图表展示各数据的基本特征、属性。
# 3、案例示例
案例:对数据集的数据进行概览,查看缺失值以及数据整体情况。
# 4、案例数据
数据概览案例数据
# 5、案例操作
tep1:新建分析;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
step4:选择【数据概览】;
step5:查看对应的数据数据格式,【数据概览】要求输入数据为定量或定类变量,且至少有一项;
step6:点击【开始分析】,完成全部操作。
# 6、输出结果分析
输出结果1:房价
输出结果2:户型
输出结果3:电梯
# 7、注意事项
对于定量变量和定类变量的数据概览结果是不一样的;上传数据后系统会自动识别定量或定类,请谨慎更换数据类型;
# 8、模型理论
数据概览对各个变量进行数据概述,为后续的分析、建模和决策提供基础:
(1)了解数据质量和完整性,可以初步检查数据中是否存在缺失值、异常值或不一致的情况。
(2)选择合适的分析方法,可以揭示数据的分布、范围和变化情况,从而帮助选择适合的分析方法。
在SPSSPRO中,数据概览的表格主要有以下内容:数据类型(定量或定类),样本值,最大值,最小值,缺失值,中位数,去重量,变异系数,平均值,方差,标准差,S-W正态检验。 S-W正态检验(Shapiro-Wilk)是一种用来检验数据是否来自正态分布的统计检验方法。它对小到中等样本量(通常不超过5000个观测值)的数据集效果较好,并且对于正态性的敏感性也比较高。其原理、步骤为:
- 建立假设: 零假设(H0):样本数据服从正态分布。 备择假设(H1):样本数据不服从正态分布。
- 2.计算统计量:先将样本数据按照大小进行排序。再根据排序后的数据计算 Shapiro-Wilk 的统计量
。这个统计量的计算依赖于数据的排序值以及与正态分布的相关性。
其中,
- 3.确定临界值,根据P值得出结论。
其他指标可详见“描述性统计”。
# 9、参考文献
[1]彤季. 统计学入门(Ⅺ)[J]. 数理统计与管理, 1984(05):25-29.