分类汇总
# 分类汇总
# 1、作用
分类汇总是根据定类变量的不同取值进行数据汇总和统计分析的过程。在分类完成的基础上对各类别相关数据分别进行求和、求平均数、求个数、求最大值、求最小值等方法的汇总。在某些情况下,特别是涉及两个或多个定类变量之间的关系时,分类汇总也称为列联表分析。
# 2、输入输出描述
输入:分组项为一个或多个定类变量,汇总项为一个或多个定量/定类变量。
输出:在分完类的基础上对各类别相关数据分别进行求和、求平均数、求个数、求最大值、求最小值等统计量。
# 3、案例示例
案例:统计公司最近 2 个月的办公设备采购情况,分别按照设备类型、数量、采购金额进行汇总分析。
# 4、案例数据
分类汇总案例数据
分组项为一个或多个定类变量,汇总项为一个或多个定类变量指的是:定类变量(设备清单)作为分组变量,一个或多个定量/定类变量(采购金额/数量)为汇总项。若输入多个分组变量,则为以已经拖入的分组变量对定类/定量变量进行交叉分析,若输入多个汇总定类/定量变量,则为以已经拖入的分组变量对多个定类/定量变量重复分析。
# 5、案例操作
Step1:新建项目;
Step2:上传文件;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
Step4:选择【分类汇总】;
Step5:查看对应的数据数据格式,【分类汇总】分组项要求输入数据为定类变量,且至少有一项;
Step6:查看对应的数据数据格式,【分类汇总】汇总项要求输入数据为定量变量,且至少有一项;
Step7:【类型】选择均值;
Step8:点击【开始分析】,完成全部操作。
# 6、输出结果分析
输出结果 1:分组汇总图
图表说明: 上图展示了汇总变量:采购金额、数量分类汇总的结果,可以计算样本量、最大值、最小值等统计量,用于研究分组后定量数据的整体情况。
输出结果 2:分组汇总表
图表说明: 上表展示了汇总变量:采购金额、数量分类汇总的结果,可以计算样本量、最大值、最小值等统计量,用于研究分组后定量数据的整体情况。
结果分析:由于案例是均值分类汇总,故从图中可见在采购数上,鼠标的采购数是最多的,打印机的采购数是最少的。在金额上,计算机是最多的,鼠标是最少的。
# 7、注意事项
- 定类变量的分类汇总只有频数是有意义的
# 8、模型理论
对于资料分类进行汇总,是将数据按照特定标准分类后,针对每个类别进行统计分析的过程。
- 均值(Mean):平均数,统计学术语,是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。
- 计数:计数是统计某个类别或条件下的数据个数,常用于确定某种情况的发生频率或出现次数。
- 中位数(Median):又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。
- 标准差(Standard Deviation):是离均差平方的算术平均数(即:方差)的算术平方根,用
表示。标准差也被称为标准偏差,或者实验标准差,在概率统计中最常使用作为统计分布程度上的测量依据。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。 - 最大值:即为已知的数据中的最大的一个值。
- 最小值:即为已知的数据中的最小的一个值。
- 众数(Mode):是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平。 也是一组数据中出现次数最多的数值,有时众数在一组数中有好几个。用
表示。 - 求和:两个及两个以上数值相加所获得的总数。
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2] 杨长城. 浅谈对数学语言的认识[J]. 基础教育, 2008, 000(003):32-33.
[3] 刘悦,郝舒欣,宋杰,周连,刘婕,王秋水,袁大勇,徐东群. 空气污染与疾病关系的时间序列分析中门急诊数据快速清洗及自动分类汇总方法的研究[J]. 卫生研究(4 期):109-115.