SPSSPRO,让数据分析更简单,问卷调查类数据分析不再愁 产品介绍 帮助中心 客户端
微信登录
  • 产品简介

  • 我的数据

  • 数据处理

  • 数据分析

    • 描述性分析

    • 问卷分析

    • 综合评价

    • 差异性分析

    • 相关性分析

    • 预测模型

    • 统计建模

      • 主成分分析(PCA)
      • 典型相关分析
      • 泊松分布检验
      • 游程检验
      • 逐步回归
      • 线性判别
      • 关联分析
      • 拟合工具箱
      • 极差分析
      • 二阶聚类
        • 1、作用
        • 2、输入输出描述
        • 3、案例示例
        • 4、案例数据
        • 5、案例操作
        • 6、输出结果分析
        • 7、注意事项
        • 8、模型理论
        • 9、参考文献
      • 混合模型
      • 对数线性模型
      • 广义线性模型
      • 广义估计方程
    • 计量经济模型

    • 医学统计模型

    • 机器学习分类

    • 机器学习回归

    • 规划求解

    • 研究模型

    • 信号分析

    • 自定义算法

二阶聚类

操作视频
SPSSPRO教程-二阶聚类

# 二阶聚类

# 1、作用

二阶聚类也称二步聚类,是使用BIRCH聚类算法的一种聚类分析,其将聚类过程分两步进行。首先创建聚类特征树(CF Tree)对数据集进行预聚类,之后再根据预聚类的结果对样本进行第二次聚类。由于假设模型中的定类和定量变量都服从联合多元正态分布,故可以有效对定类变量聚类。

# 2、输入输出描述

输入:1个或一个以上的定类变量或者定量变量,可选聚类类别数。
输出:聚类总的类别数和样本划分的类别。

# 3、案例示例

案例:根据调研用户的收入、年龄、学历等变量进行聚类。由于学历为定类变量,故选择二阶聚类进行分析。

# 4、案例数据


二阶聚类案例数据

# 5、案例操作


Step1:新建分析;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;

step4:选择【二阶聚类】;
step5:查看对应的数据数据格式,按照【二阶聚类】要求拖入变量;
step6:点击【开始分析】,完成全部操作。

# 6、输出结果分析

输出结果1:聚类情况表

聚类数目 施瓦兹贝叶斯准则 (BIC) BIC 变化量 BIC 变化比率 distance
1 266869.382
2 251745.912 -15123.47 1 1.347
3 240536.865 -11209.047 0.741 1.696
4 233958.262 -6578.603 0.435 1.202
5 228497.165 -5461.097 0.361 5.663
6 227593.47 -903.695 0.06 1.055
7 226740.307 -853.163 0.056 1.005
8 225892.096 -848.211 0.056 1.057
9 225093.615 -798.481 0.053 1.02
10 224312.613 -781.002 0.052 3.246
11 224122.958 -189.655 0.013 1.118
12 223961.117 -161.841 0.011 1.002
13 223799.69 -161.426 0.011 1.06
14 223651.615 -148.075 0.01 1.277
15 223551.672 -99.942 0.007 1.301
轮廓系数=0.404

图表说明:上表展示了不同聚类数的BIC值和变化情况等,用于分析合适的聚类数以及聚类效果。根据聚类情况表的计算得到,合适的聚类个数为5。其中聚类的轮廓系数为0.404,可以认为聚类结果是尚可的。

输出结果2:聚类汇总图

图表说明:上图展示了模型聚类的结果,包括频数,所占百分比。

输出结果3:数据集聚类标注

收入 年龄 学历 类别
6014 57 研究生 1
15087 60 研究生 1
5865 17 初中 3
6250 26 小学 4
7328 24 小学 4
4253 40 初中 3
10600 59 高中 2
5095 27 高中 2
4445 55 初中 3
4420 48 初中 3
4293 33 初中 3
4042 33 初中 3
10136 15 大学 5
3324 49 小学 4
8850 26 大学 5

图表说明:上表展示了数据聚类的类别标注。 若是结果超过15行数据,点击表格右上角的下载按钮去导出全部结果。

输出结果4:定量变量聚类中心点坐标

1 2 3 4 5 合计
中心值_收入 15489.729 6008.021 4500.924 5460.99 8964.805 40424.468
中心值_年龄 38.262 38.71 38.138 37.719 38.145 190.974

图表说明:上表展示了在不同聚类种类中定量变量的中心值情况。
由“中心值_收入”可以看到,不同类别的收入差别是较大的,收入最高的是类别1,说明收入对聚类结果影响较大;
由“中心值_年龄”可以看到,不同类别的年龄均值是比较接近的,说明年龄对聚类结果的影响不大;

输出结果5:定类变量分布情况

学历 1 2 3 4 5 合计
研究生 1968 0 0 0 0 1968
初中 0 0 2024 0 0 2024
小学 0 0 0 1944 0 1944
高中 0 2033 0 0 0 2033
大学 0 0 0 0 2031 2031

图表说明:上表展示了在不同聚类种类中定类变量不同水平的分布情况。由学历这个变量,可以看到,二阶聚类聚成的5类依次对应了学历的五个水平,说明学历对聚类结果影响较大;

# 7、注意事项

  • 系统聚类结果基于BIC准则判断;

# 8、模型理论

两阶聚类就是为分成两步来完成聚类过程,可同时基于类别变量和连续变量进行聚类;:
第一步对所有记录进行距离考察,构建CF分类特征树,同一个树节点内的记录相似度高,相似度差的记录则会生成新的节点。
第二步,在分类树的基础上,使用凝聚法对节点进行分类,每一个聚类结果使用BIC或者AIC进行判断,得出最终的聚类结果。

# 9、参考文献

[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2] 李玲静, 汪存友, 余嘉元. 对两阶聚类法自动确定聚类数规则的求证[J]. 统计与决策, 2010(20):2.
[3] 祝迎春. 二阶聚类模型及其应用[J]. 市场研究, 2005(1):3.

建议反馈