数据编码
更新于2021-09-16
# 数据编码
# 1、作用
将变量数值再次进行编码,可进一步浓缩或整合原始数据。按分组替换原始数据,同时为分组数据打上标签,如将年龄(定量变量,数值)编码年龄段(定类变量,如少年、青年、中年等),SPSSPRO 提供了三种形式的编码方式,分别是新编码、范围编码和自动分组。其中: 新编码:若数据为文本类型,SPSSPRO 默认文本类数据会按列编码为 1,2,3,....,N,在新编码中您可以随意设置。 范围编码:将原始数据编码或默认文本类数据编码按数字范围进行设置新编码,编码范围不允许重复。 自动分组:将数值数值按照均值、二分位数、四分位数进行分组。
# 2、案例操作
# 新编码
step 1: 选择对应需要设置新编码的变量,拖动至已选变量。
step 2: 将原始数值编码为所需新编码。
step 3: 点击确认,即生成新一列的编码数据(如下图,对标签为否的数值编码为 1)。

# 范围编码
分组太少会掩盖变量变动时频次变化,分组太多增加偶然因素,看不出明显规律。样本数量 50-100,建议分 6-10 组;样本数量 100-250,建议分 7-12 组;样本数量 250 以上,建议分 10-20 组。
step 1: 选择对应需要设置新编码的变量,拖动至已选变量。
step 2: 将原始数据编码或默认文本类数据编码按数字范围进行设置新编码,编码范围不允许重复。选中“+”或“-”可新增或减少分组。
step 3: 点击确认,即生成新一列的编码数据。
# 自动分组

step 1: 选择对应需要设置新编码的变量,拖动至已选变量。 step 2: 将数值按照需求进行自动分组,包括均值、二分位数、27%、73%分位数、四分位数进行分组
- 均值 2 组:将数值按照平均值进行分割,低于平均值为一组,高于平均值为一组。
- 二分位数 2 组:将数值按照从小到大分、按照 50%的比例分为两组。
- 27%、73%分位数 3 组:将数值按照从小到大分、按照 27%、27%-73%、73%-100%分为三组。
- 四分位数 4 组:将数值按照从小到大分、按照 25%、25%-50%、50%-75%、75%-100%分为四组。
step 3: 点击确认,即生成新一列的编码数据。