计数数据回归

操作视频

SPSSPRO教程-计数数据回归

# 1、作用

如若因变量Y只能取非负整数（如0，1，2，3，...）则称此类数据为计数数据，研究自变量X对因变量Y的影响时，需要使用一类特殊方法——计数数据回归。该方法中的常用模型有泊松回归、负二项回归等。

# 2、输入输出描述

输入：定量的计数数据因变量Y、自变量X。
输出：计数数据回归的方程以及部分检验结果。

# 3、案例示例

案例：刑事犯罪侦查中心根据前科、入狱月数、判刑月数、就业情况和人种等，预测当年被捕次数。

# 4、案例数据

计数数据回归案例数据

# 5、案例操作

Step1：新建分析；
Step2：上传数据；
Step3：选择对应数据打开后进行预览，确认无误后点击开始分析；

step4：选择【计数数据回归】；
step5：查看对应的数据数据格式，按要求输入【计数数据回归】数据；
step6：选择使用模型，本例使用模型为【负二项回归】；
step7：点击【开始分析】，完成全部操作。

# 6、输出结果分析

输出结果1：O检验

图表说明：
上表展示了O检验的结果，用于判定数据是否过离散。
智能分析：
模型的O检验的结果显示，显著性P值0.000***，水平上呈现显著性，拒绝原假设，因而数据存在过离散现象，可以考虑使用负二项回归。

输出结果2：似然比检验结果

图表说明：
上表展示了模型似然比检验结果，对P值进行分析，如果P<0.05，则说明模型有效；反之则说明模型无效。
智能分析：
模型的似然比卡方检验的结果显示，显著性P值0.015**，水平上呈现显著性，拒绝原假设，因而模型是有效的。

输出结果3：计数数据回归结果

图表说明：
上表展示了模型的参数结果。包括模型的系数、标准误差、z值、P值、置信区间等用于分析模型的公式。
智能分析：
模型的公式为：0.366- 0.736 * 有前科的比例- 0.04 * 平均判刑月数+ 0.012 * 总入狱月数- 0.01 * 当年合法收入- 0.191 * 当年入狱月数
alpha值的系数95%置信区间为[-0.268，0.346]，符合alpha为0的假设，不推荐使用负二项回归。
字段有前科的比例显著性P值为0.173，水平上不呈现显著性，不能拒绝原假设，因此有前科的比例项系数不显著。
字段平均判刑月数显著性P值为0.485，水平上不呈现显著性，不能拒绝原假设，因此平均判刑月数项系数不显著。
字段总入狱月数显著性P值为0.770，水平上不呈现显著性，不能拒绝原假设，因此总入狱月数项系数不显著。
字段当年合法收入显著性P值为0.099*，水平上不呈现显著性，不能拒绝原假设，因此当年合法收入项系数不显著。
字段当年入狱月数显著性P值为0.029**，水平上呈现显著性，拒绝原假设，因此当年入狱月数项系数显著。

输出结果4：模型路径图

图表说明：
上表展示了模型的参数结果。包括模型的系数、标准误差、t值、P值、置信区间等用于分析模型的公式。
智能分析：
模型的公式为：
工资的对数值=-2.808+0.052×年龄+0.115×教育+0.484×婚否+0.486×是否有小孩
字段const显著性P值为0.000***，水平上呈现显著性，拒绝原假设，因此const项系数显著。
字段年龄显著性P值为0.000***，水平上呈现显著性，拒绝原假设，因此年龄项系数显著。
字段教育显著性P值为0.000***，水平上呈现显著性，拒绝原假设，因此教育项系数显著。
字段婚否显著性P值为0.000***，水平上呈现显著性，拒绝原假设，因此婚否项系数显著。
字段是否有小孩显著性P值为0.000***，水平上呈现显著性，拒绝原假设，因此是否有小孩项系数显著。

输出结果4：计数数据回归结果

图表说明：
上图以路径图形式展示了本次模型结果，主要包括模型的系数，用于分析X对于Y的影响关系情况。

输出结果5：模型结果预测

图表说明：
上表格显示了计数数据回归模型的预测情况。

# 7、注意事项

有三种判断模型选择的方法：

根据O检验：
O检验如果呈现显著性，则拒绝原假设，因而数据存在过离散现象，推荐使用负二项回归。
根据数据的描述性分析：
1.当因变量Y的方差近似等于均值时，往往采用泊松回归。
2.当因变量Y的方差大于均值时，往往采用负二项回归。
3.当因变量Y在0取值较多，正整数部分方差近似等于均值时，往往采用零膨胀泊松分布回归。
4.当因变量Y在0取值较多，正整数部分方差大于均值时，往往采用零膨胀负二项回归。
根据Alpha值：
Alpha值的95%置信区间是否不包含0，如果不包含则不符合alpha为0的假设，推荐使用负二项回归。
其中前两种方法更优先选择用于模型选择的判断。

当选择零膨胀模型（零膨胀泊松/零膨胀负二项回归）时会附带Vuong检验，但有论文认为Vuong检验不适用于零膨胀的检验，故结果仅供参考。

# 8、模型理论

# 泊松回归

首先回顾泊松分布，泊松分布的概率密度函数为:
$F (y) = P (Y = y) = \frac{e^{- λ} λ^{y}}{y!}$
其中， $λ$ 为随机变量y的均值，随机变量只呈现从0到无穷大的整数变化。当y=0时，为事件不发生的概率; 当y=1时，为事件仅发生一次的概率；
当y=k时，为事件发生k次的概率，为 $P (y = k) = \frac{e^{- λ} λ^{y}}{y!} = \frac{e^{- λ} λ^{k}}{k!}$ 。若y≥1， $P (y \geq 1) = 1 - e^{- λ}$ ，表明事件发生一次以上的概率；
若y≥k， $P (y \geq 1) = 1 - \sum_{j = 0}^{k = 1} \frac{λ^{k_{j}}}{k!} e^{- λ}$ ，表明事件发生k次以上的概率。
则泊松回归的基本形式为：
$E (y) = μ = λ = e x p (α + β_{1} x_{1} + . . . + β_{p} x_{p})$
式中： $x_{1}, x_{2}, . . ., x_{p}$ 为解释变量。将上式线性化后的回归方程为：
$l n (E (Y)) = l n μ = l n λ = α + β_{1} x_{1} + . . . + β_{p} x_{p}$

# 负二项回归

负二项回归亦称为帕斯卡分布，有两个基本模型：
1）设p为伯努利试验中每次试验成功的概率，则伯努利试验列中恰好出现n次成功所需试验次数Y服从参数为(n,p)的负二项分布。
$P (Y = k) = [\begin{matrix} k - 1 \\ n - 1 \end{matrix}] p^{n} (1 - p)^{k - n} (k = n, n + 1, . . .)$ ，均值 $E (Y) = \frac{n}{p}$ ，方差 $V a r (Y) = \frac{n (1 - p)}{p^{2}}$ 。
2）设p为伯努利试验中每次试验成功的概率，则伯努利试验列中恰好出现n次成功之前失败的次数X服从参数为(n,p) 的负二项分布。
$P (Y = k) = [\begin{matrix} n + k - 1 \\ k \end{matrix}] p^{n} (1 - p)^{k} (k = 0, 1, 2, . . .)$ ，均值 $E (Y) = \frac{n (1 - p)}{p}$ ，方差 $V a r (Y) = \frac{n (1 - p)}{p^{2}}$ 。设q=1-p，则此分布的概率是 $p^{n} (1 - q)^{- n}$ 的幂级数展开式，因此被称为负二项分布。负二项分布基本的特性是其方差大于均值。负二项回归模型的表达式如下：
$l o g μ = i n t e r c e p t + b_{1} x_{1} + b_{2} x_{2} + . . . + b_{m} x_{m}$
$μ = e x p (i n t e r c e p t + b_{1} x_{1} + b_{2} x_{2} + . . . + b_{m} x_{m})$
其中μ是自变量的指数函数，负二项方差为 $μ + k μ^{2}$ 其中K=0为离散参数。

# 9、参考文献

[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2] 陈强. 高级计量经济学及Stata应用[M]. 高等教育出版社, 2010.

建议反馈