当前位置：文档库 › 用r语言做数据分析泊松回归

用r语言做数据分析泊松回归

用R语言做数据分析——泊松回归

当通过一系列的连续型或类别型预测变量来预测计数

型结果变量时，泊松回归是一个非常有用的工具。为阐述泊松回归模型的拟合过程，并探讨一些可能出现的问题，我们将使用robust包中Breslow癫痫数据。特别地，我们将讨论在治疗初期的八周内，抗癫痫药物对癫痫发病数的影响。我们就遭受轻微或严重间歇性癫痫的病人的年龄和癫痫发病

数收集了数据，包含病人被随机分配到药物组或者安慰剂组前八周和随机分配后八周两种情况。响应变量sumY（随机化后八周癫痫发病数），预测变量为治疗条件（Trt）、年龄（Age）和前八周内的基础癫痫发病数（Base）。之所以包含基础癫痫发病数和年龄，是因为它们对响应变量有潜在影响。在解释这些协变量后，我们感兴趣的是药物治疗是否能减少癫痫发病数。首先，看看数据集的统计汇总信息：注意，虽然数据集有12个变量，但是我们只关注之前描述的四个变量。基础和随机化后的癫痫发病数都有很高的偏度。现在，我们更详细的考察响应变量，如下代码可生成的图形如下图所示：从上图可以清楚地看到因变量的偏移特性及可能的离群点。初看图形，药物治疗下癫痫发病数似乎变小了，且方差也变小了（泊松分布中，较小的方差伴随着较小的均值）。与标准最小二乘回归不同，泊松分布并不关注方差异质性。

接下来拟合泊松回归：输出结果列出了偏差、回归参数、标准误差和参数为0的检验。除以，这里的预测变量在p解释模型参数使用coef()函数可获得模型系数，或者调用summary()函数的输出结果中的Coefficients表格：Φ在泊

松回归中，因变量以条件均值的堆属性是ln(λ)来建模。年龄的回归参数为0.0227，表明保持其他预测变量不变，年龄增加一岁，癫痫发病数的对数平均值将相应增加0.03。截距项即当预测变量都为0时，癫痫发病数的对数平均值。由于不可能为0岁，且调查对象的基础癫痫发病数均不为0，因此截距项没有任何意义。通常在因变量的初始尺度（癫痫发病数、而非发病数的对数）上解释回归系数比较容易。为此，指数化系数：现在可以看到，保持其他变量不变，年龄增加一岁，期望的癫痫发病数将乘以1.023。这意味着年龄的增

加与较高的癫痫发病数相关联。更重要的是，一单位Trt的

变化（即从安慰剂到治疗组），期望的癫痫发病数将乘以0.86，也就是说，保持基础癫痫发病数和年龄不变，服药组相对于安慰剂组发病数降低了20%。另外需要牢记的是，与Logistic 回归中的指数化参数相似，泊松模型中的指数化参数对响应变量的影响都是成倍增加的，而不是线性相加。同样，我们还需要评价波形模型的过度离势。过度离势泊松分布的方差与均值相等。当响应变量观测的方差比一句泊松分布预测的方差大时，泊松回归可能发生过度离势。由于处理计数型数

据时经常发生过度离势，且过度离势会对结果的可解释性造成负面影响，因此我们需要花些时间讨论该问题。可能造成过度离势的原因有如下几个：遗漏了某个重要的预测变量；可能因为事件相关。在泊松分布中，计数中每次时间都被认为是独立发生的。以癫痫数据为例，这意味着对于任何病人，每次癫痫发病的概率与其他癫痫发病的概率相互独立。但是这个假设通常都无法满足。对于某个病人，在已知他已经发生了39次癫痫时，第一次发生癫痫的概率不可能与第40次发生癫痫的概率相同。在纵向数据分析中，重复测量的数据优于内在群聚特性可导致过度离势。如果存在过度离势，在模型中我们无法进行解释，那么可能会得到很小的标准误和置信区间，并且显著性检验也过于宽松（也就是说，我们将会发现并不真实存在的效应）。与Logistic回归类似，此处如果残差偏差与残差自由度的比例远远大于1，那么表明存在过度离势。对于癫痫数据，它的比例为：很显然，比例远远大于1。qcc包提供了一个对泊松回归过度离势的检验方法，如下代码进行癫痫数据过度离势的检验：意料之中，显著性检验的p值果然小于0.05，进一步表明确实存在过度离势。通过用family='quasipoisson'替换family='poisson'，我们仍然可以使用glm()函数对该数据进行拟合。这与Logistic回归处理过度离势的方法是相同的。注意，使用类泊松

(quasi-Poisson)方法所得的参数估计与泊松方法相同，但标

准误差大了许多。次数，标准误差越大将会导致Trt（和Age）的p值越大于0.05。当考虑过度离势，并控制基础癫痫数和年龄时，并没有充足的证据表明药物只来哦相对于使用安慰剂能显著降低癫痫发病次数。