文档库 最新最全的文档下载
当前位置:文档库 › 广义线性模型_二_

广义线性模型_二_

广义线性模型_二_
广义线性模型_二_

文章编号:1002—1566(2002)06—0057—07

广义线性模型(二)

陈希孺

(中国科学院研究生院,北京100039)

摘 要:本讲座是广义线性模型这个题目的一个比较系统的介绍。主要分3部分:建模、统计分析

与模型选择和诊断。写作时依据的主要参考资料是L.Fahrmeir等人的《Multivariate Statistical

Modeling Based on G eneralized Linear Models》。

关键词:广义线性模型;建模;统计分析;模型选择和诊断

中图分类号:O212文献标识码:A

§1.2多维广义线性模型

(一)定义

在§1.1中我们见过几种目标变量Y取值的情况:1.连续取值,如人的身高、元件的寿命之类。2.取离散值,但仍有数量意义,如“受感染的细胞数”取0,1,2,…用Poisson分布描述。m个患者中痊愈的个数,取0,1,…,m为值。3.变量为属性,但只有两个状态,如“产后感染或否”,用0—1变量描述,0,1无数量意义,只指示有无。

以上这些情况都可以用一个单变量描述之,其统计模型取为单参(数)指数型分布。另有一些情况,其目标变量Y须取为向量的,如Y=(Y(1),Y(2))=(身高,体重)。这种取连续向量值的目标变量,如用多元正态为统计模型,得到熟知的多重线性回归。除此以外,还有一种重要情况:Y取k个“状态”之一,kΕ3。如在例1.1中,感染可分2种类型,于是每个产妇处在3个状态之一:无感染、Ⅰ型感染、Ⅱ型感染。它当然可用0,1,2这3个数字标识,因此可能会认为,此例中的目标变量Y只取3个值0,1,2,非向量。但这一看法是错误的,因为此处0, 1,2并无数量意义,只是一种“标签”。正确的做法是如§1.1(二)中那样引入“哑变量”Y(1),…Y(q),q=k-1:

Y(j)=1,若Y取状态j

0,其它

,j=1,…q(1.38)

而把目标变量Y定为Y=(Y(1),…Y(q))’。它共取k个值:

a1=(1,0,…,0);…;a j=(0,…0,1,0…0);…;a k=(0,…0)

“Y=a j”Ζ“取状态j”,j=1,…,k。

一般,设目标函数Y为q维:Y=(Y(1),…Y(q)),它取值于R k中的一Borel集A。应用上A有两个情况:1.离散情况,A为一有限或可列集。如在上例有A={a1,…,a k}

2.连续情况,A为R k中一区间,即形如

A={(t1,…,t q):a j

之集。不等号也可改为等号(全为不等号称开区间,全为等号称闭区间,左端全为等号右端全为不等号称左闭右开区间等等,a j可取为-∞,b j可取为∞,于是有有界区间及无界区间之分

别)与1维广义线性模型相似,多维广义线性模型的一个要素是:Y有指数型分布:

c(y)exp(θ′y-b(θ))dμ(y),θ∈Θ(1.39)θ=(θ

(1),…,θ(q))为q维参数向量。θ与模型中一些有实际意义的参数相关联(见例1.5),因

∫A c(y)exp(θ′y-b(θ))dμ(y)=1(1.40)在积分号下对θ求导,易得

μ>E Y= b(θ)>9b(θ)

9θ=9b

9θ1,…,

9b

9θq

(1.41)

二次求导,得

COV(Y)=≈

b(

θ)>9b(θ)

9θ9θ′=

92b

9θi9θj i,j=1,…,q(1.42)

另一个要素是联系函数。设有自变量x(向量),它影响目标变量Y的取值,由x产生q×p 矩阵z=z(x)。例如,在x的多项式回归中,z包含x各分量的一些幂次以及交互乘积等,而β为p维未知参数。记

η=zβ(1.43)定义集合

B={μ∶μ=∫A yc(y)exp(θ′y-b(θ))dμ(y),θ∈Θ}(1.44)即Y的一切期望值之集。联系函数g是一个定义于B上取值为R q的充分光滑的函数,满足条件:

μ

1

≠μ2]g(μ1)≠g(μ2)(1.45)

g(μ)=η=zβ(1.46)有

μ=E Y=h(zβ)(1.47)注意g,h和zβ都是q维列向量。

若有了样本(y i,x i)3),1ΦiΦn,相应有z i>z(x i)及ηi=z iβ,以及(μi=Ey i)

θ

i

= b-1(μi)= b-1(h(z iβ))(1.48) 3)注意y(i)与y i的分别,y(i)是Y的第i个分量,为1维;y i是Y的观测值,为q维,以后都坚持这个写法。

得(y1,…,y n)的联合密度

Πn i=1c(y i)expΣ

n

i=1

y i′ b-1(h(z iβ))-Σ

n

i=1

b( b-1(h(z iβ)))(1.49)

利用它可以对未知参数β进行统计推断。

关于在同一自变量x值下一些Y值之和或平均,仍是指数型,情况与1维完全一样。

多维指数型分布的基本性质也与1维情况相似,主要有两点:

1.集合θ∶∫A c(y)eθ′y dμ(x)<∞为一凸集。这集称为指数型族(1.42)的自然参数空间,(1.42)中的参数空间Θ一般就是此集合,也可以是其一部分。

2.在此集合的内点(是指作为R k的集合的内点,例如,在平面上横轴的区间(0,1),作为此轴上的集有内点,但作为平面R2上之集无内点)θ0处,积分

c (y )e θ′y

d

μ(y )(1.50)

可在积分号下求任意阶偏导数。由这就容易证明公式(1.41)和(1.42),类似于1维情况下(1.

5)的证明。

自然联系函数的定义也与1维一样:

g = b -1

 (或h = b )

(1.51)称为自然联系函数。它满足:

θ= b -1

)=g (μ)=η∶θ=η(1.52) b -1确实满足联系函数的条件。此因COV (Y )>0,故≈b

(θ)=9 b (θ)/9θ′

>0,因此知映

射a → b (a )为一一的,又刚才已指出b (θ)由任意阶偏导数,故 b 为光滑。

(二)多项分布的情形

我们再继续前面的讨论,目标变量取a 1,…,a k 等k 个值,其取a j 的概率记为π(j ),j =1,

…q ,而π=(π(1),…

π(q ))′(取a k 的概率为1-(π(1)+…π(q )))。π受自变量x 的影响:可记为π=π(x )。

Y =(Y (1),…Y (q ))′的分布为指数型(Y (j )定义见(1.41)):若(y (1),…y (q ))′

为a 1,…a k

之一,则

P (y =(y (1),…y (q ))′

)=(1-π(1)-…-π(q ))1-(y (

1)

+…+y (q ))

Πq

j =1

π(j )y (j )

(1.53)

令θ=(log θ(1),…,log θ(q ))′=(θ(1),…θ(q ))′,其中

θ(j )=π(j )

1-(π(1)+…+π(q ))

,

]π(j )= θj 1+Σq l =1

θl

=e θ(j )(1+Σq l =1e θ(l )

j )=1,…q

(1.54)

可将(1.53)写为

(1-π(1)-…-π(q ))Πq

j =1 θ(j )

y (j )

=(1+Σq

j =1 θ(j ))

-1

exp (Σq

j =1

y (j )θ(j ))=exp (θ′

y -b (θ

))(y =(y (1),…y (q ))′)

b (θ)=log (1+Σq

j =1

θ(j ))=log (1+Σq

j =1e

θ(j )

)(1.55)

确是(1.39)的形状。

μ为集{a 1,…,a k }上的计点测度,由于θ=log (π(1)/(1-|π|))

…log (π(q )/(1-|π|))

 (|π|=Σq

j =1

π(j ))

自然联系函数为(注意μ=π(=E Y ),μ>(μ(1),…,μ(q ))′,π(j )=μ(j ))

g (μ)=g (1)(μ

) …g (q )(μ

),

g (j )(μ

)=log (μ(j )/(1-μ(1)-…-μ(q ))) j =1,…,q (1.56)

(或将μ改写为π,μ(j )改为π(j ),一样)

g 的反函数h :定义于Θ={(θ(1),…,θ(q ))′:-∞<θ(j )<∞,j =1,…,q}

h (θ)=(h (1)(θ),…,h (q )(θ))′,其中h (j )(θ)=e θ(j )/(1+Σq

l =1e θ

(l )),j =1,…,q

(1.57)

这由h = b 立即得出。

下面要讨论如何构造z (x )及参数β的问题。在此要注意的是:一个因素对Y 处在何状

态的影响,与该状态有关而非是一致的,最好通过一个例子来说明。

例1.5要调查人们在假期中是否出行及采用何种交通工具受一些因素,如经济情况,对安全的重视,对节省旅途时间的重视,性别,担负的工作的性质…等等的影响。目标变量Y 有4个状态:

1.不出行

2.坐火车

3.坐汽车

4.坐飞机一般讲,经济状况不好有利于状态1,其次2、3,而不利于4。安全因素有利于1、2而不利于3以至4,等等。

这表明:对不同的状态要设置不同的参数,而不可用一个统一的参数,现设根据问题性质的考虑,已由自变量x 构造出有关的r 维向量l (x ),并引入常数项,则“x 对Y 取状态j 的影响”应通过

β0j +l ′(x )βj >η

(j )(x ),j =1,…,q (1.58)去表达。βj 是r 维列向量。β0j 、βj 之依赖j ,体现出x 对各状态的影响不一。

因此η(x )=

η(1)(x )

 …η(q )(x )

要等于Z (x )β,必须取Z (x )=

1,l ′

(x )0

…0

1,l ′

(x )…0……ω…

00

…1,l ′

(x )(1.59)

β=(1,β1′,1,β2′,…,1,βj ′,…,1,β′q )′

(1.60)

因此,z (x )为q ×(r +1)q ,β为(r +1)q 维。

在自然联系函数的情况下,θ=(θ(1),…,θ(q ))=Z

β,于是θ(j )=β0j +l ′

(x )βj ,j =1,…,q

(1.61)

如令z (0)(x )=(1,l ′(x ))′,并把现在的(1,β′j )′命名为βj ,而β=(β′1,…,β′q )′

,则可写Z (x )=

z 3

(0)(x )

(00)

z 3

(0)(x )

…0

……ω

…z 3(0)(x )

,β=(β′1,…,β′q )′

而η

(x )=z (x )β(1.62) 设有了n 个样本(y i ,x i ),i =1,…,n 。相应的η(x )记为ηi >η(x i )。联系函数为g ,则

相应的θi (此处再提醒注意θi 与θ

(i )的区别,前者是在第i 次观察(得(y i ,x i ))时,总体的θ值,或更确切的说,因受x 取值x i 的影响(这影响到π,而通过π影响到θ)使总体取θi ,至于

θ(i )是指θ的第i 分量,由此可以理解θi (j )的意义)为(h =g -1

)θi = b -1(πi )= b -1(h (ηi ))= b -1(h (z ′(o )(x i )β1,…z ′(o )(x i )βq ))πi 为第i 次试验中总体的π值,注意到它与π(i )的区别。

于是得(y 1,…,y n )的联合分布密度,如(1.52),在自然联系函数的情况下它有形式3)

Πn i =1

c (y i )?exp (Σn i =1

y ′i z (x i )β-Σn

i =1

b (z (x i ))β

)=Πn i =1

c (y i )?exp (Σn i =1Σq j =1

y i (j )z ′(o )(x i )βj -Σn i =1

log (1+Σq

i =1

e

z ′(o )(x i )βj

))

(1.63)

由此出发,对β进行估计,检验等等。

3)y i (j )为y i 的第i 元。例如,若y i 取状态2,则y i (2)=1,y i (j )=0当j ≠2,若y i 取状态k (=q +1),则y i (j )=0对j =1,…,q 。

例1.6在例1.1中,感染分Ⅰ、Ⅱ型,于是Y 有3个状态:1.感染Ⅰ型;2.感染Ⅱ型;3.无感染。观察了剖腹产妇251人,结果如下表:

组大小

目标变量y (1) y (2)自变量

x (1)x (2)x (3)

1404 40 0 0

25811 170 0 0

320 00 1 04180 10 1 1590 01 0 062610 131 0 17

98

4 7

1 1 1

(x (1)=1:剖腹非计划;x (2)=1:服用抗生素;x (3)=1有危险因子)

例如,第2组是那些产妇:剖腹早计划;不服用抗生素;有危险因子,共58名,结果,Ⅰ、Ⅱ型感染者分别有

11、17人。无感染者58-11-17=30人。

先算出z ′(0)(x i ),例如,当x i 属于第4组时,z ′

(0)(x i )=(1,0,1,1),比例k =3,q =k -1=2,有β1和β2。将其表为

β1=(β10,β11,β12,β13)′,β2=(β20,β21,β22,β23)

(

z ′

(0)

(x )就取为(1,x (1),x (2),x (3))),将表中之值代入公式(1.63)略去与β无关的因子7n

i =1

c

(y i )不计,并略去“exp ”号,结果为:

40[4β10+4β20]+58[11(β10+β13)+17(β20+β23)]

+18[β20+β22+β23]+26[10(β10+β11+β13)+13(β20+β21+β23)]+98[4(β10+β11+β12+β13)+7(β20+β21+β22+β23)]-{40log (1+e β10

+e β20)+50log (1+e β10+β13+e β20+β

23)

+2log (1+e β10+β12+e β20+β22)+18log (1+e

β10+β12+β13+e β20+β22+β23)+9log (1+e

β10+β11

+e

β20+β21

)+26log (1+e

β10+β11+β13+e β20+β22+β23)+98log (1+e

β10+β11+β12+β13

+e

β20+β21+β22+β23

)}

(1.64)

用极大似然估计,则是要就此函数求β10,β20,…β13,β23之值,使函数达到最大,此例用的

是自然联系,不然算式会更复杂。

如果在一个问题中有4个属性因素,各有3水平(即3个不同的状态),而目标变量有4状态,则模型中将涉及

3.4.3=36个参数

即使在如今计算机应用已很普遍的时代,这也不是一个小规模的计算问题,何况就所涉及的因素和水平而言,问题还不算复杂。在较复杂的大型问题中涉及成百的参数的情况,也是不难想象的。由此也可以看出,统计应用对计算手段的依赖是何等密切。

(三)多种选择的问题

属性目标变量常见的一个情况是:人们面临有限种决策,可自由选择其中之一。选择何者,则是根据本人及选择对象的条件,依自己的判断而定,目标变量是选择结果,而自己及选择标的之条件则为自变量。

例如旅行工具的选择有汽车、轮船、火车、飞机4种,目标变量取这4个“状态”之一。若再细分,如火车分座席、硬卧、软卧,飞机分头等、商务、经济三等,轮船分2、3、4、5四等,则目标可取11个状态。旅行者根据自己条件及这些交通工具的条件作选择(假定各种票均不难买到)。

又如购车者在购车时,目标可分4个档次:10万元以下,10—20万元,20—50万元,50万元以上。他可根据自己财力,对车性能的要求,各档次车的条件等等(自变量)作出自由的选择。就一个具体的人而言,这种选择随机性不大,但各人情况不同,而样本中包含哪些人则是随机的,故目标Y值仍有随机性(这与一般抽样调查并无不同)。这类问题在社会调查和商务调查中有重要意义,其目的在于,那些因素在决定人们的选择上起多大的作用。

本段中我们考察以下几个问题:

1.根据“利益分析”看各状态被选择的概率

这个理论假定:对一个具体的选择者而言,k个“状态”各有一个“利益值”相关联,分别记为u1,…,u k。例如在选择交通工具时,经济拮据的人对“火车”所赋“利益值”要比对“飞机”所赋“利益值”为大。若选择者对u1,…,u k之值已完全了解,则他选状态r,使u r=m ax

u j,但一

j

般u值并不完全确定,或也可能选择者对其了解存在一定的(随机)误差———例如发生的事故影响人们对u值的看法。因此,人们估量的利益值为U1,…,U k,其中

U j=u j+ξj,j=1,…,k(1.65)而ξj,…,ξk为ii d随机变量。选择者根据“U值最大”去挑选状态,于是

P(状态r被选择)=P(U r>U j,j=1,…,k)

=P(ξj

P(r被选择)=∫∞-∞7k j=1≠r F(t+u r-u i)f(t)dt(1.67) f(t)=d F(t)/dt为ξj的概率密度。

对F的不同选取,可得种种模型。如选F为N(0,σ20)(σ0已知),得所谓多维Probit模型。它涉及多维正态分布函数的计算,实施较难。另一个选择是选F为极值分布:

F(t)=exp(-e-t),-∞

其密度f(t)=e-t exp(-e-t)关于0不对称,但导致简单结果:代入(1.67),直接积分易得

P(r被选择)=e u r6k j=1e u j,r=1,…,k(1.68)

=e u r/(1+6k j=1e u j), u j=u j-u k

与(1.54)对照,知 u j相当于θ(j),即( u1,… u q)′相当于指数族标准型(1.39)中的θ。这在这一特例对θ作了一个有实际意义的解释,也可视为多维logit模型(1.54)的一个背景解释。

2.自变量建模问题

影响选择的因素(自变量)有两类,一类是状态本身的条件,如购买计算机在几种不同的品种中选择,其功能是一影响选择的因素,它与个人的条件无关。另一类是与选择者有关的条件,如经济状况、年龄、旅行距离、去机场、车站、码头等的距离和方便程度等。

后一类因素又可细分为2类。一类是虽则条件与个人有关,但对各状态选择的影响,并不因人而异。举例来说,“单位距离(如100公里)的旅费”这个因素,可能因人而异,因同一种交通工具在不同地区的费用可以有所不同,但其对交通工具选择的影响并不因人而异,因为“价廉”有利于被选上,这一点不因人而异。另一类则是对各状态的影响因人而异,如选择者的经济状况。经济状况很好的人,对选择飞机有利,差的人对选火车有利而对选飞机不利,对何者有利或不利依各人经济状况不同而转移。“旅行距离”也是这样的因素。

以上的分析决定了z (x i )的形式及参数β的形式。我们就下面的表来解释:

Z (x i )=

Z ′

(0)(x i )

Z

(

0)(x i )

ω

Z ′(0)(x i )

W ′11

…W ′m 1W ′

12

…W ′m 2…

ω…W ′1q

…W ′m q v ′

11i (v)

′l 1i v ′12i

…v ′l 2i …

ω…

v ′1qi

v ′lqi

β=β1…

βq

r 1

r m

δ1…δl

(1.69)

10z (0)(x i )相应于全部与人有关且对各状态影响因人而异的因素。例如,若这种因素有2个,

分别由2和3个不同状态,则用哑变量,将分别以x (1)及(x (2),x (3))刻画之。这时z (0)(x i )可

能就是(1,x (1)i ,x (2)i ,x (3)i ),而β′

j 则为(βj 0,βj 1,βj 2,βj 3),它刻画这些变量对

“是否选择状态j ”的影响。

20涉及状态本身的条件考虑了m 个。其第j 个由n j -1个哑变量刻画(该条件有n j 个状

态)。w j 1′的第1元为1(常数项),其余各元分别是这n j -1个哑变量在状态l 处之值。例如,若这第j 个条件是“单位旅程票价”,只设两个状态:低(0),高(1),而火车被认为是低价,飞机认为是高价,则当状态l 为“火车”时,w jl ′=(1,0)若状态l 为“飞机”,则w jl ′=(1,1)。相应的参向量r l 为n j 维,刻画这一条件对选择影响之大小。若条件j 为数量的,则r j 为2维向量。例如,若条件为“单位旅程票价”且以具体金额显示,而状态l 为“火车”,则w jl =(1,火车单位旅程票价)。

由于这一组条件都与具体人无关,w jl 与i 无关。

30涉及与个人有关但对各状态选择不因人而异的因素。考虑了l 个,解释与20同,值式此处

的v jl 因人而异,故与i 有关,因此写为v jli 。

例如,其中的条件j 是“旅行者所在地单位旅程票价”且以具体金额显示,而状态r 为“火车”,则

v jri ′

=(1,样本中第i 人所在地火车单位旅程票价)

所以,在对这种选择问题定模型时:1.明确所考虑的全部选择物(状态)

例如,在一个关于交通问题的调研中,全部状态可选为汽车、轮船、火车、飞机。若再细一些,每种交通工具可分等级,每一等级视为一状态,如火车分座席、硬卧和软卧,每种作为一独立状态。

当然,分细了,涉及的状态多,模型中的参数也多,需要的样本量也大,计算工作也大。2.选定对选择有影响的因素(自变量),个数要适中。

3.对每一自变量确定其为数量性的还是属性的———有的原本为数量的,但也可按属性处理,如票价可取具体金额或只分(高,低),或(高,中,低)。对按属性处理的变量决定其分多少状态,个数也要求适中。

4.对每个自变量分清属于3类中哪一类(见前文的讨论)。

5.1—4全部做好后,即可按前文的说明写出(1.72)式中的z(x i)和参向量β。

有一点说明一下,在实际问题中,不时将一个本来是地道的数量变量按属性处理,如上文所说“单位旅程票价”可按具体金额显示,但有时将其属性化,如分高中低。前一做法只涉及一变量,后一做法则涉及2哑变量且还欠精确(分高中低,较之给出具体金额,在信息上有损失)。那么为什么要这样做呢?主要是使全部样本能分成少数几个组(参看例1.6)。理论显示,如样本分成少量的组而每组所含样本数较多,则大样本结果(如渐进正态性)的近似程度较好,因而统计推断的可靠性增加。

[参考文献]

[1] L.Fahrmeir.《Multivariate Statistical Modeling Based on G eneralized Linear Models》〔M〕.New Y ork,

Springer2Verlag,1994.

[2] McCullagh.《G eneralized Linear Models》〔M〕.London/New Y ork,Chapman&Hill,19892nd edition.

[3] L.Fahrmeir.Consistency and asymptotic normality of the maximum likelihood estimator in generalized linear

models〔J〕.Ann.Statist.,1985,342—368.

G eneralized linear models

CHEN Xi2ru

(Graduate School of Chinese Academia of Science,Bei jing100039,china)

Abstract:This set of articles gives an introduction to generalized linear models.They can be divided into three parts: Model building,Statistical inference and Model diagnostics.The presentation is mainly based on L.Fahrmeir et al.《Multivariate Statistical Modeling Based on G eneralized Linear Models》.

K ey w ords:generalized linear models.;model building;statistical inference;model diagnostics

上接第41页

Mathematical model’s building for

evaluation of tenders of project items

TAO Qing1,ZHEN G Wen2tang2

(1.Department of management engineering,Beijing college of constructional engineering,

Beijing 100044,China;2.Noth China Univ.of Tech.Bei jing 100041,China)

Abstract:by using fuzzy method of evaluation and de pth method of analysis the paper seeks for a solution to solve problems in evaluation of bids.Firstly,it aggregates all suggestions of the Engineers and deals with the indictors of technical solution and reputation of the tenders by fuzzy method of evaluation.Secondly,building the piecewise con2 tinuous function against business trade of the bid.Thirdly,the weight of the indictor is got by depth method of analysis.Finally,it turns the indictors into scores and multi plies the weight.the scores of tenders come u p with.To find the highest one,which belongs to the successful bidders.

K ey w ords:indictor of the tender;fuzzy method of evaluation;depth method of analysis;weight

广义线性模型与汽车保险费率厘定

广义线性模型与汽车保险费率厘定 胡三明 西南财经大学保险学院 【摘要】本文回顾了汽车保险费率厘定模型的发展历程,并对广义线性模型从建模、统计分析、模型的选择与诊断等方面进行了比较系统的介绍,最后通过一个汽车保险的实例来介绍其在分类费率厘定过程中具体运用,具有较强的实践意义。 【关键词】广义线性模型分类费率厘定 一、导论 对于传统费率厘定模型,精算师过于依赖简单的单因素分析法和双因素分析法,其中,单因素分析常受到费率因子间相关性的影响而被扭曲,同时也没有考虑到因子间独立性的影响。对此,精算师在六十年代探索出了迭代模型——最小偏差法,使其得到重大的改进,但仍然没有形成完整的统计框架。最小偏差法试图通过迭代的方法来求出一系列方程的最优解,但它无法测试一个特定的变量的影响效果,同时也不能提供可靠的参数估计范围。 广义线性模型(GLM)是传统线性模型以及许多最常见的最小偏差法的延伸,从技术角度看,比标准的迭代模型更有效率,它提供的统计诊断功能,有助于挑选重要的变量并且确认模型的假设条件。如今,广义线性模型在欧盟和许多其他市场,被公认为是对私家车和其他私人业务以及小额的团体业务进行定价的行业标准模型。 广义线性模型的个别特例很早就已出现,早在1919年就曾被Fisher使用过,二十世纪四五十年代,Berkson,Dyke和Patterson等人使用过最著名的Logistic模型,1972年Nelder和Wedderburn在一篇论文中率先使用广义线性模型一词,此后相关研究工作逐渐增加,1983年McCullagh和Nelder出版了系统的论著,并于1989年再版。 二、广义线性模型 (一)、线性模型 一个传统的线性模型具有如下形式: ' i i y xβε =+i 其中 i y是响应变量的第i次观测, i x是协变量,表示第i 次观测数据,未知系数向量β通过对数据i y的最小二乘拟合估计出来。假定εi是均值为零,方差为常数的独立正态随机变量。对于一般的线性 回归模型(LM)' i i y xβε =+i可以分解为三个要素:LM1:随机要素,即Y服从正态分布, () i E y μ=; LM2:系统要素,' i x ηβ =; LM3:连接要素,ημ =; (二)、广义线性模型 尽管传统的线性模型广泛地应用于统计数据分析中,但它却不适合处理如下几类问题: (1) 将数据分布假设为正态分布并不合理; (2) 当数据的均值被限制在一定的范围内时,传 统的线性模型就不适用了,因为线性预测值' i xβ可以取任意值; (3) 假定数据的方差对于所有观测都是一个常数并不现实。 广义线性模型扩展了传统的线性模型,因此它适用于更广范围的数据分析问题。一个广义线性模型包括以下组成部分: GLM1:随机要素,Y服从比正态分布更一般的分布,即指数族分布; GLM2:系统要素同LM2,即保持线性结构;

广义线性模型

广义线性模型 一、广义模型的概念以及指数函数族 1.多元线性回归和正态线性模型 2.指数函数族 3.The Tweedie distribution:特殊的指数指数族一员;在0点有很大的 概率并且在非0点有合适的分布;方差与均值的p次幂成正比4.GLM的结构:连接函数、设计矩阵、预估变量、offset变量 每个观测的方差取决于:1.模型的方差方程;2.幅度变量;3.每个变量的权重 二、构建GLM模型 1.单因子分析:无法反映变量之间的关系,GLM可以排除这类关系, 得到相对数的真实值 2.变量、分类因子、交互项目以及线性预测值: (1)权重/暴露 (2)反应:模型视图预测的值一般地,模型的名称与反应/权重的含义相同 (3)categorical factors and naturally ordered value (4)interaction terms:当某种不同变量的特定组合与分别直接乘以不同变量相对数的经验差异很大时要用到 3. 变量估计:通过逆矩阵相关方法求解 三、分析因子的显著性 1. chi-squared、F-statistics、AIC 等统计量

(1)偏离:比较观测值与设定值之间的差距,考虑到权重的影响,并且当方差小时给予误差更大的影响。 (2)偏离度调整 (3)chi-squared 统计量:模型的自由度定义为观测的数量减去变量的数量 Nested models:可以利用chi-squared来检验偏离度的变化 (4) F-statistics (5)AIC:主要用于模型选择的统计量 AIC=-2*log likelihood+2*number of parameters 是在likelihood 与变量数量之间的权衡,AIC数值越小越好 2.模型变量的不确定性 Hat matrix Likelihood的二阶导数与变量的方差反比例相关 Steep curvature表明变量tightly defined, Shallow curvature 表明变量poorly defined 3.其他方法 (1)与预期值相比:每种水平下相对值的变动幅度,同时考虑每个水平下得标准偏差,其值的 (2)Comparison with time:model fit line;variation的大小应该与exposure的大小相反 不同渠道数据收集上的差异可能导致不一致的发生四、测试模型的适当性

广义线性模型

广义线性模型
1.概述
广义线性模型是传统的线性模型的延伸, 它是总体均值通过一个非线性连接 函数依赖于线性预测值, 有许多广泛应用的统计模型都属于广义线性模型,其中 包括正态误差的经典性模型, 二元数据的对数和概率单位模型以及多项数据的对 数线性模型, 还有其它许多有用的统计模型,如果选择合适的连接函数和响应概 率分布,也可以表示为广义线性模型。
2.线性模型
线性模型也称经典线性模型或一般线性模型,其模型的形式为:
Y ? XT? ??
其中, yi ?Y ? { y1 , y2 ,?, yn } 是因变量的第 i 次观测, xi ? X ? {x1 , x2 ,?, xn } 是自 变量,它是一个列向量,表示第 i 次观测数据。未知系数向量 ? 可以通过对 Y 的 最小二乘拟合估计, ? 是均值为零,方差为常数的随机变量。 模型的几个基本假设: ? ? ? ? ? ? 因变量是连续随机变量 自变量相互独立 每一个数值型自变量与因变量呈线性关系 每一个数值型自变量与随机误差相互独立 观察个体的随机误差之间相互独立 随机误差 {? i } ~ N (0,? ) 。
然而,实践中常不满足此假设

3.广义线性模型
广义线性模型, 是为了克服一般线性模型的缺点出现的,是一般线性模型的 推广。 ? 广义线性模型在两个方面对一般线性模型进行了推广: ? 一般线性模型中要求因变量是连续的且服从正态分布,在广义线性模型 中,因变量的分布可扩展到非连续的资料,如二项分布、Poisson 分布、 负二项分布等。 ? 一般线性模型中,自变量的线性预测值 ? 就是因变量的估计值 ? ,而广 义线性模型中,自变量的线性预测值 ? 是因变量的函数估计值 g ( ? ) 。 ? 广义线性模型包括一下组成部分: ? 线性部分正好是一般线性模型所定义的:
?i ? ?0 ? ?1 x1i ? ?2 x2i ? ? ? ?m xmi
? 连接函数( link function):
?i ? g (?i )
连接函数为一单调可微(连续且充分光滑)的函数。连接函数起了关联“Y 的估计值 ? ”与“自变量的线性预测值 ? ”的作用 。在经典的线性模型中,“Y 的估计值”与“自变量的线性预测”是一回事。 ? 广义线性模型建立 通过对数据选定因变量和自变量, 以及选择合适的连接函数和响应概率分布, 既可以建立一个广义线性模型。例如: ? 一般线性模型 因变量:连续变量 分布:正态分布 连接函数: ? ? ? ? Logistic 回归模型 因变量:(0,1) 分布:二项分布 连接函数: ? ? log(
?
1? ? )
? Poisson 回归模型 因变量:计数和个数 分布:Poisson 分布

广义线性模型

广义线性模型

———————————————————————————————— 作者: ———————————————————————————————— 日期:

广义线性模型
1.概述
广义线性模型是传统的线性模型的延伸,它是总体均值通过一个非线性连接 函数依赖于线性预测值,有许多广泛应用的统计模型都属于广义线性模型,其中包 括正态误差的经典性模型,二元数据的对数和概率单位模型以及多项数据的对数 线性模型,还有其它许多有用的统计模型,如果选择合适的连接函数和响应概率 分布,也可以表示为广义线性模型。
2.线性模型
线性模型也称经典线性模型或一般线性模型,其模型的形式为:
Y XT
其中, yi Y {y1, y2, , yn} 是因变量的第i次观测, xi X {x1, x2, , xn} 是自 变量,它是一个列向量,表示第 i 次观测数据。未知系数向量 可以通过对Y 的最 小二乘拟合估计, 是均值为零,方差为常数的随机变量。
模型的几个基本假设: 因变量是连续随机变量 自变量相互独立 每一个数值型自变量与因变量呈线性关系 每一个数值型自变量与随机误差相互独立 观察个体的随机误差之间相互独立 随机误差{i} ~ N(0, ) 。
然而,实践中常不满足此假设

3.广义线性模型
广义线性模型,是为了克服一般线性模型的缺点出现的,是一般线性模型的 推广。
广义线性模型在两个方面对一般线性模型进行了推广: 一般线性模型中要求因变量是连续的且服从正态分布,在广义线性模型
中,因变量的分布可扩展到非连续的资料,如二项分布、Poisson 分布、 负二项分布等。
一般线性模型中,自变量的线性预测值 就是因变量的估计值 ,而广义
线性模型中,自变量的线性预测值 是因变量的函数估计值 g() 。
广义线性模型包括一下组成部分: 线性部分正好是一般线性模型所定义的:
i 0 1x1i 2 x2i m xmi
连接函数( link function):
i g(i )
连接函数为一单调可微(连续且充分光滑)的函数。连接函数起了关联“Y 的
估计值 ”与“自变量的线性预测值 ”的作用 。在经典的线性模型中,“Y
的估计值”与“自变量的线性预测”是一回事。 广义线性模型建立 通过对数据选定因变量和自变量,以及选择合适的连接函数和响应概率分布,
既可以建立一个广义线性模型。例如: 一般线性模型
因变量:连续变量 分布:正态分布
连接函数:
Logistic回归模型 因变量:(0,1) 分布:二项分布 连接函数: log( )
1 Poisson 回归模型 因变量:计数和个数 分布:Poisson 分布

广义线性模型()

广义线性模型 广义线性模型*(Nelder和Wedderburn,1972)除了正态分布,也允许反应分布,以及模型结构中的一定程度的非线性。GLM具有基本结构 g(μi)=X iβ, 其中μi≡E(Yi),g是光滑单调'链接函数',Xi是模型矩阵的第i行,X和β是未知参数的向量。此外,GLM通常会做出Yi是独立的和Yi服从一些指数族分布的假设。 指数族分布包括许多对实际建模有用的分布,如泊松分布,二项分布,伽马分布和正态分布。GLM的综合参考文献是McCullagh和Nelder(1989),而Dobson(2001)提供了一个全面的介绍。 因为广义线性模型是以“线性预测器”Xβ的形式详细说明的,所以线性模型的许多一般想法和概念通过一些修改而继续存在到广义线性模型中。除了必须选择的链接函数和分布之外,基本模型公式与线性模型公式基本相同。当然,如果恒等函数被选择作为链接以及正态分布,那么普通线性模型将作为特例被恢复。 然而,泛化是以某种成本为代价的:现在的模型拟合必须要迭代完成,而且用于推理的分布结果是近似的,并且由大样本限制结果证明是正确的而不是精确的。但在深入探讨这些问题之前,请考虑几个简单的例子。 μi=cexp(bt i), 例1:在疾病流行的早期阶段,新病例的发生率通常会随着时间以指数方式增加。因此,如果μi是第ti天的新病例的预期数量,则该形式的模型为 请注意,“广义”和“一般”线性模型之间存在区别-后一个术语有时用于指除简单直线以外的所有线性模型。 可能是合适的,其中c和b是未知参数。通过使用对数链路,这样的模型可以变成GLM形式 log(μi)=log(c)+bt i=β0+t iβ1 (根据β0=logc和β1=b的定义)。请注意,模型的右侧现在在参数中是线性的。反应变量是每天新病例的数量,因为这是一个计数,所以泊松分布可能是一个合理的可以尝试的分布。因此,针对这种情况的GLM使用泊松反应分布,对数链路和线性预测器β0+tiβ1。 , 例2:狩猎动物捕获猎物的速度yi往往随着猎物密度xi的增加而增加,但最终会趋于平衡,当捕食者捕获尽可能多的猎物时。对于这种情况一个合适的模型可能是

广义线性模型

xx线性模型 一、xx模型的概念以及指数函数族 1.多元线性回归和正态线性模型 2.指数函数族 3.The Tweedie distribution: 特殊的指数族一员;在0点有很大的概率并且在非0点有合适的分布;方差与均值的p次幂成正比 4.GLM的结构: 连接函数、设计矩阵、预估变量、offset变量每个观测的方差取决于:1.模型的方差方程;2.幅度变量;3.每个变量的权重 二、构建GLM模型 1.单因子分析: 无法反映变量之间的关系,GLM可以排除这类关系,得到相对数的真实值 2.变量、分类因子、交互项目以及线性预测值: (1)权重/暴露 (2)反应: 模型视图预测的值一般地,模型的名称与反应/权重的含义相同 (3)categorical factors and naturally ordered value (4)interaction terms: 当某种不同变量的特定组合与分别直接乘以不同变量相对数的经验差异很大时要用到 3.变量估计:

通过逆矩阵相关方法求解 三、分析因子的显著性 1.chi-squared、F-statistics、AIC 等统计量 (1)偏离: 比较观测值与设定值之间的差距,考虑到权重的影响,并且当方差小时给予误差更大的影响。 (2)偏离度调整 (3)chi-squared 统计量: 模型的自由度定义为观测的数量减去变量的数量 Nested models: 可以利用chi-squared来检验偏离度的变化 (4)F-statistics (5)AIC: 主要用于模型选择的统计量 AIC=-2*log likelihood+2*number of parameters 是在likelihood 与变量数量之间的权衡,AIC数值越小越好 2.模型变量的不确定性 Hat matrix Likelihood的二阶导数与变量的方差反比例相关 Steep curvature表明变量tightly defined, Shallow curvature 表明变量poorly defined

广义多元线性模型

数据分析基础 广义多元线性回归方程的构建

【文献回顾】 这是一篇2014年发表在新英格兰医学杂志(影响因子55.8分)的论文[1],研究妊娠期是否能用抗抑郁药,结果表明妊娠初期使用抗抑郁药不显著增加新生儿心脏畸形。(CONCLUSIONS The results of this large, population-based cohort study suggested no substantial increase in the risk of cardiac malformations attributable to antidepressant use during the first trimester. ) 文章统计学方法部分开篇写到: 统计学方法里写到的独立作用的风险(absolute risk)是什么?是如何通过回归分析(Logistic-regression analysis)得出的?为什么要这样做?是怎么用软件实现的? 上述问题,将在本篇中讲解。

这里指的多元线性模型,是广义线性模型,应变量(Y)的分布类 型可以是:正态分布(gaussian)、两分类分布(binomial)、泊松分布、负二项分布等,不同的分布类型对应不同的联系函数f(Y)。 f(Y)=β0+β1*X1+β2*X2+β3*X3+β4*X4+…… 【概念】 广义线性模型有两大常用用途: 1.危险因素分析:评价某危险因素(X)对结果变量(Y)有没有独立 作用及独立作用的大小的是多少。(最常见) 2.建立预测模型:从一系列 X1、X2、… 中挑选出一个最佳预测模型 预测Y的发生。 需要注意的是用途不同,构建模型的方法完全不同,对模型的解读完全不同。很多人对此不甚理解,常常用一种逐步回归方法构 建危险因素分析的模型,对结果也不知道怎么解读,有很多混淆。 这个教程的目的旨在帮助大家理清这个问题。 【用途】 结果变量(Y)危险因素(X)效应测量统计检验 连续性, 如收缩压分类型, 如是否吸烟 吸烟者与不吸烟者收缩压的差(β) 及其标准误 H0:β=0 连续性, 如收缩压连续性, 如体重指数 BMI每增加一个单位SBP增加多少 (β)及其标准误 H0:β=0 分类型, 如是否高血压分类型, 如是否吸烟 吸烟者与不吸烟者高血压发生率比 (OR)及其95% 可信区间 H0:OR=1 分类型, 如是否高血压连续性, 如体重指数 BMI每增加一个单位高血压发生率比 (OR)及其95% 可信区间 H0:OR=1 流行病学分析是为了确定危险因素与结果变量之间是否有联系,危险因素对结果变量的作用大小(即效应)。 表1 效应的估计和结果变量与危险因素的类型

相关文档