文档库 最新最全的文档下载
当前位置:文档库 › Cox模型及其相关问题的延伸

Cox模型及其相关问题的延伸

Cox模型及其相关问题的延伸
Cox模型及其相关问题的延伸

第9卷第5期

2010年10月

江南大学学报(自然科学版)

Journal of J iangnan U niversity(Na t ura l Science Edition)

V o.l 9 N o .5O ct . 2010

收稿日期:2010-05-24; 修订日期:2010-07-09。基金项目:国家自然科学基金项目(10871084)。

作者简介:杨冰(1986 ),女,河北邯郸人,应用数学专业硕士研究生。

*通信作者:赵晓兵(1968 ),男,四川平昌人,副教授,硕士生导师,哲学博士。主要从事生存分析研究。

Em a i:l m axbzhao @jiangnan .edu .cn

Cox 模型及其相关问题的延伸

杨冰1

, 赵晓兵

*1,2

(1 江南大学理学院,江苏无锡214122;2 浙江财经学院数学与统计学院,杭州310018)摘 要:Cox 模型是生存分析中很重要的半参数模型,它在模型解释和估计方法上都有很多优良的性质。综述了Cox 模型的研究现状以及最新的研究成果。

关键词:C ox 模型;治愈模型;缺失数据;度量误差中图分类号:O 212

文献标识码:A

文章编号:1671-7147(2010)05-0619-06

R eview s of Cox M odel and Its Ex tensions

YANG B ing 1

,Z HAO X iao b i n g

1,2

(1 S choo l of Sc ien ce ,J i angnan U n ivers ity ,W ux i 214122,Ch ina ;2 Schoo l of M a the m a tics and Statistics ,Zhe ji ang

U n ivers ity o f F i nance and E conom ics ,H angh zou 310018,Ch ina)

A bstrac t :Cox m odel is an i m portant se m ipara m etr ic m odel in surv iva l ana lysis fo r its flex ib le esti m a tion procedure and m ode l exp lanation .In th is paper ,w e rev iew Cox m odel by introduc ing so m e ne w pub lications .

K ey w ords :Cox m ode;l cure m ode;l m issi n g data ;e rro r m easure m en t

1 预备知识

所谓生存分析,就是推断非负随机变量T (例如T 是 人的寿命!)的分布规律,即研究

S (t)=P r (T >t)

的分布规律。此处的 人的寿命!是一个广义的概念,可以是 某种疾病复发的间隔时间!,可以是 某种机器的寿命!,或者任何感兴趣的对象的事件时间(event ti m e)。生存分析数据有自己的特点,例如数据有被删失的可能,以及跟踪(fo llo w up)时间可以不相同等等。所以生存分析的目的就是在假设T ~S (t)的情况下,如何根据含有删失的观测值去推断S (t)。生存分析一般可以通过3种方式建模。

1)非参数模型:假设T ~F (t),但由于有删失

的观测出现,一般的经验分布函数再无法用于估计F (t)的分布,它的替代版本是K aplan M eier(KM )估计,KM 估计相当于含有删失情形的数据的 经验分布!函数。事实上,当没有删失数据的时候,KM 估计就退化为通常的经验分布函数。

2)完全参数化模型:即假设T ~F (t , ),例如指数分布,W e i b ull 分布等等。此时通常的最大似然估计方法就可以了。当然,这里的参数 可以进一步参数化为带有协变量z 的情形,例如 =exp (z T

)。

3)半参数模型:最著名的半参数就是比例危险率模型(proportiona l hazards m ode l),或者叫Cox 模型(因为 i (t)/ j (t)=exp [(z T

i -z T

j ) ],与 0(t)无关了,所以称为 成比例!)。即生存时间变量T 的

死亡力度函数定义为

(t)=0(t)exp(z T ),

这里0(t)称为baseli n e,可以是完全未知的函数, z是协变量(covariates)。当然此模型可以做如下的多种延伸[1 2]。如:

?可加危险率模型(Additi v e haza rdsm ode l)

(t)=0(t)+z T ,

L in和Y i n g提出了此模型的一个很优美的估计方法[3];

#加乘危险率模型(M u lti p le add itive hazards m ode l)

(t)=0(t)exp(z T )+x T!;

?非参数回归模型

(t)=?(z T ),

?(%)是一个未知函数;

&其他种种延伸,例如z变为与时间有关的情形z(t)[4],系数 变为 (t)(变系数模型(vary ing coeffic ien ts m ode l))[5]。

一般来讲,回归分析不被推荐用于生存分析数据,因为响应变量t i有被删失的情形发生,即如假设

t i=x T i +#i,

这里t i是生命数据,x i是设计变量(cov ariates 协变量)。此处的t i是被删失的观测值。C lass K方法[6]是解决删失回归的方法之一。C lass K的主要思想是将观测值t i(见下文)做调整,无论是精确观测到的,还是删失的数据,方法如下:

t*i=?i?1(t i)+(1-?i)?2(t i),

即用t*i替代t i,使得E(t*i)=E(t i)(本方法类似于Pane l data m ode l中的Tob itm ode l方法)。可以选择不同的?i使得方差V ar(t*i)达到最小(这是一个选择的原则)。

如果考虑某一家族人群的寿命分布,显然再假设每一个人的寿命相互独立是有点问题的,这样就会得到一组相依的观测数据。而一般的KM估计, Cox模型的partial li k e lihood方法都是基于独立的删失机制!假设。上述带有相依关系的生命数据可以用frailty m ode l来拟合。显然,frailty m odel只是处理相依(dependen t)观测数据的方法之一,其他例如copu la函数也可以处理这样的相依数据。

2 生存分析模型

假设S表示真实!的寿命,在观测区间[0,%]内,观测n个对象的生命时间,得到一组观测值t1, t2

,?,t n。考虑到(右)删失的情形,有

t i=

s i,if s i(c i

c i,if s i>c i

假设?i=I(s i(c i)是删失指标(censo ring i n dex), c i是删失变量(censor i n g v ariate)。

如果假设s i与c i是相互独立的(但是诸c i之间要求独立,不要求同分布),就可以得到下列估计方法。得到一组样本{(t i,?i):i=1,2,?,n},下面就要通过观测到的这组数据去推断真实的寿命分布,即随机变量s i的概率分布(这里先假设诸s i同分布)。注意:

1)需要区别左截断(left tr uncati o n),例如在保险精算中,有一种情形,只有被报告的索赔才知道此索赔的发生时间,否则没任何信息。假设延误时间为w,发生时间为t,则只有在t+w(b的情况下才能看到(t,w),否则,这2个变量同时看不见(b 为观测终点),这时可说,变量t被变量b-w右截断(或者说b-w被变量t左截断)。关于截断数据的生存分析,可见参考文献[7]。

2)跟踪时间可以不同,即不同对象可以有不同的观测终点。一般假设观测终点%也是另外一个类似于删失变量c i的删失变量;显然假设%与c i,s i独立是合理的。关于跟踪是否足够的假设检验可以参看M aller和Zhou的工作[8]。

2.1 非参数模型

如果不假设任何分布类型,在得到数据{(t i,?i):i=1,?,n i}后可以通过KM估计方法来估计真实分布[9]。

1)首步:在上述数据中找到所有真实的死亡时间点!,再排序,得到t(1)

2)计算风险集(risk se t):令n j为直到时刻t(j)为止(包括t(j))仍然存活的对象的个数;

3)计算分布:

S^(t)=)k j=1(n j-d j n j),t(k)

再约定

S^(t)=1,tt(r);

显然S^(t)是一个阶梯函数,跳跃点只发生于所有真实死亡点!处。

可以证明S^(t)就是非参数最大似然估计,在无删失时候,KM估计退化到经验分布函数。可以证明E[F^(t)]并不等于F(t),而是小于F(t),所以KM 估计是有偏的估计(渐进无偏的),即它总是低估真实分布;KM估计的方差可以由格林维尔公式给出。

620 江南大学学报(自然科学版) 第9卷

4)模型延伸(Cure m ode l):假设真实寿命T*可以为+?,则从中任意抽取一个样本,它的寿命为

T=+?I(T*=+?)+T*I(T*<+?),

那么T的分布函数为

F(t)=pF0(t)

这里F0(t)为那些寿命小于无穷的人群的寿命分布,p为寿命小于无穷的对象在人群中所占比例(这就是所谓的Cu re m ode l)。M a ller和Zhou深入研究了此模型[8],提出了p的基于KM估计的一个新估计,并研究了此估计的性质(包括有关检验)。Cure m ode l的另外一个形式(称为BCH模型),定义为

S(t)=exp(- F0(t)),

参见文献[10]。

2.2 半参数模型

仅考虑连续随机变量的情形。

危险率函数(也称为死亡力度)定义为

h(t)=li m

&t+0+

P r(T(t+&t|T>t)/&t,

而累计危险率则为

H(t)=,t0h(u)d u。

容易证明

h(t)=d F(t)/[1-F(t)]=-?

?t log S(t),

从而

S(t)=exp(-H(t))。

下面得到一般情形下的似然函数。

当t i=s i的时候,提供的信息是:一方面观测到真实的寿命s i;另外一方面告知,删失时间c i是大于t i的,所有似然是f(t i)*[1-G(t i)];

同理在t i=c i的时候,得到似然为g(t i)[1-F(t i)];

于是有

L=)n i=1{f(t i)*[1-G(t i)]}?i?

{g(t i)[1-F(t i)]}1-?i。

抛开与待估参数无关的因素,则有

L=)n i=1{f(t i)}?i[1-F(t i)]1-?i=

)n i=1

f(t i)

1-F(t i)

?i

[1-F(t i)]= )n

i=1

[h(t i)]?i[1-F(t i)]

而对C ox模型而言,有下列估计程序。满足

h i(t)=h0(t)exp(z T i )的模型称为C ox模型,也叫proportiona l hazards m ode,l简称PH模型。它的等价形式是

S i(t)=[1-F0(t)]exp(z T i )。

一般可以对此模型做如下处理:

1)可以全参数化h0(t)后,用通常的MLE估计参数;

2)更常用的方法是让h0(t)完全未知,用部分似然(partial likeli h ood)去估计。

L( )=)n i=1exp(z

T

i )

.j/R(t

i)

exp(z T j )

,

此处

R(t i)=.n j=1I(t j0t i)

为t i处的风险集。

累积危险率函数的估计为

H^0(t)=.T i(t?i

.j/R(t

i)

exp(z T j )

,

称为B reslo w N e lson估计。

有大量文献从各种途径去证明上述估计的大样本性质,尤其是Ande rsen等[11]基于计数过程(counting processes)和鞅(m arti n ga le)中心极限定理,证明了pa rtia l li k e lihood估计的大样本性质。

关于Cox模型,有很多延伸模型,例如Fan等将C ox模型延伸到下列形式

(t)=0(t)((z T ),

然后将((x)展开成局部多项式,给出了一个loca l partia l like lihood!估计[12]。含有纵向数据(包括度量误差)的Cox模型,文献中也有很多讨论,主要是将协变量z i重新化为z ij。Zhao在其博士论文[13]中将此模型延伸为

h i(t)=h0(t)exp(z T i ),

h0(t)=pf0(t)/[1-pF0(t)],

这样就使得模型既有PH模型的特点,又可以含有cure ra te,而其他Cu re m odel如果含有协变量的时候,无法得到P H模型的结构。

2.3 参数模型

最简单的情形,例如假设T~F(t, ),M a ller 和Zhou研究了此类参数模型[8],将协变量添加到模型参数。

2.4 变换模型

注意到C ox模型等价形式为

S(t)=[1-F0(t)]exp(z T ),

于是有

log{-log S(t)}=z T +log{-log(1-F0(t))},

又因为T~F(t),于是F(T)~U[0,1],得到

621

第5期杨冰等:Cox模型及其相关问题的延伸

h(T)=-z T +),

这里

h(t)=log{-log(1-F0(t))}

是一个未知的函数(因为F0(t)是相应于h0(t)的base line未知的函数),

)=log{-log S(T)}

是极值分布。这就是所谓的变换模型!(Transfor mati o n m odel),此模型已经得到广泛的研究。由于h(t)是未知函数,为参数估计带来较大麻烦。常见的估计方法有,M urphy等人[14]提出的pro file likeli h ood; Cheng等[15]提出的基于分支过程的估计;Se ive估计[16],等等。

上述变换模型可以做很多延伸,最常见的就是对)做延伸,例如当它为正态分布!的时候,称为probit模型;当它逻辑回归分布!的时候是odds模型,等等。

上述模型也可以和Cure m ode l结合起来,一般有两种延伸方式:

一是Kuk和Chen[17]将模型

S(t)=[S0(t)]exp(z T )

改写成如下形式,在

S(t)=1-p+pS0(t)

基础上引入协变量,为

S(t)=1-p+p[S0(t)]exp(z T )

(但是上述模型不再具有P H结构了),再把变换模型!的想法引入到[S0(t)]exp(z T )!。

二是Lu研究了另外一种变换模型[18],直接对BC H模型变形。BCH定义为

S(t)=exp(- F0(t)),

这里F

(t)是某个正确!的分布函数,即

F

(+?)=1。

2.5 加速失效时间模型

Cox模型可以看成是下列模型的特例:

(t)=L(0(t),exp(z T )),

L(.,.)是一个二元函数;于是K a lbfle isch和Prentice[9]提出一个新模型

(t)=

[t exp(z T )]exp(z T ),

称为AFT模型;

AFT模型的另外一种来源:假设

T~F(t)=1-exp(t?),

则有下式

log{-log S(T)}=-z T!+?log(T),

这里,

log{-log S(T)}=)

为极值分布,将再参数化为

=exp(z T!),

从而允许有协变量;于是得到模型

log(T)=z T ++),

这里

=!/?,+=1/?。

如果

T~S(t)=1-,(

log(t)-x T

+),

那么有

,-1(1-S(t))=log(t)-x T

+,

注意到

)=,-1(1-S(T))~N(0,1),

于是得到

log(T)=x T ++),)~N(0,1)。

如果允许误差项)做其他延伸(类似于transfo r m ation m ode l中的延伸),就得到一般的AFT 模型。

3 删失机制的变化

上面讨论了随机右删失的情形。实际上,还有其他常见的删失机制[19]。如:区间删失。

1)现状数据(C urren t status data),也称为

C ase I interva l censor ing:在[0,%]中,预先设计一些观测(检查)时间点U i,那么,一些对象的寿命在检查时间点U i处是可以精确观测!的,而另外一些对象的寿命可能无法精确观测。但是知道它们是否在检查时间U i之前或者之后发生死亡。于是得到

t i=

S i,?i=0,&i=1

U i,?i=1,&i=0

U i,?i=2,&i=0

2)通常的区间删失概念(case II interva l censo ring):预先设计一些观测点(离散时间点),例如U1

4 生存数据含相依观测

如果生存数据T1,T2,?,T n不独立,前述的KM 估计等就无法直接用来估计模型参数。相依的寿命数据很常见,例如,研究双胞胎的寿命分布;复发时间数据(recurren t event data)等等。

1)建模方法(frailty m ode l):假设第j人处于第i个类别,不同类别之间是独立的,而同一类别内的观测是相依的。得到数据{(t ij,?ij):j=1,?,n;i= 1,?,n i}(也可以固定i,只讨论不同的人在同一类i

622 江南大学学报(自然科学版) 第9卷

的数据)。C ox模型如下:

h ij(t ij)=h0(t ij)exp(z T ij +z T ij b i),

b

i

~N(0,A)。

如果h0(t)和随机效应b i都参数化,可以用完全似然的方法估计参数。但是更吸引人的是h0(t)和随机效应b i之一或者两者完全未知。但h0(t)完全未知时,是一个引人关注的问题。还有一个最重要的问题,完全似然方法摈弃了Cox模型的重要特征,因而可用pa rtia l like lihood去估计,但此时对随机效应b i的处理是一个问题。

2)还可以建模

h ij(t ij)=b i h0(t ij)exp(z T ij );

b i可以参数化。例如取为伽马分布就得到了C lay ton copula模型[20]。这也是目前文献中报道得较多的问题。当然还有其他处理相依数据的方式,例如copu la 函数方法(已有文献报道以b i v a riate copu la来研究双胞胎的寿命分布)[21]。

5 生存数据含度量误差!

考虑下列模型

h ij(t)=h0(t)exp(x*ij +z T ij b i),

b i~N(0,A),

真实的协变量x*ij无法精确观测,即只能看到x ij(这里没有假设重复测量),是一个带有误差的协变量;假设真实的协变量和观测到的协变量有如下关系:

x ij=x*ij+)ij,

希望在得到有偏差!的协变量观测数据x ij之下,去估计模型参数。对这类问题,有两种处理方法。

方法一(R ando m e ffec tm odel):假设

x i=U i!+V i a i+)i=x*i+)i,

!i为固定效应,a i为随机效应;可以假设)i和!i的分布,利用完全似然的方法去估计模型参数。

方法二:改正的score函数方法[22],也是较为常见的方法。即用近似的score函数去替代真实的score函数,使得

E[l(x*ij)]=E[l(x ij)],

这里的l(%)是sco re函数。

6 生存数据含缺失数据!

考虑下列模型

h ij(t ij)=h0(t ij)exp(x T ij +z T ij b i),

b i~N(0,A),

方法(暂时不考虑随机效应和纵向观测):

如果协变量x ij有部分缺失,用EM估计可以得到所需。

第一步:假设已知协变量x ij的概率分布f(x i| !),在假设完全已知数据的情况下构造完全数据似然!,即

L( ,!)1h(t i|X m is,X obs, )?i S(t i|X m is,X obs, )f(X m is,X obs|!);

第二步(E step):对L( ,!)关于f(X m is,X obs, t i, k)求平均,即

Q( |t i,X obs, k)=E[h(t i|X m is,X ob s, )?i S(t i| X m is,X obs, )f(X m is,X ob s|!)],

这里

f(x m is|X obs,t i, k)1h(t i|X m is,X ob s, k)?i S(t i| X m is,X obs, k)f(X m is,X obs|!k);

第三步(M step):求Q( ,!|t i,X obs, k)最大值,得到( (k+1),!(k+1))。

但是,第二步的期望较为复杂,可以用MCMC 方法得到(例如G ibbs算法):即假如要计算均值E[g(X m is)],可以用函数g(%)的子样均值去替代母体均值。因此只要从f(X m is|X ob s,t i, k)中抽取一些样本就可以了。注意到上述分布函数同样很复杂,抽取样本的问题仍需解决。如果X m is是一维的变量,抽样很容易,但如果是多维(例如2维),抽样就较为复杂,可以用G ibbs方法进行抽样。

假设

f(X m is|X obs,t i, k)=f(X1,mis,X2,m is|X obs,t i, k),可以到x1,m is和x2,m is的满条件分布中抽样:从f(X1,m is|X2,m is,X ob s,t i, k)抽取X11,m is,再从f(X2,m is| X12,m is,X ob s,t i, k)抽取X12,m is,如此迭代抽取子样。

当然还有其他方法,这里就不再具体阐述。

生存分析的内容较广泛,可参看相关的文献[23]。

致谢:在本文写作过程中,参考了文献[24],并与该书作者、加拿大哥伦比亚大学(UBC)的吴浪教授讨论了相关问题,在此一并致谢。

参考文献(R eferences):

[1]T herneau T M,G ra m bsch P M.M ode li ng surviva l data:Extend i ng the Cox m odel[M].N ew Y ork:Spr i nge r,2001.

[2]M arti nussen T,Sche i ke T H.D yna m ic reg ressi on m odels for surv ival data[M].N ew Y ork:Spr i nge r,2005.

[3]L I N D Y,Y I NG Z L.Sem i pa rame tr i c ana lysis of the add iti ve risk m ode l[J].B i o m e trika,1994,81:61 71.623

第5期杨冰等:Cox模型及其相关问题的延伸

624 江南大学学报(自然科学版) 第9卷

[4]F i sher L D,L i n D Y.T i m e dependent cova riates i n the cox proportiona l hazards regress i on model[J].A nnu R ev Pubic H ealth,

1999,20:145 157.

[5]CA I Z W,S UN Y Q.Loca l li near esti m a tion for ti m e dependent coe ffi c ients i n cox's regress i on m ode ls[J].Boa rd of the

Founda ti on o f t he Scand i nav ian Journa l of Statisti c,2003,30:93 111.

[6]T ze L L,ZHENG Z K.Surv i va l ana l ysis[J].Zheji ang Pub li sh i ng H ouse of Science and T echno l ogy,1993,81:61 71.

[7]K le i n J P,M oeschberger M L.T echn i ques for censored and truncated data[M].N ew Y o rk:Spr i nger,2003.

[8]M all er R,ZHOU X.Surv i va l ana l ysis w it h l ong te r m surv i vo rs[M].Ch i chester:John W iley and Sons,1996.

[9]K a l b fle i sch J D,Prenti ce R L.T he statisti ca l analysis of fail ure ti m e data[M].Second ed iti on.N e w Y o rk:W iley Ser i es i n

P robab ilit y and Sta tisti cs,2002.

[10]T sod i kov A.A proporti onal hazards m ode l taking account o f l ong ter m surv i vors[J].B io m etrics,1998,54:1508 1516.

[11]A ndersen P K,Bo rgan B,G ill R D,e t a.l Statistical m ode ls based on counti ng processes[M].N e w Yo rk:Spr i nge r V er l ag

P ress,1993.

[12]FAN J Q,G ijbe ls I,K I NG M.L ocal li ke li hood and l oca l partial li keli hood i n hazard reg ressi on[J].T he A nnals of Sta ti stics,

1997,25:1661 1690.

[13]Z HAO X iao b i ng.P ropo rti ona l ha zards m ode ls f o rs u rv i va l da ta w ith l ong ter m surv i vo rs[D].H ong K ong:The H ong K ong

Po lytechnica lU niversity,2006.

[14]M urphy S A,Rossi n iA J,V an de r V aart A W.M ax i m u m like li hood esti m a tion i n the proportiona l odds m ode l[J].Journa l of

the Am erican Statistica lA ssoc i ation,1997,92:968 976.

[15]C HENG S C,W E I L J,Y I NG Z.A nalysis transf o r m ati on m odels w it h censored da ta[J].B i ome trika,1995,82:835 845.

[16]S HEN X T.Proportiona l odds reg ressi on and sieve m ax i m u m like li hood esti m a tion[J].B io m etri ka,1998,85:165 177.

[17]K uk A Y C,C HEN C H.A m i x ture m ode l co m bini ng log i sti c reg ressi on w ith propo rti onal hazards regression[J].B i om etr i ka,

1992,79:531 541.

[18]LU W B,Y I NG Z L.O n sem i pa rame tric transf o r m ati on cure models[J].B io m etri ka,2004,91(2):331 343.

[19]S UN J G.The statisti ca l analysis o f i nterval censored fa ilure ti m e data[M].N e w Y ork:Spri nger,2006.

[20]G li dden D V.A t w o step esti m a tion o f t he dependnet para m ete r f o r t he C lay ton oakes m ode l[J].L ifeti m e Da ta A nalysis,2000,

6:141 156.

[21]ZE NG D L,L IN D Y,L I N X H.Se m i para m etr i c transfor m a tion m ode l w ith random e ffects f o r c l uste red fa ilure ti m e data[J].

Sta ti stica S i nica,2008,18:355 377.

[22]N aka m ura T.Co rrected sco re f unc tion fo r error i n variab l es m ode l s:m e t hodo l ogy and appli cati on to genera lized linear m odels

[J].B i o m e trika,1990,77:127 137.

[23]Ba l akrishnan N,R ao C R.H andbook o f S tatistics,V o l um e23Advance in Surv ival A nalysis[M].Ch icheste r:John W il ey and

Sons,2003.

[24]W U L.M i xed effects models for co m plex data[M].Chichester:Chap m an&H a l,l2009.

(责任编辑:秦和平)

生存分析的概念

一、生存分析的概念: 将事件的结果和出现此结果所经历的时间结合起来分析的统计分析方法。 研究生存现象和响应时间数据及其统计规律的一门学科。 对一个或多个非负随机变量(生存时间)进行统计分析研究。 对生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度的统计分析方法。 在综合考虑相关因素(内因和外因)的基础上,对涉及生物学、医学(临床、流行病)、工程(可靠性)、保险精算学、公共卫生学、社会学和人口学(老龄问题、犯罪、婚姻)、经济学(市场学)等领域中,与事件(死亡,疾病发生、发展和缓解,失效,状态持续)发生的时间(也叫寿命、存活时间或失效时间,统称生存时间)有关的问题提供相关的统计规律的分析与推断方法的学科。 二、“生存时间”(Survival Time)的概念 生存时间也叫寿命、存活时间、失效时间等等。 医学:疾病发生时间、治疗后疾病复发时间 可靠性工程系:元件或系统失效时间 犯罪学:重罪犯人的假释时间 社会学:首次婚姻持续时间 人口学:母乳喂养新生儿断奶时间 经济学:经济危机爆发时间、发行债券的违约时间 保险精算学:保险人的索赔时间、保险公司某一索赔中所付保费 汽车工业:汽车车轮转数 市场学中:报纸和杂志的篇幅和订阅费 三、生存分析的应用领域:社会学,保险学,医学,生物学,人口学,医学,经济学,可靠性工程学等 六、生存分析研究的目的 1、描述生存过程:估计不同时间的总体生存率,计算中位生存期,绘制生存函数曲线。统计方法包括Kaplan-Meier(K-M)法、寿命表法。 2、比较:比较不同处理组的生存率,如比较不同疗法治疗脑瘤的生存率,以了解哪种治疗

cox回归结果解析

筛选变量的方法:第一步,结合临床,临床认为有关的变量均筛选出来。第二步.应用双变量的相关分析,把显著相关的变量筛选出来,保留临床意义更大的那个。第三步,应用Kaplan-Meier法对每个危险因素的两个暴露水平做生存曲线,若曲线存在交叉,则不能应用Cox生存分析(Cox生存分析也称比例风险回归,它包含一个假定,即在随访期间暴露于预后因素与非暴露的风险比例维持恒定),这类变量需应用更复杂的非比例风险回归模型,这里将不详述了。第四步,单因素分析。可应用COX生存分析的第0步结果作为单因素分析的结果。可在SPSS的Cox回归里选择任何一种前进法,在Option中选择at each step,取因子筛选第0步的Score检验结果作为单因子Cox回归分析的结果。也有文章的单因素分析对于离散型变量应用卡方检验和连续型变量应用t检验,等级资料应用双变量相关分析。 最后,将进行Cox回归分析。应用SPSS中analysis-survival-cox regression.在time一栏中选择生存时间;在state一栏中选择数据状态(在数据编码中已经介绍),在激活的define event一栏中设定single value为1。这里要强调几个小问题:1,SPSS可以支持研究者做两个或以上的变量的共同效应,需在主对话框中同时选中需研究的变量两个或两个以上,这样协变量框中的>a*b>才会被激活。2,分类变量,在这里被称为哑变量,需单击categorical,然后将分类变量选入对话框。 最后得到的结果,B为协变量的系数,Exp(B)为相对危险度。可得到比例风险模型:h(t,x)=h0(t)exp(Σβ ixi)公式1-1 预后指数也称预后得分,PI(prognostic index)= (Σβ ixi) PI=0代表危险率处于平均水平,PI<0,代表危险率低于平均水平;PI>0,代表危险率高于平均水平。由公式1-1可以求得全部病人的预后指数。将所有的预后指数做等级变换,例如分组的界点PI=-1,0,1,以PI为分类变量做COX回归,并估计生存率,便获得预后指数分类生存率,若样本量很大,或代表性比较好,可用内插法分别估计不同预后指数水平的人群的k年生存率,以及中数生存期,编制成参照表,便可用于临床,根据每个病人的PI值,预测其存活k年的概率,以及期望的生存年数。最后一段摘自方积乾主编的第二版《医学统计学与电脑试验》。如果我们能够象国外一样做大规模多中心前瞻的研究,我一定要做到最后一步。 其实这个问题关键还是在你自己,就是你为何要定义分类变量?如果变量是连续变量或者是具有等级关系的,那么一般是不定义为分类变量的,比如年龄,身高,体重等等。如果变量的数值之间没有等级关系,比如组别,我们用1表示A组,2表示B性,3表现C组,这个在分析的时候是需要定义为分类变量的,因为这个数值的大小是没有意义的。所以关键怎么选择,还是需要看楼主这几个变量所代表的具体意义。 COX回归时如果需要分析的自变量中为有序多分类,为保证结果的准确性,应将其指定为亚变量进行分析(严格的讲,两分类变量也应进行指定,但不指定时的分析结果是等价的),所以您定义为categorical后的计算结果是可信的 the final multivariate Cox regression model, xx was identified as an independent prognostic factor with an adjusted hazard ratio of 1.60 (95% confidence interval 1.07–2.41)‖,而有的文章则是这样描述―Cox regression indicated that ING4 expression is an independent prognostic factor for overall 5-year survival (Relative risk = 2.50, 95% confidence interval = 1.09–5.74, P = 0.031)‖请问这两种描述有什么区别?hazard ratio与relative risk又有什么不同?谢谢大家!

生存分析的cox回归模型案例

一、生存分析基本概念 1、事件(Event) 指研究中规定的生存研究的终点,在研究开始之前就已经制定好。根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。 2、生存时间(Survival time) 指从某一起点到事件发生所经过的时间。生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。 3、删失(Sensoring) 指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。 4、生存函数(Survival distribution function) 又叫累积生存率,表达式为S(t)=P(T>t),其中T为生存时间,该函数的意义是生存时间大于时间点t的概率。t=0时S(t)=1,随着t的增加S(t)递减(严格的说是不增),1-S(t)为累积分布函数,表示生存时间T不超过t的概率。 二、生存分析的方法 1、生存分析的主要目的是估计生存函数,常用的方法有Kaplan-Meier法和寿命表法。对于分组数据,在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。 2、如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型(也叫比例风险模型),利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。这里的前体是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。 下面用一个例子来说明SPSS中Cox回归模型的操作方法。 例题 要研究胰腺癌术中放疗对患者生存时间的影响,收集了下面所示的数据:

Cox回归分析—非常详细的SPSS操作介绍

患者生存状态的影响因素分析 ——生存资料的COX回归分析1、问题与数据 某研究者拟观察某新药的抗肿瘤效果,将70名肺癌患者随机分为两组,分别采用该新药和常规药物进行治疗,观察两组肺癌患者的生存情况,共随访2年。研究以死亡为结局,两种治疗方式为主要研究因素,同时考虑调整年龄和性别的影响,比较两种疗法对肺癌患者生存的影响是否有差异。变量的赋值和部分原始数据见表1和表2。 表1. 某恶性肿瘤的影响因素与赋值 表2. 两组患者的生存情况 group gender age time survival 0 1 0 22 1 0 1 1 10 1 0 1 1 64 1 0 1 1 12 1 0 1 0 17 1 1 0 0 19 1 1 1 1 4 1 1 0 1 1 2 0 1 0 0 5 0 1 1 1 27 0 2、对数据结构的分析 该研究以死亡为结局,治疗方式为主要研究因素,每个研究对象都有生存时

间(随访开始到死亡、失访或随访结束的时间),同时考虑调整年龄和性别的影响。欲了解两种疗法对肺癌患者生存的影响是否有差异,可以用Cox比例风险模型(Cox proportional-hazards model,也称为Cox回归)进行分析。 实际上,Cox回归的结局不一定是死亡,也可以是发病、妊娠、再入院等。其共同特点是,不仅考察结局是否发生,还考察结局发生的时间。 在进行Cox回归分析前,如果样本不多而变量较多,建议先通过单变量分析(KM法绘制生存曲线、Logrank检验等)考察所有自变量与因变量之间的关系,筛掉一些可能无意义的变量,再进行多因素分析,这样可以保证结果更加可靠。即使样本足够大,也不建议把所有的变量放入方程直接分析,一定要先弄清楚各个变量之间的相互关系,确定自变量进入方程的形式,这样才能有效的进行分析。 单因素分析后,应当考虑应该将哪些自变量纳入Cox回归模型。一般情况下,建议纳入的变量有:1)单因素分析差异有统计学意义的变量(此时,最好将P值放宽一些,比如0.1或0.15等,避免漏掉一些重要因素);2)单因素分析时,没有发现差异有统计学意义,但是临床上认为与因变量关系密切的自变量。 3、SPSS分析方法 (1)数据录入SPSS

生存分析的cox回归模型案例——spss

生存分析的cox回归模型案例——spss

————————————————————————————————作者: ————————————————————————————————日期: ?

一、生存分析基本概念 1、事件(Event) 指研究中规定的生存研究的终点,在研究开始之前就已经制定好。根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。 2、生存时间(Survivaltime) 指从某一起点到事件发生所经过的时间。生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。 3、删失(Sensoring) 指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。 4、生存函数(Survival distributionfunction) 又叫累积生存率,表达式为S(t)=P(T>t),其中T为生存时间,该函数的意义是生存时间大于时间点t的概率。t=0时S(t)=1,随着t的增加S(t)递减(严格的说是不增),1-S(t)为累积分布函数,表示生存时间T不超过t的概率。? 二、生存分析的方法 1、生存分析的主要目的是估计生存函数,常用的方法有Kaplan-Meier法和寿命表法。对于分组数据,在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。 2、如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型(也叫比例风险模型),利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。这里的前体是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。 下面用一个例子来说明SPSS中Cox回归模型的操作方法。 例题 要研究胰腺癌术中放疗对患者生存时间的影响,收集了下面所示的数据:

cox回归模型

王江源 SPSS学习笔记之——生存分析的Cox回归模型 (比例风险模型) 王江源 https://www.wendangku.net/doc/6c13506937.html,/u/1153366774 2012-09-22 19:05:29 一、生存分析基本概念 1、事件(Event) 指研究中规定的生存研究的终点,在研究开始之前就已经制定好。根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。 2、生存时间(Survival time) 指从某一起点到事件发生所经过的时间。生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。 3、删失(Sensoring) 指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。 4、生存函数(Survival distribution function) 又叫累积生存率,表达式为S(t)=P(T>t),其中T为生存时间,该函数的意义是生存时间大于时间点t的概率。t=0时S(t)=1,随着t的增加S(t)递减(严格的说是不增),1-S(t)为累积分布函数,表示生存时间T不超过t的概率。 二、生存分析的方法 1、生存分析的主要目的是估计生存函数,常用的方法有Kaplan-Meier法和寿命表法。对于分组数据,在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。 2、如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型(也叫比例风险模型),利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。这里的前体是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。 下面用一个例子来说明SPSS中Cox回归模型的操作方法。 例题 要研究胰腺癌术中放疗对患者生存时间的影响,收集了下面所示的数据:

COX回归模型的样本含量的计算方法及软件实现_徐英

收稿日期:2007-10-20 通讯作者:骆福添 *中山大学公共卫生学院卫生统计与流行病学系 The Optimum Analysis with Queuing Theory Model in Hospital Management Han Xinhuan ,e t al (Department o f mathematics and computer ,Nanjing Med ical University ,Nanjing 210029)A bstract This ar ticle analy sed queuing theo ry model and defined suitable medical resoume fo r outpatient services in o rder to receive be st benefit .It o ffered reference that the hospital g overnors improve medical serv -ice with queuing theo ry . Key words queuing theo ry ;random mo del ;hospital manag ement 文章编号:1004-4337(2008)01-0018-02 中图分类号:R195.1 文献标识码:A ·医学数学模型探讨· COX 回归模型的样本含量的计算方法及软件实现 徐 英 骆福添* (广东药学院卫生统计学教研室 广州510310) 摘 要: 目前生存分析中COX 回归模型到底需要多少样本量往往靠经验法来估计。旨在介绍并推广生存分析中COX 回归模型所需样本量的计算公式及其目前可以实现该计算方法的软件,并通过实例说明了该公式的应用,以期提高今后研究工作的效率。 关键词: 生存分析; COX 回归模型; 样本量; 统计软件 CO X 回归模型在生存分析中应用非常广泛,然而,关于应用该模型到底需要多少样本含量的问题一直未得到很好地解决。主要原因就是生存分析中往往涉及到数据删失的问题,如果不考虑删失数据,则可以利用率的比较所需样本量的计算公式。但是,简单的忽略这部分数据,往往会造成信息的损失。如果考虑删失数据,则样本量的计算又变得非常复杂,因此,直到今天,这个问题依然是国内外统计学者研究的热点之一。本研究仅介绍其中一种较为成熟的计算方法及其相应的实现软件,并通过实例说明该公式应该逐渐被研究者们广泛应用,从而达到提高研究效率的目的。1 公式介绍 以往,对于CO X 回归模型所需的样本量往往凭经验去估计,即至少需要相当于协变量个数10~15倍的阳性结局事件。1983年,Schoenfeld 在Bio me trics 杂志上撰文,提出了一个计算比例风险模型样本含量的公式[1,2]: D =(Z 1-α+Z β)2[P (1-P )lo g Δ)2 ] -1 这里,D 是指发生阳性结局的总人数,P 是指分配到第一 治疗组人数所占的比例。lo g Δ是指风险比的对数。该公式主要是用来计算随机化分组研究的设计所需的样本量,适用于二分类自变量。同时,当考虑其他协变量对生存时间的影响时,则要求主要感兴趣的研究变量与其他变量间相互独立。 然而,在实际的工作当中,变量之间有时并不能满足独立性。因此,2000年,H sieh 和L avo ri 在Contro lled Clinical T ri -als 上将Schoenfeld 的计算公式进行了扩展[3],现介绍如下: N =(Z 1-α/2+Z 1-β)2 P (1-R 2)σ2B 2 等号左边,N 表示所需要的样本含量。 等号右边Z 1-α/2,Z β表示给定检验水准和检验功效时的z 界值;P 表示整个研究期间阳性结局事件的发生率;B 表示对 数风险比,即lo g Δ;σ2 表示感兴趣的研究因素X 1的方差,这 里假定X 1服从正态分布,对于非正态分布的X 1,如二项分布,可通过p (1-p )进行估计,这里,p 表示X 1取“0”或“1”的比例。与Scho enfeld 的计算公式不同的是,该公式引入了“方差膨胀因子”(V IF ),即1/(1-R 2)。R 2表示X 1对其他协变量作回归分析时的确定系数,取值范围0~1,当取值为“0”时, · 18·Journal o f M athematical M edicine Vo l .21 No .1 2008

生存分析的co回归模型案例spss完整版

生存分析的c o回归模 型案例s p s s HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】

一、生存分析基本概念 1、事件(Event) 指研究中规定的生存研究的终点,在研究开始之前就已经制定好。根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。 2、生存时间(Survival time) 指从某一起点到事件发生所经过的时间。生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。 3、删失(Sensoring) 指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。 4、生存函数(Survival distribution function) 又叫累积生存率,表达式为S(t)=P(T>t),其中T为生存时间,该函数的意义是生存时间大于时间点t的概率。t=0时S(t)=1,随着t的增加S(t)递减(严格的说是不增),1-S(t)为累积分布函数,表示生存时间T不超过t的概率。 二、生存分析的方法 1、生存分析的主要目的是估计生存函数,常用的方法有Kaplan-Meier法和寿命表法。对于分组数据,在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。 2、如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型(也叫比例风险模型),利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。这里的前体是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。 下面用一个例子来说明SPSS中Cox回归模型的操作方法。 例题 要研究胰腺癌术中放疗对患者生存时间的影响,收集了下面所示的数据: 操作步骤: SPSS变量视图 菜单选择: 点击进入Cox主对话框,如下,将time选入“时间”框,将代表删失的censor变量选入“状态”框,其余分析变量选入“协变量”框。其余默认就行。 点击“状态”框下方的“定义事件”,将事件发生的标志设为值0,即0代表事件发生。 在主对话框中点击“分类”按钮,进入如下的对话框,将所有分类变量选入右边框中。 在主对话框中点击“绘图”按钮,进入如下的对话框,选择绘图的类型,这里只选择“生存函数”。由于我们关心的主要变量是trt(是否放疗),所以将trt选入“单线”框中,绘制生存曲线。 在主对话框中点击“选项”按钮,进入如下的对话框,设置如下,输出RR的95%置信区间。回到主界面,点击“确定”输出结果。 结果输出

cox回归分析

生存分析之COX回归分析 1.生存分析,是将终点事件出现与否与对应时间结合起来分析的一种统计方法; 2.生存时间,是从规定的观察起点到某一特定终点事件出现的时间,如膀胱癌术后5年存活率研究,及膀胱癌手术为观测起点,死亡为事件终点,两点为生存时间; 3.完全数据,观测起点到终点事件所经历的时间,上述例子即膀胱癌手术到因膀胱癌死亡的时间; 4.删失数据,因失访、研究结束终点事件未发生或患者死于规定的终点事件以外的原因而终止观察,不能确定具体生存时间的一类数据; 5.生存概率,表示某时段开始存活的个体到该时段结束仍存活的概率,p=活满某时段的人数/该时段期初有效人口数; 6.生存率,为观察起点起到研究时间点内各个时段的生存概率的累积概率,S(tk)=p1.p2.pk=S(tk-1).pk; 7.生存曲线,以生存时间为横轴,将各个时间点的生存率连在一起的曲线图; 8.中位生存期,又称半数生存期,表示50%的个体存活的时间; 9.PH假定(等比例风险假定),某研究因素对生存的影响不随时间的改变而改变,是COX回归模型建立的前提条件。 1. Cox回归分析及其SPSS操作方法概述 前面我们已经讲过生存分析及KM法的内容,详细可以回复数字26-28查看。但有对统计不太熟悉的“微粉”还不太明白生存分析与一般统计的区别,不知道如何区别Cox回归与Logistic回归。在我们做研究时,有时我们不仅关心某种结局是否出现,还会关心结局出现的时间,例如肺部手术后观察五年生存率,一个有在1年之后死亡,另外一个人在在4.5后死亡,如果只看第5年时的结局,两者是一样的(均死亡),但是实际我们认为后者的治疗效果可能优于前者,即生存分析同时考虑结局和结局出现的时间,而一般分析只考虑结局。另外在队列随访时,可能有人在没有到5年时就失访了,如迁徙或者电话更改,我们不了解其结局如何,在一般的分析中这种病例无法使用,而中间失访的病例结局可能更差,如果直接扔掉,可能会产生偏倚;而用生存分析,这种病例可以给我们提供部分资料,即我们记录最后一次随访时病例的状态,失访前的资料可以用于分析。 我们先回顾一下生存分析的KM法和寿命表法(回复数字26和27可以查看KM法的详细内容),其共同点是只能分析一种因素与生存率的关系,Log-Rank法也是比较一个因素两种水平间的生存差别,如果生存率的影响因素有很多,我们怎么避免其它混杂因素的影响呢?我们可以使用回归分析方法,但如果使用logistic回归,也是只能观察影响因素与结局的关联,没有考虑结局发生的时间因素。Cox回归可以解决这个问题。Cox回归一般模型假设为 其中h(t,X)是在时刻t的风险函数又可称瞬时死亡率,h(0,t)是基线风险率,其它与logistic回归模型相同。βj大于0则x j越大,病人死亡风险越大,βj小于0则x j越大,病人死亡风险越小,βj等于0则x j越与死亡率没有影响。Exp(β)为危险比(HR)或相对危险度(RR)。 下面以一个例子说明在SPSS中作Cox回归如何操作。

生存分析结课论文

《生存分析结课论文》 ——关于乳腺癌术后生存情况与患者年龄的研究 班级: 姓名: 学号: 2016年5月7日

目录

摘要 本文讨论45岁以上乳腺癌患者的术后生存状况。对44名45岁以上的乳腺癌患者的资料进行回顾性分析,按年龄分为两组,其中A组(<50岁,25例),B组(≥50岁,19例),探讨乳腺癌患者术后生存情况与患者年龄间的关系。结果有统计学意义(P<0.01)。年龄是乳腺癌的一个独立预后变量,但乳腺癌的其他影响患者生存状况因素如:临床分期、淋巴结转移、病理类型、手术方式对乳腺癌患者的影响也是不容忽视的。 关键词生存分析乳腺癌年龄Kaplan-Meier估计 Nelson-Aalen估计 Cox模型

1.问题的提出 乳腺癌是女性最常见的恶性肿瘤之一。且发病率呈逐年上升的趋势,在欧美国家,乳腺癌占女性恶性肿瘤的25%-30%.乳腺癌常发病于停经妇女,我国则常见于绝经前妇女,45—50岁发病率较高。中老年妇女是乳腺癌发病的主要对象。发病年龄较欧美国家年轻10岁左右。由文献报道年龄是一个对复发率有影响的独立因素,年龄在45-50岁的患者复发率增加,为比较不同年龄乳腺癌术后生存状况的差别。本文从生存状况变化的角度做生存性分析,探讨乳腺癌术后生存情况与患者间年龄关系。 2.数据的来源 选取患乳腺癌的44名妇女,初治均为手术治疗,分为两组。A 组为年龄在45岁到50岁的患者,B组为年龄在 50岁以上的患者。5年后得到下列复发时间。时间(月) 数据来源于《生存数据分析的统计方法》 A组 4 5 9 16 12 13 10 23 28 29 31 32 47 41 41 57 62 74 100 139 20+ 258+ 269+ B组 8 10 10 12 14 20 48 70 75 99 105 162 169 195 220 161+ 199+ 217+ 245+

生存分析的cox回归模型案例spss

生存分析的c o x回归模 型案例s p s s Document number:PBGCG-0857-BTDO-0089-PTT1998

一、生存分析基本概念 1、事件(Event) 指研究中规定的生存研究的终点,在研究开始之前就已经制定好。根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。 2、生存时间(Survival time) 指从某一起点到事件发生所经过的时间。生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。 3、删失(Sensoring) 指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。 4、生存函数(Survival distribution function) 又叫累积生存率,表达式为S(t)=P(T>t),其中T为生存时间,该函数的意义是生存时间大于时间点t的概率。t=0时S(t)=1,随着t的增加S(t)递减(严格的说是不增),1-S(t)为累积分布函数,表示生存时间T不超过t的概率。 二、生存分析的方法 1、生存分析的主要目的是估计生存函数,常用的方法有Kaplan-Meier法和寿命表法。对于分组数据,在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。 2、如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型(也叫比例风险模型),利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。这里的前体是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。下面用一个例子来说明SPSS中Cox回归模型的操作方法。 例题 要研究胰腺癌术中放疗对患者生存时间的影响,收集了下面所示的数据: 操作步骤: SPSS变量视图 菜单选择: 点击进入Cox主对话框,如下,将time选入“时间”框,将代表删失的censor 变量选入“状态”框,其余分析变量选入“协变量”框。其余默认就行。 点击“状态”框下方的“定义事件”,将事件发生的标志设为值0,即0代表事件发生。 在主对话框中点击“分类”按钮,进入如下的对话框,将所有分类变量选入右边框中。 在主对话框中点击“绘图”按钮,进入如下的对话框,选择绘图的类型,这里只选择“生存函数”。由于我们关心的主要变量是trt(是否放疗),所以将trt选入“单线”框中,绘制生存曲线。

(完整word版)生存分析知识点总结,推荐文档

生存分析知识点总结 09统计(经济分析1班)周姗琪 32009121215 一、基本概念 1、生存分析:将事件的结果和出现此结果所经历的时间结合起来分析的统计 分析方法。研究生存现象和响应时间数据及其统计规律的一门学科。对一个或多个非负随机变量(生存时间)进行统计分析研究。对生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度的统计分析方法。 2、生存时间:生存时间也叫寿命、存活时间、失效时间等等 3、研究目的: ①描述生存过程:估计不同时间的总体生存率,计算中位生存期,绘制生存函 数曲线。统计方法包括K-M法、寿命表法。 ②比较:比较不同处理组的生存率,如比较不同疗法治疗脑瘤的生存率,以了 解哪种治疗方案较优。统计方法log-rank检验等。 ③影响因素分析:研究某个或某些因素对生存率或生存时间的影响作用。如为 改善脑瘤病人的预后,应了解影响病人预后的主要因素,包括病人的年龄、性别、病程、肿瘤分期、治疗方案等。统计方法Cox比例风险回归模型等。 ④预测:建立Cox回归预测模型。 4、研究内容:描述生存过程和对生存过程影响因素分析及结局预测。 5、主要分析方法:参数法方法、非参数方法、半参数方法。 二、生存分析数据类型 1、完全数据:每个个体确切的生产时间都是知道的。这样的数据称为完全数 据。但在实际的生存分析中,数据在很多情况下是很难完全观察到的。 2、删失:在研究结束时,无法获得某些个体确切的生存时间。 ①右删失:在进行观察或调查时,一个个体的确切生存时间不知道,而只知道 其生存时间大于时间L,则称该个体的生存时间在L上是右删失的,并称L 为右删失数据。 ②左删失:研究对象在时刻Ct开始接受观察,而在此之前我们感兴趣的时间 已经发生,这就是左删失。 ③区间删失:若个体的确切生存时间不知道,只知道其生存时间在两个观察时 间L和R之间(L

cox回归生存分析在stata中实现汇总

为了评价各种指标对透析患者生存时间的影响,资料如下,为避免受过大值的影响,实际拟合模型中,ntprobnp数据取对数,记为ntprobnp1 gen ntprobnp1 = log(ntprobnp 资料如下: time die crea bun alb age therapy ntprobnp ntprobnp1 12 1 1032 34 28 45 0 20 2.995732 26 1 1324 46 26 66 1 34 3.526361 38 1 1520 49 31 56 0 56 4.025352 45 1 870 28 32 62 1 112 4.718499 99 1 990 34 39 35 0 1020 6.927558 120 0 785 23 42 29 0 1920 7.560081 120 0 456 19 43 35 0 45 3.806663 120 0 570 23 39 27 0 88 4.477337 120 0 1020 33 41 42 0 211 5.351858 120 0 780 29 40 23 0 455 6.120297 120 0 670 22 39 19 0 2100 7.649693

120 0 932 28 35 23 0 1320 7.185387 120 0 689 27 44 56 0 44 3.78419 35 1 670 33 28 66 1 66 4.189655 67 1 1210 34 34 72 1 77 4.343805 1. 预后因素筛选: logrank time die, by(crea 检测肌酐是否影响生存率 chi2(13 = 29.07 Pr>chi2 = 0.0064 P<0.05,说明肌酐对预后影响大 logrank time die, by(bun logrank time die, by(alb logrank time die, by(age logrank time die, by(therapy logrank time die, by(ntprobnp1 由于bun P>0.05,在COX模型中去除改因素 2. 用COX比例风险模型分析 cox time crea alb age therapy ntprobnp1, dead(die Cox regression -- no ties Entry time 0 Number of obs = 15 ① LR chi2(5 = 26.21

cox回归结果解析

c o x回归结果解析-CAL-FENGHAI.-(YICAI)-Company One1

筛选变量的方法:第一步,结合临床,临床认为有关的变量均筛选出来。第二步.应用双变量的相关分析,把显着相关的变量筛选出来,保留临床意义更大的那个。第三步,应用Kaplan-Meier法对每个危险因素的两个暴露水平做生存曲线,若曲线存在交叉,则不能应用Cox生存分析(Cox生存分析也称比例风险回归,它包含一个假定,即在随访期间暴露于预后因素与非暴露的风险比例维持恒定),这类变量需应用更复杂的非比例风险回归模型,这里将不详述了。第四步,单因素分析。可应用COX生存分析的第0步结果作为单因素分析的结果。可在SPSS的Cox回归里选择任何一种前进法,在Option中选择at each step,取因子筛选第0步的Score检验结果作为单因子Cox回归分析的结果。也有文章的单因素分析对于离散型变量应用卡方检验和连续型变量应用t检验,等级资料应用双变量相关分析。 最后,将进行Cox回归分析。应用SPSS中analysis-survival-cox regression.在time一栏中选择生存时间;在state一栏中选择数据状态(在数据编码中已经介绍),在激活的define event一栏中设定single value为1。这里要强调几个小问题:1,SPSS可以支持研究者做两个或以上的变量的共同效应,需在主对话框中同时选中需研究的变量两个或两个以上,这样协变量框中的>a*b>才会被激活。2,分类变量,在这里被称为哑变量,需单击categorical,然后将分类变量选入对话框。 最后得到的结果,B为协变量的系数,Exp(B)为相对危险度。可得到比例风险模型:h(t,x)=h0(t)exp(Σβ ixi)公式1-1 预后指数也称预后得分,PI(prognostic index)= (Σβ ixi) PI=0代表危险率处于平均水平,PI<0,代表危险率低于平均水平;PI>0,代表危险率高于平均水平。由公式1-1可以求得全部病人的预后指数。将所有的预后指数做等级变换,例如分组的界点PI=-1,0,1,以PI为分类变量做COX回归,并估计生存率,便获得预后指数分类生存率,若样本量很大,或代表性比较好,可用内插法分别估计不同预后指数水平的人群的k年生存率,以及中数生存期,编制成参照表,便可用于临床,根据每个病人的PI值,预测其存活k年的概率,以及期望的生存年数。最后一段摘自方积乾主编的第二版《医学统计学与电脑试验》。如果我们能够象国外一样做大规模多中心前瞻的研究,我一定要做到最后一步。 其实这个问题关键还是在你自己,就是你为何要定义分类变量如果变量是连续变量或者是具有等级关系的,那么一般是不定义为分类变量的,比如年龄,身高,体重等等。如果变量的数值之间没有等级关系,比如组别,我们用1表示A组,2表示B性,3表现C组,这个在分析的时候是需要定义为分类变量的,因为这个数值的大小是没有意义的。所以关键怎么选择,还是需要看楼主这几个变量所代表的具体意义。 COX回归时如果需要分析的自变量中为有序多分类,为保证结果的准确性,应将其指定为亚变量进行分析(严格的讲,两分类变量也应进行指定,但不指定时的分析结果是等价的),所以您定义为categorical后的计算结果是可信的 the final multivariate Cox regression model, xx was identified as an independent prognostic factor with an adjusted hazard ratio of (95% confidence interval –”,而有的文章则是这样描述“C ox regression indicated that ING4 expression is an independent prognostic factor for overall 5-year survival (Relative risk= , 95% confidence interval = –, P = ”请问这两种描述有什么区别hazard ratio与relative risk又有什么不同谢谢大家!

相关文档