医用统计学复习资料(全)

一、名解

1.小概率原理:一个事件如果发生的概率很小的话,那么它在一次试验中是几乎不会发生的,称之为小概率原理。统计学中,一般认为等于或小于0.05或0.01的概率为小概率。

2.小概率事件:习惯上将p<0.05或p<0.01的事件。

3.同质:是针对被研究的指标来讲,其影响因素相同,简单的理解,同质就是指对研究指标影响较大的可控的主要因素。同质基础上的个体差异称为变异。

4.抽样误差:由于生物固有的个体变异的存在,从某一总体中随机抽取一个样本,所得统计标准量与相应的标准参数往往是不同的,这种差异称为抽样误差。

5.假设检验第一类错误/第二类错误:如果实际情况与H0一致,仅仅由于抽样的原因,使得统计量观察值落到拒绝域,拒绝原本正确的H0,导致推断结论错误,这样的错误称为第一类错误。如果实际情况与H0不一致,也仅仅是抽样的原因使得统计量的观察值落到接受域,不能拒绝原本错误的H0,则导致了另一种推断错误,这样的错误称为第二类错误。

6.检验效能:1-β称为假设检验的功效,当所研究的总体与H0确有差别时,按检验水准α能够发现它(拒绝H0)的概率。

7.四分位数间距:表示百分位数P75和百分位数P25之差,定义为Q=P75-P25

8.变异系数(cv):cv主要用于量纲不同的变量间或均数差别较大的变量间变异程度的比较。

9.均数的标准误:样本均数的标准差,通常称为均数的标准误,用于反应均数抽样误差的大小。

10.总体参数的可信区间:从总体中做随机抽样,每个样本可以算得一个置信区间。按预先给定的概率(1-α)估计总体参数的可能范围,该范围就称为总体参数的1-α置信区间。11.相关系数:又称pearson积矩相关系数,是定量描述两个变量间线性关系密切程度和相关方向的统计指标。

12.最小二乘法原理:残差ei=Yi-(a+bXi)y I,求a与b的适宜值,能使所有残差平方和为最小,则称这一对a和b为α与β的最小二乘估计。

13.回归系数μY/X=α+βX,其中,Y为个体的因变量值,α为回归直线的截距参数,β为回归直线的斜率参数,又称回归系数。

14.标准正态分布:均数为0、标准差为1的正态分布被称为标准正态分布(standard normal distribution),通常记为N(0,1)

15.总体:就是根据研究目的确定的同质观察单位的总体。确切的说是同质的所有观察单位某种变量值的集合。

16.样本:从总体中随机抽取部分观察单位,其变量值的集合;样本中所包含个体数称为样本含量。

17.非参数检验:不以特定的总体分布为前提,也不针对决定总体分布的几个参数做推断,故又称为任意检验。

18.均数的标准误:样本均数的标准差,通常称为均数的标准误(SEM或SE),可以反应均数抽样误差的大小。

19.完全随机设计常用的几种实验设计方法:配对设计和完全随机设计(名解2选1)

完全随机设计:完全随机设计仅涉及一个处理因素(但可为多水平),故又称单因素(one-way)设计。它是将受试对象按随机化的方法分配到各个处理组中,观察实验效应,临床试验中的随机对照试验也属于此类设计。

配对设计:是将受试对象按一定条件配对成对子,再随机分配每对中的两个受试对象到不同处理组。配对的因素是影响实验效应的主要非处理因素。

20.定量资料:定量变量也称计量变量或数值变量,是通过度量衡的方法,测定每一个观察单位的某项研究指标的量的大小得到的资料。其取值是定量的,表现为数值大小。按取值的

不同可分为离散型变量和连续性变量两种。前者如儿童龋齿数、胎次等,后者如身高、体重等。

21.定性资料:定性变量也称计数变量或分类变量,是将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数所获得的资料。其取值是定性的,一般无度量衡单位。表现为互不相容的类别或属性,有两种情况:无序分类和有序分类。

22.标准误:抽样误差具有一定的规律性,可以用特定的指标来描述,标准误除了反映样本统计量之间的离散程度外,也反映样本统计量与相应总体参数之间的差异,即抽样误差大小。

23.区间估计:指按一定的概率估计未知的总体参数可能存在的范围(称“可信区间”或“置信区间”)的估计方法。

24.分层抽样:先将总体的单位按某种特征分为若干次级总体(层)然后再从每一层内进行单纯随机抽样,组成一个样本的统计学计算方法。

25.概率:频率的稳定性充分说明随机事件出现的可能是事物本身固有的一种客观属性,因而是可以被认识和度量的。这个常数p 就被称为事件A 出现的概率,记住P (A )或P 。这一定义称为概率的统计定义。它是事件A 发生的可能性大小的一个度量。

26.双盲法:这种实验方法用于防止研究结果被安慰剂效应或者观察者偏爱影响,是一种更加严格的实验方法,通常适用于以人为研究对象的实验。

二、填空

1.每种检验方法的应用条件:t 检验的应用条件:a 随机样本b 来自正态分布总体c 方差齐性 方差分析的应用条件:a 相互独立的随机样本b 来自于正态分布总体c 方差齐性

2.统计学的描述指标,描述集中趋势的统计指标:算数均数,几何均数,中位数。描述离散趋势的统计指标:极差,四分位数间距,方差,标准差,变异系数。

几何均数的应用:(1)几何均数用于对于对数正态分布资料或呈倍数关系的等比资料等(2)观察值不能为零或同时出现正负值(3)同组资料G

中位数的应用:常用于描述偏态分布资料,开口资料和分布未明的资料。开口资料即数据的一段或两端无确切界限,不能求出均数和几何均数

百分位数的应用:常用于确定医学参考值范围,当数据不呈正态分布时,样本含量要足够大,常取95%医学参考值范围。单侧过高为异常时取P 95,过低为异常取P 5,双侧取P 2.5~P 97.5

3.百分位数的计算公式Px=L+L

i L F F T -+(n ·x%-F L ) 4.卡方检验的条件及对应公式

5.实验设计三要素,三原则:实验对象 处理因素实验效应 随机化原则 重复原则 对照原则

6.相关分析,秩和检验的应用条件

7.统计表由标题,标目,线条,数字,备注构成。

8.医学统计工作的步骤:研究设计 搜集资料 整理资料 分析资料

9.表示事物发展趋势的统计图是线图,发展速度的是半对数线图。

10.四种基本抽样方法:单纯随机抽样 系统抽样 整群抽样 分层抽样。误差大小 整群抽样>单纯随机抽样>系统抽样>分层抽样

11.卡方检验的用途:推断两个或多个样本率及构成比之间有无差别,检验分类变量配对设计下的卡方检验,以及频数分布的拟合优度检验等。

12.常用的相对数:比,构成比,率

三、单选

四:简答

1.频数分布表制作过程:连续型定量变量频数分布表的制作过程:1)计算极差(R ),也称

全距,即数据最大值与最小值之差。2)确定组段数与组距,组段数一般取10左右,组距=R/预计组段数。3)确定各组段的上下限,组段的起点为下限,终点为上限。4)列表

用途:1)揭示资料的分布类型和分布特征2)描述分布的集中趋势和离散趋势3)便于发现某些特大或特小的可以值4)便于进一步计算指标和统计分析

2.医学参考值范围制定及注意:医学参考范围:指特定的“正常”人群(排除了对所研究的指标有影响的疾病和有关因素的特定人群)的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体(一般为95%)取值所在的范围。

针对某医学指标X,确定X的医学参考值范围的原则:

1)制定“正常”人群的入选标准

2)确定样本量大小,在符合入选标准的人群中随机抽样

3)对样本中的每个个体进行指标测量

4)确定是否要分组制定参考值范围

5)根据该指标X的背景意义,确定参考值的范围是双侧还是单侧

6)根据样本资料的分布情况确定采用正态分布法还是百分位数法

方法:1)百分位数法,适合于任何分布类型的资料。

2)正态分布法:适合于正态分布资料或近似正态分布资料。

假设检验的步骤:1)建立检验假设,确定检验水准2)选择方法并计算统计量3)确定p 值,作出推断结论

3.假设检验时注意的事项

㈠要有严密的抽样研究设计;样本必须是从同质总体中随机抽取的;要保证组间的均衡型和资料的可比性。

㈡根据现有的资料的性质、设计类型、样本含量大小正确选用假设检验方法。

如两样本变量均数(均数)的比较常用t检验,分类资料比较常用X2检验,而同为数值变量资料,配对设计与完全随机设计比较的t检验也不相同,若用完全随机设计的t检验处理配对资料,不但浪费信息,还可能得出错误结论。

㈢结论不能绝对化,因检验水准只是人为规定的界限,是相对的。差别有统计学意义时,是指无效假设h0被接受的可能性只有5%或不到5%,甚至不到1%,根据小概率事件一次不可能拒h0,但尚不能排除有5%或1%出现的可能,所以可能产生第一类错误;同样,若不拒绝h0,可能产生第二类错误。

㈣正确理解“差异有无统计学意义”。统计学上差别显著与否,与实际意义是有区别的。如应用某药治疗高血压,平均降低舒张压0.5kPa,并得出差别有高度统计学意义的结论。从统计学角度,说明该药有降压作用,但实际上,降低0.5kPa是无临床意义。因此要结合专业作出恰如其分的结论。

(五)报告结论时注意:应列出样本计算的检验统计量值,注明采用的是单侧检验或者是双侧检验,写出P值。

4.应用相对数的注意事项:(1)计算相对数时分母一般不宜过小(2)分析时注意构成比和率的区别(3)合计率(平均率)的计算,对观察单位不等的几个率,不能直接相加求其平均律,而应用合计的数据来计算(4)比较相对数时应注意资料的可比性(5)对样本率、构成比的比较应作假设检验。

5.假设检验与区间估计之间的关系:假设检验与区间估计都是统计推断的两种方法,可信无间用于说明量的大小,即推断总体均数的范围。假设检验用于推断质的不同,即推断两总体均数是否不同。每一种区间估计都对应一种假设检验方法,它们之间即相互联系又相互区别。1)置信区间具有假设检验的主要功能。2)置信区间可以提供假设检验没有提供的信息。3)假设检验也可以提供置信区间不能提供的信息。因此,国际上规定在报告假设检验结果的同

时,必须报告相应的区间估计结果。

假设检验是采用反证法和小概率事件的基本思想,在假设H0成立的基础上,根据检验统计量所获得概率P 值作出的统计推论,因此,其结论不可能完全正确,不论作出拒绝H0,还是不拒绝,都有犯错误的可能。单侧检验双侧检验的选择:根据研究目的和专业知识来选择单侧检验和双侧检验,且应在统计分析工作开始之前决定。相对来说,双侧检验较为稳妥,故常用。

6.率的标准化的基本思想,应注意的问题(分析题)

率的标准化的基本思想:

要比较两个总率时,发现两组资料的内部构成(如年龄、性别构成等)存在明显不同,而且影响到了总率的结果,这时就不宜再直接比较总率,而应考虑采用标准化法。

标准化法的基本思想,就是采用统一的标准(统一的内部构成)计算出消除内部构成不同影响后的标准化率(调整率),然后再进行比较。

二、直接标准化法的计算方法

当已知所比较资料各组率Pi ,可选用直接法计算标化率。

三、间接标准化死亡比的计算方法

当所比较的资料已知各自某现象总发生数r 及各分组观察单位数时,宜采用间接法计算标化率。

应注意:可信区间与参考值范围的意义、计算公式和用途均不同。

1.从意义来看

95%参考值范围是指同质总体内包括95%个体值的估计范围,而总体均数95%可信区间是指按95%可信度估计的总体均数的所在范围。

2.从计算公式看

若指标服从正态分布,95%参考值范围的公式是:x ±1.96s 。

总体均数95%可信区间的公式是:x ±t 0.05,v ???

? ??n S 。

前者用标准差,后者用标准误。前者用1.96,后者用α为0.05,自由度为v 的t 界值。

7.两独立样本秩和检验的基本思想

8.方差分析的基本思想:根据资料的设计类型及研究目的,将全部观察值总的离散度和自由度分解为相应的几个部分,除了随机误差外,其余每个部分的变异可由某个因素的作用加以解释,如各组均数间的变异可由处理因素的作用加以解释。通过比较不同变异来源的均方,借助F 分布作出统计推断,从而判断改因素对观测指标有无影响。

方差分析的应用条件如下:1、任何两个观察值之间独立,互不相关。2、各水平下的观察值均服从正态分布,即各样本来自正态总体。3、各处理组的方差相等,即方差齐性。

完全随机设计又称成组设计,只有单个研究因素,该因素有多个水平,如在实验中按随机化原则将受试对象随机分配到一个研究因素的多个水平中去,然后观察实验效应。方差分析就是通过分析处理组均数之间的差别,推断实验中所代表的多个总体均数间是否存在差别。 SS 总=SS 组间+SS 组内 V 总=V 组间+V 组内

当组间变异与组内变异均只反映随机误差,即各样本来自同一总体,各组均数之间无差别。当各样本不是来自同一总体,组间变异反映处理效应和随机误差而组内变异只反映随机误差,即组间变异大于组内变异。

F=MS 组间/MS 组内,当F 值大于1时,认为处理因素有作用(即存在处理效应)

随机区组设计又称配伍组设计,随机区组设计广泛用于医学科研工作中,该方法属于两因素

方差分析,用于多个样本均数的比较。随机区组设计资料的总变异可以分解成三个部分,即处理效应、区组间变异和随机误差,自由度也可以分解成相应的三个部分

SS 总=SS 处理+SS 区组+SS 误差 V 总=V 处理+V 区组+V 误差

多组均数间的两两比较:SNK-q 检验,Dunnett-t 检验,Bonfferoni 法

9.标准正态分布的应用:1)确定医学参考范围2)质量控制图,常以x ±2s 作为上、下警戒值以x ±3s 作为上、下控制值3)统计处理方法的基础:4)概率估计

10.特定条件下,二项分布、Poisson 分布可近似于某种其它的分布,这一特性拓宽了它们的应用范围。

二项分布的正态近似:当n 较大,π不接近0也不接近1时,二项分布B (n ,π)近似正态分布N (n π,)1(ππ-n )。

二项分布的Poisson 分布近似:当n 很大,π很小,n π=λ为一常数时,二项分布近似于Poisson 分布。

Poisson 分布的正态近似:Poisson 分布P (μ),当μ相当大时(≥20),其分布近似于正态分布。

二项分布具备的条件:①每次实验的结果只有两种可能(死亡或存活)②实验结果之间彼此是独立的③每次实验的结果发生概率是固定不变的。

理论上可以证明:当n 足够大时(n ≥50),只要π不太靠近0或1,尤其当n π和(1-π)均大于5时,二项分布近似正态分布。

Poisson 分布的条件就是满足二项分布的三个条件加上总体发生概率π非常小

一般情况下,当入≥20时,poisson 分布近似正态分布,两个特性:1.poisson 分布的均数于方差相等,都为入2.poisson 分布的观察结果有可加性

11.非参数适用哪些资料:1.分类资料(包括有序或无序的)2.样本所代表的总体分布不明确的资料3.分布呈非正态而又无适当的变量变换方法的资料等。

特点:⑴样本所来自的总体的分布形式为任何形式,甚至是未知的,都能用⑵收集资料方便,可用“等级”或“符号”来评定观察结果。⑶多数非参数方法比较简便,易于理解和掌握。⑷缺点是损失信息量,适用于参数统计法的资料用非参数统计方法进行检验将降低 非参数检验的优缺点:

优点:适用范围广 对数据要求不严 方法简便、易于理解和掌握

缺点:损失信息、检验效能低 符合条件 首选参数检验 不符合条件 非参数检验

12性相关与回归的区别与联系:区别A 资料:回归——Y 为正态随机变量,X 为选定变量;X 、Y 服从双变量正态分布;相关——X 、Y 服从双变量正态分布。B 应用:回归——由一个变量值推算另一个变量值,相关——只反映两变量间互依关系。C 回归系数与原度量单位有关,而相关系数无关。联系:1.方向一致:r 与b 的正负号一致。2.假设检验等价:t r =t b 3.公式可以互换,互相计算r=b yy

xx l l 4.相关与回归可以互相解释总剩总总回SS SS -222SS SS SS l l l l l l r yy xx xy

yy xx xy ====

13.正态曲线具有如下特点:(1)横轴之上,以X=u 为中心,中间高、两头低、左右对称,

在X=u+-&处有拐点(2)曲线与横轴所包围的面积为1(3)u和&分别是正态曲线的位置参数和变异度参数。

14.Z分布:原来各种形态的正态分布都转换为u=0,&=1的标准正态分布

t分布特征:1.以0为中心,左右对称的单峰分布2.t分布是一簇曲线,其形态变化与n大小相关。自由度v越小,t分布曲线越低平;自由度v越大,t分布曲线越接近标准正态分布(u分布)曲线。

15.(1)卡方检验在定性资料的统计推断中应用广泛,其基本思想是判断实际频数与理论频数的吻合程度(2)对于不同资料可以有不同的卡方检验方法,应用时须注意每种方法的应用条件。Ⅰ对于成组设计的四格表资料:①当n≥40,且所有的T≥5,用普通的Pearon卡方检验。②当n≥40,但1≤T<5,用卡方检验的校正公式,或者用四格表资料的Fisher确切概率法,③当n<40或T<1,用四格表资料的Fish确切概率法(3)对于R×C表资料:①列变量应为无序分类,特别是表示效应指标的列变量应为无序分类变量,若列变量为有序变量,卡方检验不能检验出程度的差别②当n≥40,或T<5的格子数目不足总格子数目的1/5时,用普通的Pearon卡方检验。③当n<40,或T<5的格子数目多于总格子数目的1/5时,用Fisher确切概率法检验。

五、分析

1.卡方检验与秩和检验(联系,区别,应用条件等方面分析)卡方检验的应用条件:计数资料,定性资料,秩和检验的应用条件:开口资料资料分布不清楚等级资料

配对设计四格表资料的卡方检验,通常用于:配对设计和定性资料,以比较两种处理的效果是否相同。与配对设计定量资料的t检验相比,主要区别在于卡方检验处理的是定性资料,而非定量资料。两种对应的设计类型则是相同的,即配对设计。

2.t检验与方差分析(同上):t检验的应用条件:它们都是用于定量资料,正态分布,当随机样本来自正态分布总体方差齐性方差分析的应用条件:样本是相互独立的随机样本各样本来自正态分布总体方差齐性

六:计算

疗法有效无效合计

中药 a b a+b

西药 c d c+d

a+c b+d a+b+c+d

有效(或处理因素各水平的效果是否相同)。

计算公式的选用:

1.当n≥40,且所有格子的T≥5时,选用X2检验的基本公式

2.当n≥40,但有1≤T<5时,选用X2检验的校正公式

3.当n<40,或T<1时,须用四格表资料的Fisher确切概率法

当b+c≥40时,用一般X2检验公式:(b-c)2/b+c

当b+c<40时,用校正X2检验公式:(|b-c|-1)2/b+c

相关推荐
相关主题
热门推荐