文档库 最新最全的文档下载
当前位置:文档库 › 颜虹的医学统计学案例选

颜虹的医学统计学案例选

颜虹的医学统计学案例选
颜虹的医学统计学案例选

医学统计学案例选

第一章绪论部分

案例1-1着手撰写一份研究计划书,你所选的研究课题应该关系到人类健康。简单叙述立题依据、研究背景、研究目的、研究内容、研究方法和需要什么样的资料,如何获得和分析资料,用什么方法表达与展示结果等,请保留你的这份作业,并在学习完本书后再重新翻阅。你发现了什么问题,应如何修改?你的收获是什么?

第二章实验设计部分

案例2-1《丹栀逍遥散治疗混合性焦虑抑郁障碍的临床研究》(河南中医2004年第24卷第8期第62页)欲观察丹栀逍遥散治疗混合性焦虑抑郁障碍的临床疗效,以某西药作为对照组。将64例符合纳入标准的病例按诊疗次序交替分组,即单号为中药组,双号为西药组。请讨论该分组方法是否随机?

案例2-2《单宫颈双子宫畸形28例人工流产分析》(中国实用妇科与产科杂志1999年3月第15卷第3期172页)通过回顾分析某医院1990年1月至1998年3月期间28例单宫颈双子宫畸形早孕流产的结果,发现人流术前先给予米索前列醇素制剂可使得流产更容易、安全,减少病人痛苦并且可避免并发症的发生。而文中两组的分组方法为:所有病例按就诊先后顺序分组,1995年10月以后的为A组,1995年10月以前的为B组。A组(米索组)于手术前3小时服米索600μg或手术前1小时后穹隆放置米索200μg,然后进行人工流产吸宫术,共14例;B组(对照字)单纯采用常规流产术机械扩张宫颈后吸宫。作者认为该法“符合随机分配法则”。请讨论对照组的设置是否合适?

案例2-3《用24小时食管pH监测法诊断食管原性胸痛》(中华外科杂志1995年33卷第2期第69页)一文中,作者对30例疑为食管原性胸痛患者的24小时食管pH监测,其中16例昼夜均异常,8例白天异常,2例夜里异常,18例胸痛与酸暴露有关。得出食管pH监测是诊断胃食管反流所致的食管原发性胸痛的有效方法的结论,请讨论该文结果是否成立?案例2-4《强骨胶囊治疗原发性骨质疏松症的临床试验》(中药新药与临床药理,2004年15卷第4期284页)目的是观察强骨胶囊与骨松宝颗粒对骨质疏松症患者的疗效与安全性。原文共收集骨质疏松症患者307例,其中试验组612例使用强骨胶囊,对照组93例使用骨松宝颗粒,其余开放组52例。但对开放组患者的特征、所用药物、用药方法、观察方法、是否设盲等没有交代。请讨论3组之间有无可比性?

小结

1、一项研究设计的内容包括:提出假说,确定研究类型,确定研究对象的范围和数量,计

划的实施与质量控制,数据管理,统计分析,结果与讨论。

2、实验设计包括3个基本要素:处理因素、实验对象和实验效应。

3、实验设计必须遵循:对照、随机、重复的基本原则。研究中所设立的对照组应尽可能达

到对等、同步、专设的条件;随机包括3方面的内容,及随机抽样、随机分组和随机实验顺序;重复是指研究结果的重复、观察对象的重复和观察指标的重复。

思考与练习

简答题

1、研究设计的作用是什么?

2、研究设计的基本内容是什么?

3、实验设计应该遵循的基本原则是什么?

4、实验设计为什么要设立对照?设立对照要注意些什么?

5、随机化的含义是什么?目的是什么?

6、区组化的目的是什么?

第三章观察性研究设计概述

案例3-1某地(100万人口)拟开展当地中老年人非胰岛素依赖型糖尿病的现况调查,目的是了解当地糖尿病的流行状况,以及与糖尿病患病相关的危险因素。调查对象是当地居住超过5年、40岁以上的常住居民。该研究采取分层、整群随机的抽样方法,将该地区15个镇按城镇或乡村,经济发展水平分成3个层,每层随机抽取2个镇或街道,再从被抽中的镇或街道中随机抽取两个村或居委。被抽中村或居委的全部40岁以上居民包括原糖尿病患者均参加调查。调查结果男女两性比例为0.94:1,并划分为5个年龄组,性别和各年龄组构成比与当地人口性别和年龄的分布情况相符。

调查内容包括:①问卷调查:被调查者的一般情况、糖尿病及其他病史、家族史、糖尿病临床表现、饮食调查、吸烟、饮酒情况及体力活动等;②体格检查:包括身高、体重、腰围、臀围及血压等;③血糖测定。

⑴该研究采用的是全面调查还是抽样调查?各有何优缺点?

⑵该研究采用的抽样方法有何优点?是否有更好的抽样方法?

⑶该研究的设计方案是否合理?请你设计一个研究的方案。

⑷该研究采用的调查表应该包括哪些项目?请你设计该调查表。

小结

1、观察性研究是有目的地观察或测量自然接触不同因素人群的结果事件发生状况,通过对

比分析发现事件的分布特点与差异,从而获得有关因果假设的启示,为进一步研究提供线索。

2、观察性研究包括描述性研究和分析性研究两大类。

3、横断面研究是按照事先制定的计划,调查特定人群特定时点某种疾病的患病情况,以及与患病有关的因素。横断面研究的设计要考虑研究目的、对象、调查方法、调查表设计、样本量、组织计划、质量控制和分析计划等。

4、问卷是调查研究中用来收集资料的一种工具,它的形式是一份精心设计好的问题表格,它的用途在于测量人们的行为、态度和特征。问卷设计的好坏是保证调查质量的关键,本章介绍问卷设计的基本原则和步骤。

5、随机抽样是抽样调查中样本具有代表性和能进行总体参数估计的保证,常用的抽样方法有单纯随机抽样、系统抽样、分层抽样和整群抽样。

简答题

1、观察性研究与实验性研究有何异同?二者能否同时使用或结合使用?

2、观察性研究主要有哪些方法?各有何优缺点?

3、为什么大多数的观察性研究是抽样调查研究?

4、根据对全国出生缺陷监测资料的统计分析,发现神经管缺陷的发生具有明显的季节性,表现为1~3月份出生的孩子的发生率比较高。今欲调查其原因,应采取什么调查方法?请做出完整的调查设计并制定出调查表。

5、欲了解某市乙型病毒性肝炎患病情况及其影响因素,请做一个调查设计。

6、现拟在大学生中进行一项吸烟习惯调查,请你考虑调查问卷应包括哪些项目,并设计出调查问卷。

第四章统计描述

案例4-1表4-24是某研究者在一项回顾性调查中收集的部分资料,其目的是研究抗生素的使用效果。

表4-24 某医院内、外科25例住院病人使用抗生素的情况

1 2 30 37.2 8 2 2 1 5

2 2 7

3 36.7 5 2 1 1 10

3 2 40 37.2 12 2 2 2 6

4 2 47 36.8 4 2 2 2 11

5 2 25 36.9 11 2 2 2 5

6 1 82 36.0 6 1 2 2 14

7 1 60 37.5 8 1 1 1 30

8 2 56 37.0 7 2 2 1 11

9 2 43 36.7 7 2 2 1 17

10 1 50 36.7 12 2 1 2 3

11 2 59 36.4 7 2 1 1 9

12 1 4 36.6 3 2 2 2 3

13 2 22 37.5 11 1 2 2 8

14 2 33 36.9 14 1 1 2 8

15 2 20 36.9 11 2 1 2 5

16 1 32 37.2 9 2 2 2 5

17 1 36 37.3 6 1 2 2 7

18 1 69 36.7 6 2 2 2 4

19 1 47 36.1 5 1 2 1 3

20 1 22 36.8 6 2 2 2 7

21 1 11 36.8 10 2 2 2 9

22 2 19 37.0 14 1 2 2 11

23 2 67 36.4 4 2 2 1 11

24 2 43 37.0 5 2 2 2 9

25 2 41 36.7 5 2 2 1 4

注:性别:1=男,2=女;抗生素使用:1=是,2=否;细菌培养:1=是,2=否;

所在科室:1=内科,2=外科。

试分析:

⑴构造性别的频数分布表,并绘制性别的频数分布条图;

⑵以20岁为组距,构造年龄的频数分布表,并绘制年龄的频数分布直方图;

⑶以5天为组距,构造住院时间的频数分布表,并绘制住院时间的频数分布直方图,观察其分布特征;

⑷计算住院时间的算术均数、几何均数、中位数;

⑸计算住院时间的最大值、最小值、四分位数与四分位数间距;

⑹计算住院时间的全距、方差、标准差和变异系数;

⑺构造内、外科使用抗生素情况的统计表、条图和圆图;

⑻构造内、外科采用细菌培养情况的统计表、条图和圆图;

⑼构造内、外科使用抗生素和采用细菌培养情况的统计表、条图和圆图;

⑽绘制箱图,比较用与不用抗生素的住院患者住院天数的差异;

⑾以住院天数为纵坐标,以年龄为横坐标,绘制散点图;

小结

1、计量资料的统计描述,主要了解数据的分布范围、集中位置以及分布形态等特征。大样本数据,需要编制频数分布表,通过频数分布表观察数据的分布特征。

2、频数分布表的主要作用是揭示资料的分布特征;描述其集中趋势和离散趋势,有助于发现数据中远离数据群体的离群值。

3、数据的分布形状分为对称分布与偏态分布。偏态又分为右偏态和左偏态。

4、描述计量资料集中趋势的平均指标有:算术均数、几何均数、中位数等。算术均数适合于对称分布资料,几何均数、中位数等。算术均数适合于对称分布资料,几何均数适用于2右偏态和呈现比例递增的资料,中位数适合于任意分布的资料。

5、描述计量资料离散趋势的变异指标有:全距、方差、标准差和变异系数、四分位数间距等。其中标准差是最常用的变异指标,适合于对称资料特别是正态分布资料;四分位数间距适合任意分布资料,尤其适合于大样本偏态分布资料。变异系数主要用于比较几个量纲不同的变量之间的离散程度的差异,也可以用来比较量纲相同但均数相差悬殊的几个变量之间离散程度的差异。

6、描述计数资料基本特征的指标有:比、比例和率。比可以是任意两个数值之比,包括比和比率。当分子是分母的一部分时,称为比例;当比例与观察时限有关时,称为率。比例又分为构成比和频率。而率与时间单位有关,即率有速率和强度的含义,它表示单位时间某事件发生的可能性大小。流行病学研究中常用的两个比是相对危险度和优势比(比数比)。

7、内部构成不同的两个率比较时,应计算标准化率。

8、动态数列用来描述一组按照时间顺序排列起来的统计指标,如绝对数、相对数、平均数等,在时间的变化和发展趋势。

9、医学常用统计指标有:人口统计指标、出生与死亡统计指标、生育统计指标、疾病统计指标、期望寿命等。

10、表达统计结果的数表称为统计表。统计表由标题、标目、线条、数字4部分组成,必要时增加注释。

11、常用统计图有:条图、百分条图、园图、线图、半对数线图、箱图、散点图等,这些统计图所适用的数据类型,绘图目的和有关说明列在表4-25中。

第五章概率分布

案例5-1一般人群先天性心脏病的发病率为8‰,某研究者为探讨母亲吸烟是否会增大其子女的先天性心脏病发病的危险,对一群20~35岁有吸烟嗜好的孕妇进行了生育考察,在他们生育的320名子女中,经筛查有4人患先天性心脏病。

试讨论:

⑴若以X表示观察中患先天性心脏病的小孩数,X的分布是什么分布?

⑵若按人群先天性心脏病的发病率为8‰,计算320名子女中,至少有4名小孩患先天性心脏病的概率。

⑶这一研究过程是否有可改进的地方?

案例5-2 根据对青少年生长发育大样本的调查资料,计算得7岁男童的身高均数X=119.95cm,标准差=4.72,按身高范围统计结果见表5-4.

表5-4 青少年生长发育调查资料统计结果

(1)试计算所给身高范围的理论人数和百分比。

(2)实际人数和理论人数(百分数)有何不同与联系。

小结

1、随机事件、概率与随机变量是研究随机现象的基本概念。通过随机变量可用 数学手段对随机现象进行更深入的研究,随机变量分为两类,一类是连续型随机变量,另一类是离散型随机变量。

2、二项分布和Poisson 分布是离散型随机变量最为常见的分布类型。在医疗卫生领域,若研究结果只可能是两个对立结果中的一个,例如阳性、阴性,这样的观察独立、重复n 次出现阳性的次数X 服从二项分布。X 取值为0,1,2,…,n ,X=k 的概率按下式计算:

k k k n k n k X P )1()!

(!!

)(π-π-=

=

其中π为每次试验出现阳性的概率,且

∑===n

k k X P 0

1)(。

Poisson 分布主要用于描述在单位时间、面积、空间上某事件的发生数。医学和卫生领域中有些指标例如:单位时间接收到放射性物质的放射线数、某单位容积中的细菌数、野外单位空间的某种昆虫数等。服从Poisson 分布随机变量X 取值为非负整数0,1,…,其相应概率为

λ

-λ==e k k X P k !

)( 当n 大,π小时,二项分布近似Poisson 分布。此时计算而项分布概率的工作量很大,可用Poisson 分布公式作近似计算。

3、 正态分布是连续随机变量最重要的而基本的分布。其重要性体现在: (1)正态分布具有优良的性质和规律。

(2)在解决实际问题时,许多研究指标服从(或近似服从)正态分布。

(3)理论上,正态分布是许多统计方法的理论基础,一方面许多统计方法是在正态分布的基础上建立起来的;另一方面许多统计方法在一定条件下,有正态近似的方法。

4、 随机现象的规律只有在 大量重复观察的 情况下才能够出现,对随机现象的研究答多是

采用抽样研究的方法。3个基于正态分布的抽样分布入2

χ分布、t 分布、F 分布是统计推断的基础,具有重要的理论价值。

第六章 参数估计

案例6-1 某地随机抽样调查了部分健康成人的血红蛋白含量(g/L ),结果见表6-16.

性别 例数 均数 标准差 标准值 男 360 134.5 7.1 140.2 女 255 117.6 10.2 124.7

*《实用内科学》(1976年)所载均数(转为法定单位)

(1)有人认为该地男女性血红蛋白含量均低于上表的标准值(若测定方法相同)且男性血红蛋白含量低于女性,你是否同意该结论?

(2)如何估计男女性血红蛋白含量的总体均数和参考值范围,两者有何区别?

小结

1、抽样分布是通过大量重复抽样和计算各样本统计量并作样本统计量的频数分布图来揭示样本统计量的分布规律。从同一总体反复抽取若干样本,各样本统计量之间及与总体参数之间存在差异,此差异称为抽样误差。由于总体中个体变异的客观存在,抽样误差不可避免。

2、标准误是反映抽样误差大小的指标。均数标准误的理论值是n X /σ=σ,样本估计值为

n S S X /=;率的标准误理论值为n p /)1(π-π=σ,样本估计值为n p p S p /)1(-=

。注意均数标准误与原变量的标准差之间的区别,不能混淆其含义。

3、参数估计是指用样本统计量推断总体参数。有点估计和区间估计两种方法。

第七章 假设检验

案例7-1 某医院检验科测定了30-40岁不同职业、不同性别人群的血清甘油三脂含量(见表7-2)。试分析比较工人和干部,男女的该项血脂水平有无差异?

表7-2 正常成人按不同职业、性别分类的血清甘油三脂含量

人数 均数 标准差 工人 112 1.20 0.33 干部 106 1.08 0.30 男 116 1.17 0.32 女 102 1.11 0.32

试分析:

1、 用什么方法比较工人和干部、男和女血清甘油三脂含量的差异?

2、 血清甘油三脂含量是常用的高血脂症筛查指标,血清甘油三脂含量升高常见于动脉粥样

硬化、糖尿病、脂肪肝等的病人,男略高于女,参考值范围分别是男:0.45-1.81mmol/L 、女:0.40-1.53 mmol/L 。如何解释男女血清甘油三脂的差异?

3、 如果工人组血清甘油三脂高于干部组,并且有统计学差异,能否说工人职业导致该人群

血清甘油三脂的升高?推论因果关联?

4、本研究工人组的血清甘油三脂平均高于干部组0.12mmol/L,是否有实际意义?

5、本研究工人组的血清甘油三脂高于干部组,男女血清甘油三脂未见有统计学差异,是否

是混杂因素影响?在比较均数之间差别时,如何根据现有资料分组计算均数,最大限度地减少性别对工人组和干部组血清甘油三脂的影响?

小结

1、假设检验采用的是反证法思想,根据“小概率事件在一次试验中不可能发生”原理,用一次试验(观察)结果发生的概率决定是否拒绝原假设。假设检验的常用方法有u、t、F、χ2检验与秩和检验。

2、假设检验的三个步骤:①建立检验假设:H0、H1,确定检验水准α。②计算检验统计量;③确定P值并作出推断结论。

σ并且样本量比较大时,推断样本所代表的未知总体均数μ与已知总体均3、已知总体方差2

σ并且两组的样本量n1和n2比较大时,数μ0是否有差别,可采用Z检验。已知总体方差2

X-推断两总体均数之差是否为零,可采用两均数比较的Z检验。

用2

1X

4、大样本率的Z检验,要求n比较大,对统计量要求可简单概括为:①如果样本率p介于0.1-0.9之间,每组例数大于60例;②如果样本率p介于0.1-0.9之外,np或n(1-p)的最小值大于5。

5、假设检验的两类错误:当H0为真时,由于抽样的偶然性而得到P≤α的检验结果,假设检验结论拒绝H0,接受了H1,称为第一类错误或Ⅰ类错误,犯一类错误的概率记为α。当真实情况不成立而H1成立时,得到P>α的检验结果,拒绝H1,接受了H0。这类错误称为第二类错误或Ⅱ类错误,其概率大小用β表示。

6、单侧检验与双侧检验:单侧检验不仅关心差别,同时关心差别的方向,备择假设为H1:μ1<μ2或H1:μ1>μ2。双侧检验只关心差别,不关心差别的方向,备择假设为H1:μ1≠μ2。两个均数或两个率的比较一般用双侧检验。采用单侧检验应该在研究设计阶段作出规定,不应当在计算出统计量后再主观决定。

7、假设检验在拒绝H0的时候可以下“有差别”的结论,在不拒绝H0的时候不能下“无差别”的结论。假设检验的的P值大小只能够说明统计学意义的“显著”,不一定有实际意义。对假设检验结果的实际意义或临床意义的判定,一定要结合专业知识。

8、检验效能1-β表示H1为真,假设检验结果拒绝H0,接受H1的概率。检验效能越高,通过样本发现总体差别的把握越大。影响检验效能的4个因素分别是总体参数的差异|δ|、个体差异的总体标准差ζ,样本量n和检验水准α。

9、在同一个研究中多次重复检验,即使总体参数没有差别,重复检验100次,平均有5次是假阳性错误,或重复检验20次,平均有一次是假阳性错误。因此,在试验设计时就应该确定主要分析指标,不能事后通过大量重复检验寻找阳性指标。

10、要使假设检验的P值成为因果联系的证据,前提是要求研究设计符合“重复、对照、随机化”的3个实验设计基本原则,并且是前瞻性的研究,即试验对象随机分组后再施加干预。

第九章多个样本均数比较的方差分析

案例9-1某篇论文,研究4组病人某基因表达率的差异,结果见表9-16。

表9-16 4组病人某基因的表达率比较

X t P

组别n S

喉癌19 23.0±8.7 5.38 <0.01

喉息肉18 16.0±10.2 6.24 <0.01

转移癌15 9.0±4.7 2.20 >0.05

对照组22 7.0±5.0

问:(1)该资料分析是否恰当?理由是哪几方面?

(2)若该资料交给你统计分析,你的分析计划怎样?

案例9-2某医生A,B,C3种营养素喂养小白鼠,用6窝小白鼠,每窝3只,随机安排喂养这3种营养素中的一种;6周后观察小白鼠增加体重情况(g),得表9-17的资料:

表9-17 3种营养素喂养小白鼠所增加体重

窝别A B C均数

1 50 57 69 58.7

2 48 59 66 57.5

3 55 61 67 61.0

4 66 54 76 65.2

5 7

6 81 83 80.1

6 3

7 46 6

8 50.2

7 63 50 54 55.7

8 45 43 48 45.3

均数55.1 56.2 66.4 59.2

经过随机区组设计的方差分析得3种营养素间的F=6.319,P=0.011;窝别的F=6.670,P=0.001。认为营养素及窝别间两个因素均可影响增加体重,但营养素的作用不如窝别因素大。窝别常反映遗传因素,证明遗传因素对增加体重影响明显。

问:(1)所用统计方法是否正确,为什么?

(2)作者结论是否正确,表现在什么方面?

小结

1、方差分析常用于3个或3个以上均数的比较,当用于两个均数的比较时,同一资料所得

结果与t检验等价,即有如下关系:t2=F。

2、方差分析的基础是分解变异,统计量是两个均方之比。完全随机设计方差分析的基本

思想是:在多个总体均数相等的假设条件下,样本总变异及自由度可分解为处理和组内两部分,由此估计出处理均方和组内均方,前者反映处理作用及随机误差,后者仅为随机误差;进一步将处理均方与组内均方之比值构成F统计量,查F检验界值表便可确定界值,最后做出是否拒绝检验假设的抉择。

3、方差分析由多种设计类型,但基本思想和计算方法是一样的,只是因素的个数不同。

4、均数的多重比较方法有多种,应用时应事先决定采用那一种方法。

5、方差分析的前提条件是正态性和方差齐性,可通过假设检验来判断,但通常情况下

样本比较小,由专业知识判断显的很重要。

6、 如果数据不满足方差分析的条件,可考虑采用数据转换的方法改善数据,或者采用非参

数检验。

第十章

2χ检验

案例10-1 某研究者欲比较甲、乙两城市空气质量状况,在甲、乙两城市个测定300个采样点,得表10-17数据,试比较两城市空气质量有无差别。

表10-17 甲、乙两城市空气质量状况比较

检验步骤:

(1) 建立检验假设,确定检验水准 H 0:甲乙两城市空气质量无差别 H 1:甲乙两城市空气质量有差别 α=0.05

(2) 计算检验统计量

84.131113006 (161)

300673473001936002222

=???? ??-?++?+??=χ (3)确定P 值,作出推断结论

查2

χ界值表,24,05.0χ=9.49,24,01.0χ=13.28,2

4,01.02χ>χ,P<0.01。按α=0.05的检验水准,拒绝H0,接受H1,可认为甲乙两城市空气质量有差别。

请讨论如下问题:

(1) 该资料结论是否正确? (2) 你认为应该如何分析资料?

小结

1、 使用卡方检验要注意理论频数T 不能够太小,样本要求各格子理论频数不小于1,并且

T<5的格子数不宜多于总格子数的五分之一,如果理论频数太小,最好的办法是增加观察例数以增大理论频数,或考虑使用确切概率法。

2、 完全随机设计的两个理论频数分布是互相独立的,而配对设计的两个频数分布却不是互

相独立的。设计方法不同,资料性质不同,分析方法也不同。

3、 对反映两个属性的分类变量,若有一份随机样本,可作交叉分类的频数表,利用关于独

立性的卡方检验和列联系数来描述关联性。关联性分析卡方检验所用公式与两个或多 个频数分布比较的卡方检验所 用公式是一样的,但它的设计和意义有根本区别,作关联性分析的资料是一份随机样本,同时按两种属性分类,而两个或多个频数分布是两分份或多份样本,谈不上关联性问题。

4、 列联系数可以描述两个分类变量之间在数量上的联系,但数量上的联系并不一定意味着

因果关系。

第十一章 非参数检验-基于秩次的假设检验方法

案例11-1 某医生为评价甲乙两种药物对皮肤廯菌的杀菌作用,以咪康唑散为对照药物,将315例浅部真菌病患者随机分为甲乙两治疗组和对照组,分别为104例、105例和106例。治疗三周之后,结果见表11-9,试比较甲乙两药物治疗浅部真菌的疗效如何?

表11-1 某药物治疗某病的疗效

疗效 甲组 乙组 对照组 合计

痊愈 56 40 38 134 显效 36 50 56 142 好转 10 12 11 33 无效 2 3 1 6 合计 104 105 106 315

对于该资料,研究者进行了列联表卡方检验:

???

? ??-=χ∑12

2

c r n n A n =9.997,df=6,P<0.125,考虑到理论数小于5的格子数太多,用 Fisher

精确概率法得P=0.107,在α=0.05的检验水准上,不能够认为甲乙两药与对照组的疗效不同。

请讨论:

(1) 该资料的分析方法是否合适?为什么? (2) 应该如何分析资料?

小结

1、 注意非参数方法不涉及特定的总体分布,又称为任意分布检验或称为分布无关检验,是

因为其推断方法与总体分布无关,不应理解为与所有分布(例如有关秩的分布)无关。 2、 秩和检验的应用范围很广① 样本所代表的总体分布不容易确定;②分布呈现非正态而

又五适当的数据转换,或者无法进行数据转换;③ 等级资料,均可采用非参数检验。 3、 非参数检验方法内容丰富,尚又许多检验方法,可参考有关文献。

第十二章 简单线性回归

案例12-1 某地卫生防疫站根据10年乙脑发病率(1/10万,预报量Y ),与相应前一年7月份日照时间(小时,预报因子X )建立回归方程,将乙脑发病率作平方根反正弦变换,即:

Y

Y 1sin -=',计算得回归方程为:

X Y 0068

.0197.1?+-='。,0233.0.='X Y S 43.237=X ,5690=xx l ,n=10。1990年7月份日照时间X0=260小时。

试估计该地1991年的乙脑发病率?(设α=0.05)。

解得:='

0Y S 0.02330243.05690

)43.237260(10112

=-+

+ 按α=0.05,df=10-2=8,查t 界值表,得8,2/05.0t =2.306,又0

?Y '=-1.97+0.0068×260=0.571,按公式计算得95%的容许区间为 :

(0.571-2.306×0.0243,0.571+2.306×0.0243)=(0.5150,0.6270)

取原函数得,Y=(sin Y ')2,得95%容许区间为(0.0000808,0.0001197)。故可预测该地1991年乙脑发病率又95%可能在:0.08~11.97/10万之间。

利用回归方程进行控制,是利用回归方程进行逆估计,例如要求应变量Y 在一定范围内波动,可以通过自变量X 的取值来实现。这是回归应用的另乙方面。

案例12-2 根据某缺碘地区10例产妇在妊娠15-17周时母血TSH 水平(X ),与足月分娩时

新生儿脐血TSH 水平(Y )数据建立的直线回归方程为Y ?=2.993+0.9973X.,X

Y S .=0.3285若新生儿脐带血TSH 水平超过5mU/L ,可认为新生儿缺乏碘,应该对妊娠产妇采取补碘干预措施,问母血TSH 水平应该控制在什么水平可使得新生儿脐带血TSH 水平不超过5mU/L ?(设α=0.05)。 在扣除X 对Y 的影响之后,Y 本身对回归直线的离散程度为df t ,2/α(双侧)或df t ,α(单侧),本例自由度df=10-2=8,查t 界值表,单侧8,05.0t =1.860,单侧95%上限为:

X X S Y Y X

Y 9973.06053.33285.0860.19973.09943.286.1??.1+=?++=+=。 当1

?Y =5时,解得X=1.3985mU/L ,即只有将母血TSH 水平控制在1.3985mU/L 水平以上,才有95%的可能使得新生儿脐带血TSH 水平不超过5mU/L 。

小结

1、简单线性回归分析时研究两个变量之间线性关系的数量表示,例如身高与体重、血糖与

胰岛素之间关系。回归方程为bx a Y

+=?,可根据最小二乘法计算,最小二乘法使得实际应变量i Y 与回归方程预测值i

Y ?之差的平方和达到最小。 2、进行简单线性回归分析需要满足线性(linear )、独立(indenpdence )、正态(normal )与

等方差(equal variance )4个条件。通过绘制残差图可简单直接地评价是否满足这4个条件。 3、在进行简单线性回归分析前,一般先绘制散点图,以判断其是否存在线性关系。若干不 存在 线性关系,仅当对X 进行变换之后,如果呈现线性关系,可进行回归分析;如果需要对Y 进行线性变换后才满足线性,则需要进行非线性回归分析。

第十三章 线性相关

案例13-1 某医生对某感冒患者进行连续观察60小时,每6小时观察测量该患者的体温和呼吸次数,资料见表13-3。

观察序号 1 2 3 4 5 6 7 8 9 10 体温(℃)39.8 40.2 39.6 38.8 38.3 38.1 38.2 38.0 37.8 37.5 呼吸次数(次/分钟)28 29 26 25 24 24 21 22 20 21

该医生对上述资料进行双变量正态性检验,α=0.2,正态性检验的P值大于0.2,不能拒绝资料服从正态分布,计算Pearson相关系数得r=0.9373,相应的P=0.0001,相关系数ρ的95%的可信区间为(0.7507,0.9854)。因此该医生判断:体温与呼吸次数呈现线性相关。

请问:你对该医生作上述相关分析和所下结论有何异议?

案例13-2 某研究者欲研究年龄与地方甲状腺肿患者之间的关系,将219例资料整理乘表13-4,问:年龄与地方甲状腺肿患者之间是否存在某种相关性?

表13-2 年龄与地方甲状腺肿患者疗效的关系

年龄(岁)(X)

疗效(Y)

合计痊愈显效好转无效

<30 67 9 10 5 91

30~17 13 12 2 44

40~15 10 8 2 35

≥10 11 23 5 49

合计109 43 53 14 219

小结

1、相关系数ρ>0表示正相关,ρ=0表示不相关,ρ<0表示负相关。

2、相关系数的大小与样本量有关,不能够仅凭相关系数大小判断两变量是否存在相

关,而应该根据假设检验的结果做出判断。

3、作Pearson相关或Spearman相关,都要求观察单位之间是独立的。

4、Pearson相关系数为线性相关系数,要求变量X和Y服从双变量正态分布,并且在

作相关分析时,一般先作散点图,考察是否存在直线相关。

5、若变量X和Y服从双变量正态分布,则t r=t b,两个检验等价。

6、若干变量X和Y不服从双变量正态分布,可用Spearson等级相关进行分析。

7、若变量X和Y均为多分类有序资料,可以采用Spearson秩相关进行相关分析。

8、两变量之间相关性并不表示一个变量的改变是由于另外一个变量所引起的,也可能

是受第三变量影响而出生的伴随现象,所以相关分析只是刻画了一种伴随现象,因此在作相关分析时,还应该考虑两变量相关是否具有实际意义。

9、由于通常的相关系数无效假设H0:ρ=0,但P<α时,是判断ρ≠0。仅能说明两

个变量之间存在相关关系,但相关关系的强弱应该根据相关系数大小确定,与P的大小无关。

第十四章临床测量误差评价与诊断试验

案例14-1某研究者比较3种尿干化学分析仪进行平行测定结果的符合程度,同时观察不同仪器在阳性标本检出率方面是否存在显著性差异。采用3种不同厂家不同型号的尿

干化学分析仪及配套试纸条对60例门诊和病房送检的新鲜阳性尿液标本(葡萄糖GLU、蛋白PRO、隐血BLD、白细胞LEU这四种至少有1项试阳性)进行平行检测,并对检

χ值,同时将每验结果进行比较,统计4处理将各项指标分别计算阳性检出率并计算2

一例标本各项检测结果进行两两比较,计算出完全符合率P1和一般符合率P2(即两种检出结果不超过一各等级的比率),然后用Kappa检验值评价两种尿干分析仪测定结果之间的符合程度。分析结果列在表14-1和14-2中。根据研究结果,作者认为3种尿干分析仪测定结果的符合率都在80%以上,各检测项目的Kappa值>0.4,3台仪器葡萄糖(GLU),、蛋白(PRO)、白细胞(LEU)3项检测没有显著性差别。

最后的结论:由于仪器本身的灵敏度、试纸条所规定的量级和检测原理以及稳定性的差异,造成部分项目的检出率和检测结果不完全一致,但是这三种仪器在尿液检查主要项目(GLU,PRO,LEU)的检出率和检出结果方面的一致性还是良好的,完全能够满足临床医生对病人诊断、观察的需要。试分析下列问题:

(1)你是否认同作者的数据分析方法和所做出的结论?

(2)你认为应如何做这一试验和进行数据分析?

表14-1 3种仪器的阳性检出率

项目GLU PRO BLD LEU

中国FA 16.7 63.3 81.7 33.3

日本US 16.7 58.3 78.3 31.7

匈牙利DO 18.3 48.3 51.7 28.3

2

χ值0.078 2.85 15.6 0.363

P值>0.05 >0.05 <0.005 >0.05

表14-2 不同仪器测定结果的符合率及检验的一致性

检查

中国FA与日本US 中国FA与匈牙利DO 日本US与匈牙利DO

指标

小结

1、临床测量结果中可能含有多个误差成分,它主要包括生物变异、随机测量误差和系统误差。正确认识不同误差的性质和来源,有助于医生临床诊断和对临床试验做出客观的评价。临床测量误差评估方法有多种,常用方法有方差分量法和SN比值法,对定性资料给出Kpaap 一致性评价方法。

2、方差分量法的基本思想是:将试验结果的变异分解为受试者个体变异和重复测量误差的等方差分量,比较不同方差分量的比值,如果重复测量误差的方差分量在总变异中所占比例小,则说明测量的可信度高;同时可以对重复测量的误差范围进行估计。

3、S/N比值是指测量信号与影响测量信号识别的噪声的比值,用于已知真值的条件下对测量误差进行度量。基本方法是:根据标准样品和实测值利用直线回归分析方法进行校正,然

后根据回归系数和方差分析中误差均方估计出SNR值及测量误差范围。

4、Kappa值是评价临床定性测量结果的一致度和信度的一种重要指标,常常用于评价不同医生对同一患者的判断结果,或者同一医生先后两次判断结果是否一致。Kappa值低。说明临床测定结果的一致性差,试验结果缺乏信度,分析结果不可靠。

5、评价诊断试验最基本的指标是灵敏度(Se)和特异度(Sp)。灵敏度为实际患病检测结果正确判为有病的概率,1-Se是假阴性率;特异度是实际未患病且检测结果正确判为没病的概率,1-Sp是假阳性率。此外,Youden指数综合了灵敏度和特异度两个指标的值,预测值除与灵敏度和特异度有关外,还与检测人群的患病率有关。

6、ROC曲线称为接收者工作特性曲线,它是以1-Sp为横坐标,Se为纵坐标按照连续变化的诊断阈值,由不同灵敏度和特异度绘制的曲线。ROC曲线绘制可以采用原始数据分组和利用模型拟合两种不同的方法。

7、使用ROC分析是对诊断试验数据进行分析与评价,其优点是评价结果比较客观和一致,它适合定量和等级资料分析。ROC分析的结果主要包括ROC曲线的图形和综合评价统计两

量A?。前者可以直观描述诊断效果及灵敏度特异度之间的变化关系,后者可理解为在所有特异度下的平均灵敏度,也可以理解为患病组测量值高于非患病组测量值的概率。

8、计算ROC曲线下面积,可以采用双正态参数法和Hanley-McNeil非参数法。前者适用于定量资料的分析,后者适合等级资料分析。ROC曲线下面积比较,有成组设计和同源配对设计两种不同的数据分析方法,前者计算简单,后者可以采用Delong给出的非参数计算方法。

第十五章研究设计方法

案例15-1《利多卡因手控定量雾化吸入治疗激素抵抗型哮喘的研究》(临床内科杂志2004年6月第21卷第6期415页)目的是观察手控定量雾化吸入利多卡因治疗激素抵抗型(SR)哮喘的疗效。受试者吸入利多卡因3个月,观察临床疗效和口服激素减停剂量的情况。

原文没有设立平行对照,而采用单盲、自身前后对照。15例患者治疗3个月后,咳嗽、喘息症状改善(P<0.001),肺部哮鸣音明显减少(P<0.001),外周血、痰中EOS数目减少(P <0.02),FEV1%明显提高(P<0.01),无一例出现严重的毒副作用。因而,原文认为:利多卡因入治疗激素抵抗型哮喘安全有效,可以提高FEVI的水平,并能成功地减少口服激素。

案例15-4多糖是冬虫夏草的主要活性成分之一,具有抗肿瘤、增强机体免疫力和降低血糖等多方面的药理作用。虫草多糖的提取过程是:取100克虫草菌粉,加水若干,浸泡1小时,加热至微沸,维持一段时间,冷却,离心,残渣重复提取。为进一步确定虫草多糖的最佳提取工艺,拟考虑3个主要因素,A:加水量,B:煎煮时间,C:煎煮次数。每个因素个2考虑3个水平。加水量考虑分别为原药量的8、10、12倍;煎煮时间分别考虑微0.5、1和1.5小时;煎煮次数分别考虑1、2、3次。请讨论:

(1)单独考虑一个因素时,采用何种设计方法?

(2)同时考虑三个因素时,不考虑交互作用,采用何种设计?

(3)同时考虑三个因素时,考虑所有的交互作用,采用何种设计?

(4)同时考虑三个因素时,只是考虑一级交互作用,采用何种设计?

小结

1、常用的单因素设计方法有完全随机设计,完全随机区组设计、拉丁方设计、交叉设计。完全随机设计是将研究对象按完全随机分组的方法进行分组,通过各组间的比较找出处理因素各水平间的差异。完全随机设计是将研究对象按区组分层进行随机分组的方法,控制了一

个已知来源的的变异,从而提高设计效率。拉丁方是3因素(不考虑交互作用)的设计方法,要求各因素水平数相同;可以安排两个区组因素一个处理因素的实验,达到控制两个已知来源的变异的目的,也是提高设计效率的方法之一。交叉设计是将自身对照和成组对照结合起来的一种设计方法,常常用于临床上尚无特殊治疗而病情缓慢的慢性病患者的对症治疗,不适用有自愈倾向,或病程短的疾病治疗研究。

2、常用的多因素设计有析因设计和正交设计。析因设计是多因素各水平组合的完全随机设计,可以分析处理因素的主效应和处理因素间的交互作用。正交设计是多因素各水平组合的完全设计或部分组合的平衡不完全设计,主要用于试验方案的优选。

3、临床试验和临床治疗不同,需要按照统一的临床试验方案进行。临床试验中除了要遵循对照、随机、重复的原则,还要符合伦理,并且尽可能地进行盲法试验,以避免主观偏性的影响。新药或新医疗器械的临床试验需要按照药品临床试验规范(GDP)及相应的知道原则进行。

4、观察性研究包括横断面调查,回顾性病例-对照研究和前瞻性队列研究。横断面研究主要用于了解当前人群中的有关健康、疾病状况,得到患病率,为进一步研究提供基础资料。病例-对照研究通过回顾性调查过去某段时间内各种可能的危险因素的暴露史,测量并比较病例组和对照组各因素的暴露史之差异,判断研究因素与疾病存在的统计学联系程度,得到OR值。队列研究通过对研究对象随访观察,比较暴露组与非暴露组在观察期内某疾病的发生率,判断研究因素与疾病间存在的统计学联系及联系程度,从而进一步推断暴露因素与疾病的联系,得到RR值。

第十六章样本量的估算

案例16-1新药临床试验研究是典型的实验研究,在复方甘露醇注射液、甘露醇注射液治疗颅内高压症有效性和安全性的随机、双盲多中心试验研究中,按《新药审批办法》中对各类新药的各期临床试验规定,确定每组个100例,考虑不合格病例的淘汰,每组几乎撒完成120例,请回答下面问题:

(1)《新药审批办法》规定的样本量是如何确定的?

(2)在新药临床试验中是否不需要对样本量进行估算?

(3)新药临床试验研究中如何确定样本量?

案例16-2 在胸腔积液良恶性(癌性与结核性胸腔积液)鉴别诊断研究中,发现胸水中的乳酸脱氢酶和溶菌酶有比较好的鉴别诊断意义。现需要制定结核性这两酶的正常值范围,考虑这两种酶的发布不服从正态发布,确定研究对象为120例。请讨论下列问题:

(1)医学参考值范围制定是否属于总体参数估计的抽样研究?

(2)这种规定的统计学依据是什么?怎样确定样本量?

(3)在医学参考值范围研究中,是否样本量不得少于100例?100多例是否就足够了?

小结

1、样本量估算是依据统计方法在保证研究一定可靠性前提下确定的最少样本观察单位数,

实际研究应结合研究推论的总体、研究中对象的失效和人力、物力和财力综合考虑。足够的样本量能够保证研究中误差的估计,减少抽样误差,发现事物应有的差别。同时,也是保证组间均衡性的基础。

2、样本量估算的影响因素是容许误差δ、第一类错误α、第二类错误β、总体标准差ζ和

单双侧检验以及研究设计类型。

3、样本量估算的方法很多,可以用公式估计,也可以用查表法。应根据研究设计实验或

调查设计)类型、效应指标(观察指标)类型和研究目的选用相应的估算方法。

4、率的估计和假设检验的样本容量估算。常见有以总体率估计为目的的单纯随机抽样调

查、单个总体率的假设检验、两个总体率与多个总体率的检验的完全随机设计以及总体率检验的配对设计时的样本含量估算公式和相应的查表方法。

5、在均数估计和假设检验的样本量估算中,常见的有以总体均数估计为目的的单纯随机抽

样调查、单个总体均数的假设检验或均数的配对设计、两总体和多总体比较的完全随机设计、多个总体均数检验的配伍组设计、实验效应指标为计量资料的重复测量研究设计和直线相关与回归分析中的样本量估算公式和相应的查表法。

6、系统抽样可按照单纯随机抽样的估算公式进行估计,有限总体时需要进行调整;分层随

机抽样在无限总体时可对各层参数估计值进行加权后按照单纯随机抽样的估算公式进行估计,有限总体时有专门估计公式,总样本量估计后需要按照比例或最优分配方法分到各层;整群抽样是按照单纯随机抽样检查样本量再乘以整群抽样的设计效率进行样本量估算。

7、病例-对照研究设计和队列研究设计中的OR和RR在单因素条件下的估计和假设检验时的样本容量估计参考有关章节。生存分析中以指数分布为基础,针对有无截尾数据两种情况给出了生存率估计和假设检验时样本量的估算的公式;并介绍了作L og-rank检验时样本量的估算公式。

第十七章多因素实验的方差分析

案例17-1某研究探讨锌对热应激大鼠β内啡肽的影响,取锌饲料和热暴露时间两个因素,其中饲料中的锌含量有高中低三个水平;热暴露时间有:无人暴露(对照组)、暴露组5分钟、30分钟、60分钟4个水平。研究对象为SD雄性大鼠72只,每种组合6只大鼠,文中给出的实验结果见表17-1,结论概括为:“大鼠血浆中β-内啡肽含量的变化趋势是一致的,受热5分钟后即上升,至30分钟时继续升高,至60分钟时有所下降,单含量仍然比5分钟时高,饲料锌水平对热暴露大鼠β-内啡肽含量的影响:无论哪一个时间点上,高锌、中锌组含量均比低锌高,统计学有显著性差异”。

表17-1 锌和热暴露对大鼠血浆β-内啡肽含量(pg.mg-1)的影响(S

X )

组别对照组5min 30min 60min

高锌组60.82±6.22 60.14±6.76 90.48±6.98 83.20±5.79

中锌组57.13±6.13 65.41±6.55 83.20±7.11 82.28±6.35

低锌组28.04±5.28 43.76±4.62 49.14±6.02 57.13±4.81

案例分析:此研究采用的时3×4*6的析因设计,但所用方法仅仅时单独效应的方差分析,而没有通过析因分析来分析主效应和交互效应。如果能够给出主效应和交互效应的分析并配合轮廓图,会使研究结论更丰富和全面一些。本案例在公开发表的文献中具有一定代表性。

小结

1、所有方差分析的计算可依据离均差平方和分解实现。

2、析因分析可分析各因素的主效应,因素间的的交互效应以及因素的单独效应。交互

效应分析有助于最佳因素组合方案的筛选,交互效应轮廓图可以直观显示因素间的

主效应和交互效应。

3、析因设计最好选用平衡设计,因为效率比较高,但啡平衡设计也是可行的。析因设

计的因素不宜安排太多,比如最好不要超过4个。

4、二阶段交叉设计主要有所需样本量比较少和可以减少随机误差量大优点,缺点是后

效应相同或无后效应的要求限制应用。故不适用于急性病研究和有明显后效应的药物研究。

5、正交设计适于因素和水平数比较多时机型最佳因素和水平组合筛选的研究。

第十九章重复测量设计资料的方差分析

案例19-1 观察10名慢性乙型肝炎患者治疗前,治疗12周,治疗24周、36周4个时间点上谷丙转氨酶(ALT)水平的变化趋势,见下表19-3。

表19-3 A药品治疗慢性乙型肝炎不同时间谷丙转氨酶(ALT)水平(U/L)

试回答问题:

(1)写出方差分析的检验假设和备择假设

(2)对上述数据进行随机区组设计的方差分析,结论如何?采用随机区组设计妥当吗?

(3)对上述数据进行重复测量设计的方差分析,结论如何?采用重复测量设计妥当吗?s

(4)如果两种方法结论不同,试解释其原因。

案例19-2 为研究国产某药品与同类型进口药品对慢性乙肝患者谷丙转氨酶(ALT)水平的影响,将20名慢性乙肝患者随机等分为两组,一组服用国产药品作为试验组,另外一组服用进口药品作为对照组。对每一患者在治疗前、治疗后12周、24周、36周重复4次测量ALT水平,试验结果如下。

试讨论:

(1)该研究类型?

(2)每个患者的疗效变化用什么数据表示?

(3)适用什么统计量说明疗效的差别?

(4)慢性乙型肝炎患者的ALT水平受哪些因素影响?

(5)用什么统计方法推论两药物的治疗效果?结论如何?

表19-13 两种药品治疗慢性乙型肝炎不同时间谷丙转氨酶(ALT )水平(U/L )

小结

1、 前后测量设计不同于配对设计,配对设计可以同期观察实验结果,可以比较处理组之

间的差别。前后测量设计不能同期观察试验结果,例如考察减肥药的服用效果,本质上比较的是前后差别,推论处理是否有效是有条件的,即假定测量时间对观测结果没有影响。配对t 检验要求同一对子的两个实验单位的观察结果分别与差值互相独立,并且差值服从正态发布。而前后测量设计两次观察结果通常与差值不独立,常常不服从正态发布,大多数情况第一次观察结果与第二次观察结果差值负相关关系,即相关系数为负值。配对设计和前后设计都可以使用平均差值推论处理的作用,前后设计还可以进行相关分析,建立直线回归方程 2、 当前后测量设计的重复测量次数t ≥3时,此时称为重复测量设计数据或重复测量数据

当重复测量数据满足“球对称”(Huynh-Feldt 简称H-F 条件)假设时,可用随机区组方差分析比较处理组间差异。如果不满足“球对称”假设,需要对方差分析表的F 值进行校正。校正的方法是用“球对称”系数ε(Eplison )乘以处理间效应F 界值的自

由度df1和df2,得到df1ε和df2ε,应用εεα2,1,df df F 作为检验界值。“球对称”系数ε(Eplison )估计方法常用的有Green-Geisser ,Huy-Feldt 和Lower-bound3种方法,

参考中医药统计学与软件第235页,SPSS操作部分。

3、如果不考虑单组重复测量数据是否满足“球对称”假设,可采用Hotelling T2检验分析

各时间点的差别有无统计学意义。

4、设立对照组的重复测量数据的方差分析,变异来源可以分解为处理组、测量时间、处、

理组与测量时间的交互作用、受试对象的随机误差以及重复测量误差5个部分。如果处理与时间存在交互作用、说明试验组各时间点的单独效应与对照组各时间点的单独效应的变化趋势不同,应根据对照组与处理组各时间点的变化趋势判定处理效应。5、重复测量数据在医学论文中操作比较多的误用情况,例如重复进行各时间点的t检验,

“平均”生长曲线不能够发现个体曲线变化特征,差值比较通常不满足正态性、方差齐性等假设。

6、协方差分析也是设立对照的前后测量设计可选用的一种分析方法,单必须检验作为反

应变量的测量结果是否满足协方差分析的前提条件,例如:总体斜率相等、正态性、方差齐性等。

第二十章多重线性回归

案例20-1 为了研究糖尿病患者的C反应蛋白Y与年龄X1和体重指数X2的关系,某研究者调查了60名糖尿病患者,测量收集C反应蛋白Y(mg/L)与年龄X1和体重指数X2,结果见表20-15,试分析C反应蛋白Y与年龄X1和体重指数X2的关系。

表20-15 C反应蛋白Y与年龄X1和体重指数X2的资料

Y?-0.063+0.030X1.

(1)建立C反应蛋白Y与年龄X1的回归方程:=

Y?-4.521+0.251X2.

(2)建立C反应蛋白Y与体重指数X2的回归方程: =

Y?-4.320+0.004X1+0233X2

(3)建立C反应蛋白Y与年龄X1和体重指数X2的回归方程:=

(4)分析(1)、(2)、(3)三个回归方程有无统计学意义,并解释X1、X2对Y所起的作用。年龄与Y相关吗?

小结

1、多重线性回归要求预测值与应变量的差值(即残差)服从正态分布,当样本量比较大

时,可忽略正态性的要求;多重线性回归一般要求观察单位之间是独立的,因此传染病资料药谨慎处理。

2、在多重线性回归分析中,名义变量需要数量化;等级变量可根据实际情况选择直接引入

回归模型货数量化后引入回归模型;连续变量直接引入。

3、在多重回归中,不同研究问题要采用不同的回归分析策略,对于寻找最佳预测模型或寻

找主要影响因素,可采用最优子集的方法,例如逐步回归分析就是最优子集的近似,在夏结论时要谨慎。对于实验性研究一般不宜采用逐步回归。特别对干预性研究,一般在模型中保留干预变量,并根据实际研究,引入合适的子变量控制可能的混杂因素。4、逐步回归的结果可以推断某因素与应变量有关联,单不能用逐步回归结果推断某因素与

应变量无关联。

5、逐步回归所提出的自变量只能说明被剔除的自变量与应变量关联性不强,但是被剔除的

自变量还是有可能对应变量与某个因素(研究因素)之间的关联性构成混杂作用,所以在实验性统计分析一般不宜采用逐步回归。

第二十一章协方差分析

案例21-1 表21-8是运动员与大学生的身高与肺活量的数据,考虑到身高与肺活量有关,而一般运动员身高高于大学生,为进一步分析肺活量的差异是由由于体育锻炼所致,必须考虑控制身高变量对分析结果的影响。

表21-8 大学生的身高与肺活量的数据

医学统计学 第一课绪论及基本概念(已整理完毕)

《医学统计学》颜虹主编 Fundamentals of Biostatistics(Bernasrd Rosner)孙尚拱译(2004第五版) SPSS统计分析张文彬主编 一、绪论 【统计学】应用数学的原理和方法,研究数据的搜集、整理与分析的科学,对不确定性数据做出科学的推断。 产生过程:随机现象→随机事件→样本空间→随机变量 现象:确定现象 随机现象:与确定现象相对的不确定现象,在一定的条件下,其有多种可能的结果,而究竟出现哪一种结果事先不可预言的现象。≥2种结果。 特征:随机性、规律性 两种阶段认识随机现象:1.通过观察或实验取得观测资料; 2.通过分析所得资料来认识现象。 注:无论数据分析多么先进,都要以能够代表真实情况的数据为基础。 在偶然的背后发现必然 【随机事件】随机现象的一个结果叫随机事件。 【样本空间】为了便于研究随机试验,我们将随机试验E的所有基本事件所组成的集合叫做样本空间,记为Ω。每一个基本事件为样本点,基本事件也就是集合Ω的元素。 可以把样本空间中的基本事件映射成某个变量的取值,这样就引进了随机变量的概念。 【随机变量】在样本空间中,对不同事件指定有相应概率的数值函数,此函数成为一个随机变量。P (X=x k)=p k,X泛指随机变量 如抛掷硬币: 正反 10→随机事件的选项 X k P 0.50.5→对应概率,所有加起来=1 k 特征:与普通函数相比有两点不同: 1.随机变量随着实验结果不同取不同的值,因此在实验之前只能知道取值的范围,而不能预先知 道取什么值。由于随机试验的各个结果出现有一定的概率,所以随机变量的出现也有一定的概率。 2.普通函数定义在实数轴上,而随机变量是定义在样本空间上,样本空间的元素不一定是实数 二、统计学中的基本概念 1.总体(Population)、样本(Sample) 【总体】根据研究目的确定的、全体同质个体的某个(或某些)变量值。比如:糖尿病的血红蛋白水平、高血压患者的血压 分类:无限总体→新生儿体重 有限总体→一所学校今年新生的身高 【样本】:总体中的一部分,为了保证样本的代表性,在取样时我们要求X1、X2……Xn互相独立,并且与总体X有相同的概率分布。(同分布)如总体为正态分布,则样本应该也几近于正态分布。为母体分布的缩影。 为了保证样本的可靠性与代表性,需要采用随机的方法抽取样本(在总体中每个个体具有非0的

医学统计学案例分析 (1)

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 医学统计学案例分析(1) 案例分析四格表确切概率法【例 1-5】为比较中西药治疗急性心肌梗塞的疗效,某医师将 27 例急性心肌梗塞患者随机分成两组,分别给予中药和西药治疗,结果见表 1-4。 经检验,得连续性校正 2 =3.134,P>0.05,差异无统计学意义,故认为中西药治疗急性心肌梗塞的疗效基本相同。 表 1-4 两种药物治疗急性心肌梗塞的疗效比较药物中药西药合计有效 12(9.33) 6(8.67)无效 2(4.67) 7(4.33)合计 14 13 27 有效率(%) 85.7 46.2 66.7 18 9 【问题 1-5】(1)这是什么资料?(2)该资料属于何种设计方案?(3)该医师统计方法是否正确?为什么?【分析】 (1) 该资料是按中西药的治疗结果(有效、无效)分类的计数资料。 (2) 27 例患者随机分配到中药组和西药组,属于完全随机设计方案。 (3) 患者总例数 n=27<40,该医师用 2 检验是不正确的。 当 n<40 或 T<1时,不宜计算 2 值,需采用四格表确切概率法(exact probabilities in 22 table)直接计算概率案例分析-卡方检验(一)【例 1-1】某医师为比较中药和西药治疗胃炎的疗效,随机抽取 140 例胃炎患者分成中药组和西药组,结果中药组治疗 80 例,有效 64 例,西药组治疗 60例,有效 35 例。 1 / 5

医学统计学试题与答案

医学统计学试题及答案 习题 《医学统计学》第二版(五年制临床医学等本科生用) (一)单项选择题 1.观察单位为研究中的( d )。 A.样本 B. 全部对象 C.影响因素 D. 个体 2.总体是由( c )。 A.个体组成 B. 研究对象组成 C.同质个体组成 D. 研究指标组成 3.抽样的目的是(b )。 A.研究样本统计量 B. 由样本统计量推断总体参数 C.研究典型案例研究误差 D. 研究总体统计量 4.参数是指(b )。 A.参与个体数 B. 总体的统计指标 C.样本的统计指标 D. 样本的总和 5.关于随机抽样,下列那一项说法是正确的( a )。 A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽取个体 D.为确保样本具有更好的代表性,样本量应越大越好 6.各观察值均加(或减)同一数后( b )。 A.均数不变,标准差改变 B.均数改变,标准差不变 C.两者均不变 D.两者均改变 7.比较身高和体重两组数据变异度大小宜采用( a )。 A.变异系数 B.差 C.极差 D.标准差 8.以下指标中(d)可用来描述计量资料的离散程度。 A.算术均数 B.几何均数 C.中位数 D.标准差 9.偏态分布宜用(c)描述其分布的集中趋势。 A.算术均数 B.标准差 C.中位数 D.四分位数间距 10.各观察值同乘以一个不等于0的常数后,(b)不变。 A.算术均数 B.标准差 C.几何均数 D.中位数 11.( a )分布的资料,均数等于中位数。 A.对称 B.左偏态 C.右偏态 D.偏态 12.对数正态分布是一种( c )分布。

《医学统计学》考试试题及答案(三)

《医学统计学》考试试题及答案 (一)单项选择题 3.抽样的目的是(b )。 A.研究样本统计量 B. 由样本统计量推断总体参数 C.研究典型案例研究误差 D. 研究总体统计量 4.参数是指(b )。 A.参与个体数 B. 总体的统计指标 C.样本的统计指标 D. 样本的总和 5.关于随机抽样,下列那一项说法是正确的( a )。 A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽取个体 D.为确保样本具有更好的代表性,样本量应越大越好 6.各观察值均加(或减)同一数后( b )。 A.均数不变,标准差改变 B.均数改变,标准差不变 C.两者均不变 D.两者均改变 7.比较身高和体重两组数据变异度大小宜采用( a )。 A.变异系数 B.差 C.极差 D.标准差 8.以下指标中(d)可用来描述计量资料的离散程度。 A.算术均数 B.几何均数 C.中位数 D.标准差 9.偏态分布宜用(c)描述其分布的集中趋势。 A.算术均数 B.标准差 C.中位数 D.四分位数间距 10.各观察值同乘以一个不等于0的常数后,(b)不变。 A.算术均数 B.标准差 C.几何均数 D.中位数 11.( a )分布的资料,均数等于中位数。 A.对称 B.左偏态 C.右偏态 D.偏态 12.对数正态分布是一种( c )分布。 A.正态 B.近似正态 C.左偏态 D.右偏态 13.最小组段无下限或最大组段无上限的频数分布资料,可用( c )描述其集中趋势。 A.均数 B.标准差 C.中位数 D.四分位数间距 14.( c )小,表示用该样本均数估计总体均数的可靠性大。 A. 变异系数 B.标准差 C. 标准误 D.极差 15.血清学滴度资料最常用来表示其平均水平的指标是( c )。 A. 算术平均数 B.中位数

医学统计学案例分析(1)

案例分析—四格表确切概率法 【例1-5】为比较中西药治疗急性心肌梗塞的疗效,某医师将27例急性心肌梗塞患者随机分成两组,分别给予中药和西药治疗,结果见表1-4。经检验,得连续性校正χ2=3.134,P>0.05,差异无统计学意义,故认为中西药治疗急性心肌梗塞的疗效基本相同。 表1-4 两种药物治疗急性心肌梗塞的疗效比较 药物有效无效合计有效率(%)中药12(9.33)2(4.67)1485.7 西药 6(8.67)7(4.33)1346.2 合计1892766.7【问题1-5】 (1)这是什么资料? (2)该资料属于何种设计方案? (3)该医师统计方法是否正确?为什么? 【分析】 (1) 该资料是按中西药的治疗结果(有效、无效)分类的计数资料。 (2) 27例患者随机分配到中药组和西药组,属于完全随机设计方案。 (3) 患者总例数n=27<40,该医师用χ2检验是不正确的。当n<40或T<1时,不宜计算χ2值,需采用四格表确切概率法(exact probabilities in 2×2 table)直接计算概率 案例分析-卡方检验(一) 【例1-1】某医师为比较中药和西药治疗胃炎的疗效,随机抽取140例胃炎患者分成中药组和西药组,结果中药组治疗80例,有效64例,西药组治疗60例,有效35例。该医师采用成组t检验(有效=1,无效=0)进行假设检验,结果t=2.848,P=0.005,差异有统计学意义检验(有效=1,无效=0)进行进行假设检验,结果t=2.848,P=0.005,差异有统计学意义,故认为中西药治疗胃炎的疗效有差别,中药疗效高于西药。

【问题1-1】 (1)这是什么资料?(2)该资料属于何种设计方案? (3)该医师统计方法是否正确?为什么?(4)该资料应该用何种统计方法?【分析】(1) 该资料是按中西药疗效(有效、无效)分类的二分类资料,即计数资料。(2) 随机抽取140例胃炎患者分成西药组和中药组,属于完全随机设计方案。(3) 该医师统计方法不正确。因为成组t检验用于推断两个总体均数有无差别,适用于正态或近似正态分布的计量资料,不能用于计数资料的比较。(4) 该资料的目的是通过比较两样本率来推断它们分别代表的两个总体率有无差别,应用四格表资料的 X2检验(chi-square test)。 【例1-2】 2003年某医院用中药和西药治疗非典病人40人,结果见表1-1。 表1-1 中药和西药治疗非典病人有效率的比较 药物有效无效合计有效率(%) 中药西药14(11.2) 2 (4.8) 14(16.8) 10 (7.2) 28 12 50.0 16.7 步骤如下: 1.建立检验假设,确定检验水准 H 0:两药的有效率相等,即π 1 =π 2 H 1:两药的有效率不等,即π 1 ≠π 2 2.计算检验统计量值 (1) 计算理论频数根据公式计算理论频数,填入表7-2的括号内。 (2) 计算χ2值 具体计算略。

2016年北京协和医学院流行病与卫生统计学考研复试参考书

2016年北京协和医学院流行病与卫生统计学考研复试参考书 北京协和医学院流行病与卫生统计学专业2014年考研招生简章招生目录 招生年份:2014本院系招生人数:33流行病与卫生统计学专业招生人数:3专业代码:100401 研究方向考试科目复试科目、复试参考书参考书目、参考教材 01流行病与卫生统计学(学术型)只招收推免生,不接受统考生报名 北京协和医学院流行病与卫生统计学专业2013年考研招生简章招生目录 招生年份:2013本院系招生人数:未公布流行病与卫生统计学专业招生人数:6专业代码:100401 研究方向考试科目复试科目、复试参考书参考书目、参考教材 01流行病与卫生统计学①101政治 ②201英语 ③353卫生综合 ④--无 注: 《卫生综合》:含卫生统计学、流行病学、卫生事业管理学;任选两门。复试为笔试和面试相结合,面试含外语听说能力测试 备注:推免生为2353卫生综合 一.卫生综合(卫生统计学) 1.《卫生统计学》刘桂芬协和医大出版社 2.《医学统计学》颜虹人民卫生出版社第2版 二.卫生综合(流行病学) 《流行病学》(供预防医学类专业用)李立明人民卫生出版社2007年第6版 三.卫生综合(卫生事业管理学)

《卫生事业管理学》梁万年人民卫生出版社2003.7第1版 北京协和医学院流行病与卫生统计学专业2012年考研招生简章招生目录 招生年份:2012本院系招生人数:未公布流行病与卫生统计学专业招生人数:3专业代码:100401 研究方向考试科目复试科目、复试参考书参考书目、参考教材 一、流行病与卫生统计学 01心血管病流行病学研究方法 01高血压流行病学和防治研究 01心血管流行病学和血压监测研究 ①101政治 ②201英语 ③353卫生综合 ④--无复试为笔试和面试相结合,面试含外语听说能力测试 备注:推免生为2. 353卫生综合: 1.卫生统计学: 《卫生统计学》,刘桂芬主编,协和医大出版社 《医学统计学》,颜虹主编,人民卫生出版社 2.流行病学: 《流行病学》,第六版(供预防医学类专业用),李立明主编,人民卫生出版社,2007 3.卫生事业管理:

医学统计学案例分析

案例分析—四格表确切概率法 【例1-5】为比较中西药治疗急性心肌梗塞的疗效,某医师将27例急性心肌梗塞患者随机分成两组,分别给予中药和西药治疗,结果见表1-4。经检验,得连续性校正χ2=3.134,P>0.05,差异无统计学意义,故认为中西药治疗急性心肌梗塞的疗效基本相同。 表1-4 两种药物治疗急性心肌梗塞的疗效比较 药物有效无效合计有效率(%)中药12(9.33)2(4.67)1485.7 西药6(8.67)7(4.33)1346.2 合计1892766.7【问题1-5】 (1)这是什么资料? (2)该资料属于何种设计方案? (3) 该医师统计方法是否正确?为什么? 【分析】 (1) 该资料是按中西药的治疗结果(有效、无效)分类的计数资料。 (2) 27例患者随机分配到中药组和西药组,属于完全随机设计方案。(3) 患者总例数n=27<40,该医师用χ2检验是不正确的。当n<40或T<1 时,不宜计算χ2值,需采用四格表确切概率法(exact probabilities in 2×2 table)直接计算概率 案例分析-卡方检验(一) 【例1-1】某医师为比较中药和西药治疗胃炎的疗效,随机抽取140例胃炎患者分成中药组和西药组,结果中药组治疗80例,有效64例,西药组治疗60例,有效35例。该医师采用成组t检验(有效=1,无效=0)进行假设检验,结果t=2.848,P=0.005,差异有统计学意义检验(有效=1,无效=0)进行进行假设检验,结果t=2.848,P=0.005,差异有统计学意义,故认为中西药治疗胃炎的疗效有差别,中药疗效高于西药。

【问题1-1】 (1)这是什么资料?(2)该资料属于何种设计方案? (3)该医师统计方法是否正确?为什么?(4)该资料应该用何种统计方法? 【分析】(1) 该资料是按中西药疗效(有效、无效)分类的二分类资料,即计数资料。(2) 随机抽取140例胃炎患者分成西药组和中药组,属于完全随机设计方案。(3) 该医师统计方法不正确。因为成组t检验用于推断两个总体均数有无差别,适用于正态或近似正态分布的计量资料,不能用于计数资料的比较。(4) 该资料的目的是通过比较两样本率来推断它们分别代表的两个总体率有无差别,应用四格表资料的检验(chi-square test)。 【例1-2】 2003年某医院用中药和西药治疗非典病人40人,结果见 表1-1。 表1-1 中药和西药治疗非典病人有效率的比较 药物有效无效合计有效率(%) 中药西药14(11.2) 2 (4.8) 14(16.8) 10(7.2) 28 12 50.0 16.7 步骤如下: 1.建立检验假设,确定检验水准 H 0:两药的有效率相等,即π 1 =π 2 H 1:两药的有效率不等,即π 1 ≠π 2 2.计算检验统计量值 (1) 计算理论频数根据公式计算理论频数,填入表7-2的括号内。 (2) 计算χ2值

医学研究关于某样本例数选择

医学研究的样本例数 读者须知 在医学研究中样本例数的确定是一个难点,医学统计学家认为样本含量的确定有两种方法:公式法和查表法,公式法和查表法本质一样,查表法是统计学家由公式做出的,而公式法需要研究者自己做,因为医学研究中尚有不少问题还搜索不到相应的计算公式来确定样本例数,本书搜集到的公式也十分有限,那么通过搜索文献来估计样本例数也是读者需要学习的一种方法。 须知,不存在无限定条件的样本例数。现行统计教材中的样本例数没有特别强调这一点,以导致使用时,常提出如下问题:“了解吸烟是否是肺癌的危险因素,需要调查多少人?”,类似这样的问题是没人能回答出的。 医学研究中样本例数都是建立在一组限定条件之下的样本例数,若这一组限定条件改变,那么样本例数的值随之改变。简言之,样本例数是这一组限定条件的函数。这种函数关系具体由计算样本例数的公式表述。那么,确定公式等号右端的各参数就变成了计算样本例数的前提。根据此思路我们设计了一个确定样本例数的流程图(见下页),同时,这个流程图也是我们撰写本书具体内容和阅读本书的思路。这个小册子中的例题均来自各种卫生统

计学的教材和相关著作,其本质没有变化,但读起来却更加符合人们的认知习惯,你会感觉到更容易读懂了。 本书由一附院医学统计咨询室集体讨论,具体由孙奇执笔撰写和排版,几经修订,历时超过百天。尽管如此,鉴于我们知识的局限性,也只能做到抛砖引玉,而且书中错误肯定难免。欢迎读者不吝指正,我们将深表谢意!

样本例数估计流程图

目录 1.两样本率比较的样本例数 (4) 2.多个样本率比较的样本例数 (6) 3.两样本均数比较的样本例数 (8) 4.多个样本均数比较的样本例数 (10) 5.诊断试验的样本例数 (12) 6.现况研究的样本例数 (13) 7.病例对照研究的样本例数 (15) 8.队列研究的样本例数 (17) 9.多元统计的样本例数 (19) 20 10. 他····················································· 21 11. 表···························································

医学统计学课后习题答案

医学统计学 第一章 绪论 答案 名词解释: (1) 同质与变异:同质指被研究指标的影响因素相同,变异指在同质的基 础上各观察单位(或个体)之间的差异。 (2) 总体和样本:总体是根据研究目的确定的同质观察单位的全体。样本 是从总体中随机抽取的部分观察单位。 (3) 参数和统计量:根据总体个体值统计算出来的描述总体的特征量,称 为总体参数,根据样本个体值统计计算出来的描述样本的特征量称为 样本统计量。 (4) 抽样误差:由抽样造成的样本统计量和总体参数的差别称为抽样误 差。 (5) 概率:是描述随机事件发生的可能性大小的数值,用p 表示 (6) 计量资料:由一群个体的变量值构成的资料称为计量资料。 (7) 计数资料:由一群个体按定性因数或类别清点每类有多少个个体,称 为计数资料。。 (8) 等级资料:由一群个体按等级因数的级别清点每类有多少个体,称为 等级资料。 是非题: 1. × 2. × 3. × 4. × 5. √ 6. √ 7. × 单选题: 1. C 2. E 3. D 4. C 5. D 6. B 第二章 计量资料统计描述及正态分布 答案 名词解释: 1. 平均数 是描述数据分布集中趋势(中心位置)和平均水平的指标 2. 标准差 是描述数据分布离散程度(或变量变化的变异程度)的指标 3. 标准正态分布 以μ服从均数为0、标准差为1的正态分布,这种正态分布 称为标准状态分布。 4. 参考值范围 参考值范围也称正常值范围,医学上常把把绝大多数的某指 标范围称为指标的正常值范围。 填空题: 1. 计量,计数,等级 2. 设计,收集资料,分析资料,整理资料。 3. σ μχ-=u (变量变换)标准正态分布、0、1 4. σ± σ96.1± σ58.2± 68.27% 95% 99%

流行病学英文总结

流行病学英文版总结(精华版) 乌衣月Email:Frnbdx@https://www.wendangku.net/doc/5a11029699.html, 1、Epidemiology Epidemiology is the study that is based on distribution and factors of diseases and health-related states in populations,and then makes politicies and takes measures to control heslth problems. 2、Exposure Exposure is a very common used term in epidemiology,it refers to the causal factors that may be associated with the disease,for example,contact with a harmful materials,or some characteristics ,such as the age which may put an individual at increased risk. 3、Outcome Outcome is the disease or other changes in health status.It is the possible result that may be associated with the causes,risk factors or preventive measures. 4、Descriptive epidemiology Descriptive epidemiology is concerned with the variations of morbidity and mortality in a community.It concentrates on the description of distribution of morbidity or mortality by person,place and time,and then we can pose the hyposthesis,such as case report,ecological study and cross-sectional study. 5、Ecological study Ecological study is a type of descriptive study.It is the study of the relationship between some factors and diseases in the group level, the unit of observation and analysis is group.We describe the exposure status of disease factors and the frequency of diseases in different populations and then analyse the relationship between exposure and disease,for example, ecological comparison study and ecological trend study. 6、Experimental epidemiology Experimental epidemiology is to identify a group of subjects with the same conditions,and randomizes the subjects into intervention and control groups,follows them up for a period of time,compares the outcome between the groups,so as to evaluate the efficacy of the intervention.It is also called the interventional study,includes clinical trial,field trial and community trial. 7、Observational study Observational study is a kind of epidemiology.We observe and measure the occurrence of the disease or other health-related status in different groups with various characteristics and attempt to identy the causal association between the exposure and outcome,but we do not intervene in any way,so it is called the observational study,such as cross-sectional study,cohort study and so on. 8、Three levels of prevention Primary prevention concentrates on the cause prevention or reduction of risk factors,so as to prevent the development of disease. Secondary prevention is to diagnose and treat diseases in their early stages so as to restore or improve health,such as the screening program. Tertiary prevention is to reduce complications of disease,improve the outcome,so as to improve the quality of life of the patients. 9、PYLL PYLL is measure of the socio-economic impact of the premature death of an individual.It is

医学统计学第3版,02计量资料的统计描述试题

第二章 计量资料的统计描述 一、教学大纲要求 (一)掌握内容 1. 频数分布表与频数分布图 (1)频数表的编制。 (2)频数分布的类型。 (3)频数分布表的用途。 2. 描述数据分布集中趋势的指标 掌握其意义、用途及计算方法。算术均数、几何均数、中位数。 3. 描述数据分布离散程度的指标 掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。 (二)熟悉内容 连续型变量的频数分布图:等距分组、不等距分组。 二、 教学内容精要 计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。 (一)频数分布表的编制 频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下: 1.求数据的极差(range )。 min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。 确定组段和组距。每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ

医学统计学案例分析报告.doc

医学统计学案例分析评述 医学期刊论著:《口岸出入境人员预防接种统计分析》 【题目】口岸出入境人员预防接种统计分析 【研究目标】对口岸出入境人员的预防接种情况进行统计分析,为各种跨国传染性疾病的预防提供参考数据。 【研究人群】2010 年1 月--2012 年5 月口岸接受预防接种的出入境人员6870 位,其基本资料如下:男3678 人,女3021 人;年龄在3-79 岁之 间,平均年龄45.6 岁。经免疫前检查和询问,研究对象均无严重 的疾病,且无接种疫苗过敏史及禁忌症。 【资料类型】本资料是计数资料。 (1)原文:研究对象:选择我处2010 年1 月-2011 年4 月,2011 年5 月-2012 年5月两个时间段6870 位出入境人员,将其按公务人员、船员、劳 务人员、留学人员、旅游探亲及商务等进行分组。 (2)问题:①文献中未明确“我处”的具体含义,没有明确研究对象的来源。 ②文献中未提及“6870 位出入境人员”是如何产生的,即是普查, 还是抽样调查?如果是抽样调查,未明确抽样的方法,是如何应用 随机抽样的方法选择这6870 位研究对象的? 【统计方法】 (1)本论著未明确使用了何种统计学方法,我们组认为:首先应对资料进行正态性检验和方差齐性检验,若满足正态、方差齐,选择χ2检验,否则应选用秩和检验。 一篇论文结论的正确与否,需根据该篇论文所选用的检验方法和检验结果进行判断。如果没有检验方法或检验方法不合理,就无法知道检验结果是否出错,也就无法对结论进行准确判断。 (2)文献尽管在“1.4 统计学处理”中提及了“使用SPSSl5.2 软件进行统计学分析”,注明所采用的统计软件,但方法中未注明统计推断方法,没有明确

医学统计学第三版第四章课后习题答案

2. ANOVA 实验结果 Sum of Squares df Mean Square F Sig. Between Groups 43.194 3 14.398 13.697 .000 Within Groups 37.842 36 1.051 Total 81.036 39 Multiple Comparisons Dependent Variable: 实验结果 Dunnett t (2-sided)a (I) 分组(J) 分组Mean Difference (I-J) Std. Error Sig. 95% Confidence Interval Lower Bound Upper Bound 0.5 对照组-2.15000*.45851 .000 -3.2743 -1.0257 1.0 对照组- 2.27000*.45851 .000 - 3.3943 -1.1457 1.5 对照组-2.66000*.45851 .000 -3.7843 -1.5357 F=13.697 P=0.000004 P A=0.000113 P B=0.000051 P C=0.000004均小于0.001 根据完全随机资料的方差分析,按α=0.05水准,拒绝H0,接受H1,认为四组治疗组小白鼠的肿瘤重量总体均数不全相等,即不同剂量药物注射液的抑癌作用有差别。 3. Tests of Between-Subjects Effects Dependent Variable: 重量 Source Type III Sum of Squares df Mean Square F Sig. Hypothesis 99736.333 1 99736.333 58.489 .005 Error 5115.667 3 1705.222a 治疗 Hypothesis 6503.167 2 3251.583 44.867 .000 Error 434.833 6 72.472b 分组 Hypothesis 5115.667 3 1705.222 23.529 .001 Error 434.833 6 72.472b F:44.867 23.529 P:0.000246 0.001020<0.01 根据随机区组资料的方差分析,按α=0.05水准,拒绝H0,接受H1,三组注射不同剂量雌激素的大白鼠子宫重量总体均数不全相等,即注射不同剂量的雌激素对大白鼠子宫重量有影响 5.

医学统计学试题及答案

(一)单项选择题 3.抽样的目的是(b )。 A.研究样本统计量 B. 由样本统计量推断总体参数 C.研究典型案例研究误差 D. 研究总体统计量 4.参数是指(b )。 A.参与个体数 B. 总体的统计指标 C.样本的统计指标 D. 样本的总和 5.关于随机抽样,下列那一项说法是正确的( a )。 A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽取个体 D.为确保样本具有更好的代表性,样本量应越大越好 6.各观察值均加(或减)同一数后( b )。 A.均数不变,标准差改变 B.均数改变,标准差不变 C.两者均不变 D.两者均改变 7.比较身高和体重两组数据变异度大小宜采用( a )。 A.变异系数 B.差 C.极差 D.标准差 8.以下指标中(d)可用来描述计量资料的离散程度。 A.算术均数 B.几何均数 C.中位数 D.标准差 9.偏态分布宜用(c)描述其分布的集中趋势。 A.算术均数 B.标准差 C.中位数 D.四分位数间距 10.各观察值同乘以一个不等于0的常数后,(b)不变。 A.算术均数 B.标准差 C.几何均数 D.中位数 11.( a )分布的资料,均数等于中位数。 A.对称 B.左偏态 C.右偏态 D.偏态 12.对数正态分布是一种( c )分布。 A.正态 B.近似正态 C.左偏态 D.右偏态 13.最小组段无下限或最大组段无上限的频数分布资料,可用( c )描述其集中趋势。 A.均数 B.标准差 C.中位数 D.四分位数间距 14.( c )小,表示用该样本均数估计总体均数的可靠性大。 A. 变异系数 B.标准差 C. 标准误 D.极差 15.血清学滴度资料最常用来表示其平均水平的指标是( c )。 A. 算术平均数 B.中位数 C.几何均数 D. 平均数

大家评价的统计书

请写出对您有影响的统计书和统计前辈 [恳求参加讨论] 胡良平的书大家都已经说过了!! 人卫统计第四版 张文彤SPSS11统计分析教程 医学统计之星网站很不错,很大功劳属于他,而且很无私。我的很多统计软件知识来源于此。> 孙尚拱译的《生物统计学基础》,科学出版社,原英文版是《fundamentals of biostatistics》5th edtion bernard rosner,这本书不错. 其一是研究生统计教材。 徐勇勇《医学统计学》和方积乾《医学统计学与电脑实验》两位老师所编的书各有所长,因此两本书都非常好,其实勤快的话,都看看,相互弥补促进,我个人的经验很好! 其二是郭祖超主编《医用数理统计方法(第三版)》,作为国内统计专业的前辈,我认为郭老的书不是我所可以评价的。 其三是陈平雁老师编的《SPSS10.0统计分析教程》,通俗易懂,是初学者的好教材,如果想要更进一步学习,就可能要再用其他书了,目前,我还是初学者,因此还是推荐这本书。外文书Armitage,P&Berry,G.Statistical Methods in medical rearsch.3rd edition.blackwell Science,1994也不错。 刘润幸的SPSS书也很不错,很实用,我看的是SPSS 8.0统计软件使用指南, 现在有第二版,是spss10的,分上下两册。 孙振球主编,《医学统计学》第一版,人民卫生出版社,2002 徐勇勇《医学统计学》和方积乾《医学统计学与电脑实验》两位老师所编的书各有所长,因此两本书如果有能力的话都可以一学。 另外关于SPSS我认为马斌荣的教材比较浅显易懂值得大家一看,他的SPSS分为上下两部分适合各个层次的要求。 人卫第四版卫生统计学是中国卫生统计史上的一场笑话! 书名:实用统计分析方法[专著] (美)蒋庆琅原著; 方积乾等译. 北京: 北京医科大学中国协和医科大学联合出版社, 1998.12

医学统计学案例分析

医学统计学案例分析评述 医学期刊论着:《口岸出入境人员预防接种统计分析》 【题目】口岸出入境人员预防接种统计分析 【研究目标】对口岸出入境人员的预防接种情况进行统计分析,为各种跨国传染性疾病的预防提供参考数据。 【研究人群】2010 年1 月--2012 年5 月口岸接受预防接种的出入境人员6870 位,其基本资料如下:男3678 人,女3021 人;年龄在3-79 岁之 间,平均年龄岁。经免疫前检查和询问,研究对象均无严重 的疾病,且无接种疫苗过敏史及禁忌症。 【资料类型】本资料是计数资料。 (1)原文:研究对象:选择我处2010 年1 月-2011 年4 月,2011 年5 月-2012 年5月两个时间段6870 位出入境人员,将其按公务人员、船员、劳 务人员、留学人员、旅游探亲及商务等进行分组。 (2)问题:①文献中未明确“我处”的具体含义,没有明确研究对象的来源。 ②文献中未提及“6870 位出入境人员”是如何产生的,即是普查, 还是抽样调查如果是抽样调查,未明确抽样的方法,是如何应用 随机抽样的方法选择这6870 位研究对象的 【统计方法】 (1)本论着未明确使用了何种统计学方法,我们组认为:首先应对资料进行正态性检验和方差齐性检验,若满足正态、方差齐,选择χ2检验,否则应选 用秩和检验。 一篇论文结论的正确与否,需根据该篇论文所选用的检验方法和检验结果进行判断。如果没有检验方法或检验方法不合理,就无法知道检验结果是否出错,也就无法对结论进行准确判断。

(2)文献尽管在“统计学处理”中提及了“使用软件进行统计学分析”,注明所采用的统计软件,但方法中未注明统计推断方法,没有明确采用了那种统计方法,即是卡方检验还是秩和检验等。 (3)在没有提及统计方法的前提下,全文也没有表示统计结果,即具体的计算值和相对应的P值,只有P<,表述不完整。 正确的统计分析方法、具体的统计量值和P值是最终准确推断结论的重要依据,三者缺一不可。所以,具体的P值和统计量应在论文表格或文字描述中说明。 (4)统计符号书写不规范: 检验水准表述有误,原文“检验水平取P=”,应改为“检验水准ɑ=”。 【结果表达】 (1)在“不同时间段接种人数比较”中: ①原文:研究将研究对象按照2010 年1 月-2011 年4 月,2011 年5月-2012 年 5 月分为两个时间段进行研究,第一个时间段接种人数为460 6 人,第 二时间段接种人数为2264 人。第二时间段较第一时间段接种人数明显 减少,且具有显着差异性(P<)。 ②错误:结果表述有误:“第二时间段较第一时间段接种人数明显减少,且具有 显着差异性”。2个时间段研究对象数量不同,通过统计分析不能得出 “人数明显较少”的结论,应表述为:按ɑ=水准,差别有统计学意 义,可以认为2个时间段接种人数不同。 (2)在“结果和”的结论中: ①错误:均未明确具体的统计值及相对应的P值,“具有显着性差异”应改为“差 别有统计学意义”。 (3)统计表表示不正确: ①统计表为三线表,在有“合计”一项时,应加一条分隔线。

医学统计学课后习题答案

医学统计学课后习题答案 第一章医学统计中的基本概念 练习题 一、单向选择题 1. 医学统计学研究的对象是 A. 医学中的小概率事件 B. 各种类型的数据 C. 动物和人的本质 D. 疾病的预防与治疗 E.有变异的医学事件 2. 用样本推论总体,具有代表性的样本指的是 A.总体中最容易获得的部分个体B.在总体中随意抽取任意个体 C.挑选总体中的有代表性的部分个体D.用配对方法抽取的部分个体 E.依照随机原则抽取总体中的部分个体 3. 下列观测结果属于等级资料的是 A.收缩压测量值B.脉搏数 C.住院天数D.病情程度 E.四种血型 4. 随机误差指的是 A. 测量不准引起的误差 B. 由操作失误引起的误差 C. 选择样本不当引起的误差 D. 选择总体不当引起的误差 E. 由偶然因素引起的误差 5. 收集资料不可避免的误差是 A. 随机误差 B. 系统误差 C. 过失误差 D. 记录误差 E.仪器故障误差 答案: E E D E A 二、简答题 常见的三类误差是什么?应采取什么措施和方法加以控制? [参考答案] 常见的三类误差是: (1)系统误差:在收集资料过程中,由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗效标准偏高或偏低等原因,可造成观察结果倾向性的偏大或偏小,这叫系统误差。要尽量查明其原因,必须克服。 (2)随机测量误差:在收集原始资料过程中,即使仪器初始状态及标准试剂已经校正,但是,由于各种偶然因素的影响也会造成同一对象多次测定的结果不完全一致。譬如,实验操作员操作技术不稳定,不同实验操作员之间的操作差异,电压不稳及环境温度差异等因素造成测量结果的误差。对于这种误差应采取相应的措施加以控制,至少应控制在一定的允许范围内。一般可以用技术培训、指定固定实验操作员、加强责任感教育及购置一定精度的稳压器、恒温装置等措施,从而达到控制的目的。 (3)抽样误差:即使在消除了系统误差,并把随机测量误差控制在允许范围内,样本均数(或其它统计量)与总体均数(或其它参数)之间仍可能有差异。这种差异是由抽样引起的,故这种误差叫做抽样误差,要用统计方法进行正确分析。抽样中要求每一个样本应该具有哪三性? [参考答案]

颜虹的医学统计学案例选

医学统计学案例选 第一章绪论部分 案例1-1着手撰写一份研究计划书,你所选的研究课题应该关系到人类健康。简单叙述立题依据、研究背景、研究目的、研究内容、研究方法和需要什么样的资料,如何获得和分析资料,用什么方法表达与展示结果等,请保留你的这份作业,并在学习完本书后再重新翻阅。你发现了什么问题,应如何修改?你的收获是什么? 第二章实验设计部分 案例2-1《丹栀逍遥散治疗混合性焦虑抑郁障碍的临床研究》(河南中医2004年第24卷第8期第62页)欲观察丹栀逍遥散治疗混合性焦虑抑郁障碍的临床疗效,以某西药作为对照组。将64例符合纳入标准的病例按诊疗次序交替分组,即单号为中药组,双号为西药组。请讨论该分组方法是否随机? 案例2-2《单宫颈双子宫畸形28例人工流产分析》(中国实用妇科与产科杂志1999年3月第15卷第3期172页)通过回顾分析某医院1990年1月至1998年3月期间28例单宫颈双子宫畸形早孕流产的结果,发现人流术前先给予米索前列醇素制剂可使得流产更容易、安全,减少病人痛苦并且可避免并发症的发生。而文中两组的分组方法为:所有病例按就诊先后顺序分组,1995年10月以后的为A组,1995年10月以前的为B组。A组(米索组)于手术前3小时服米索600μg或手术前1小时后穹隆放置米索200μg,然后进行人工流产吸宫术,共14例;B组(对照字)单纯采用常规流产术机械扩张宫颈后吸宫。作者认为该法“符合随机分配法则”。请讨论对照组的设置是否合适? 案例2-3《用24小时食管pH监测法诊断食管原性胸痛》(中华外科杂志1995年33卷第2期第69页)一文中,作者对30例疑为食管原性胸痛患者的24小时食管pH监测,其中16例昼夜均异常,8例白天异常,2例夜里异常,18例胸痛与酸暴露有关。得出食管pH监测是诊断胃食管反流所致的食管原发性胸痛的有效方法的结论,请讨论该文结果是否成立? 案例2-4《强骨胶囊治疗原发性骨质疏松症的临床试验》(中药新药与临床药理,2004年15卷第4期284页)目的是观察强骨胶囊与骨松宝颗粒对骨质疏松症患者的疗效与安全性。原文共收集骨质疏松症患者307例,其中试验组612例使用强骨胶囊,对照组93例使用骨松宝颗粒,其余开放组52例。但对开放组患者的特征、所用药物、用药方法、观察方法、是否设盲等没有交代。请讨论3组之间有无可比性? 小结 1、一项研究设计的内容包括:提出假说,确定研究类型,确定研究对象的范围和数量,计划的实施与质量控制, 数据管理,统计分析,结果与讨论。 2、实验设计包括3个基本要素:处理因素、实验对象和实验效应。 3、实验设计必须遵循:对照、随机、重复的基本原则。研究中所设立的对照组应尽可能达到对等、同步、专设的 条件;随机包括3方面的内容,及随机抽样、随机分组和随机实验顺序;重复是指研究结果的重复、观察对象的重复和观察指标的重复。 思考与练习 简答题 1、研究设计的作用是什么? 2、研究设计的基本内容是什么? 3、实验设计应该遵循的基本原则是什么? 4、实验设计为什么要设立对照?设立对照要注意些什么? 5、随机化的含义是什么?目的是什么? 6、区组化的目的是什么? 第三章观察性研究设计概述 案例3-1某地(100万人口)拟开展当地中老年人非胰岛素依赖型糖尿病的现况调查,目的是了解当地糖尿病的流行状况,以及与糖尿病患病相关的危险因素。调查对象是当地居住超过5年、40岁以上的常住居民。该研究采取分

相关文档