1、标准正态分布(u分布)与t分布有何异同?
相同点:集中位置都为0,都是单峰分布,是对称分布,标准正态分布是t分布的特例(自由度是无限大时)不同点:t分布是一簇分布曲线,t 分布的曲线的形状是随自由度的变化而变化,标准正态分布的曲线的形状不变,是固定不变的,因为它的形状参数为1。
3、简述直线回归与直线相关的区别。
1资料要求上不同:直线回归分析适用于应变量是服从正态分布的随机变量,自变量是选定变量;直线相关分析适用于服从双变量正态分布的资料。
2 两种系数的意义不同:回归系数是表明两个变量之间数量上的依存关系,回归系数越大回归直线越陡峭,表示应变量随自变量变化越快;相关系数是表明两个变量之间相关的方向和紧密程度的,相关系数越大,两个变量的关联程度越大。
第一章医学统计中的基本概念
2、抽样中要求每一个样本应该具有哪三性?
从总体中抽取样本,其样本应具有“代表性”、“随机性”和“可靠性”。
(1)代表性: 就是要求样本中的每一个个体必须符合总体的规定。
(2)随机性: 就是要保证总体中的每个个体均有相同的几率被抽作样本。
(3)可靠性: 即实验的结果要具有可重复性,即由科研课题的样本得出的结果所推测总体的结论有较大的可信度。由于个体之间存在差异, 只有观察一定数量的个体方能体现出其客观规律性。每个样本的含量越多,可靠性会越大,但是例数增加,人力、物力都会发生困难,所以应以“足够”为准。需要作“样本例数估计”。
3、什么是两个样本之间的可比性?
可比性是指处理组(临床设计中称为治疗组)与对照组之间,除处理因素不同外,其他可能影响实验结果的因素要求基本齐同,也称为齐同对比原则。
实习一统计研究工作的基本步骤
1、什么叫医学统计学?医学统计学与统计学、卫生统计学、生物统计学有何联系与区别?
医学统计学:是运用统计学原理和方法研究生物医学资料的搜索、整理、分析和推断的一门学科
统计学:是研究数据的收集、整理、分析与推断的科学。
卫生统计学:是把统计理论、方法应用于居民健康状况研究、医疗卫生实践、卫生事业管理和医学科研的一门应用学科。
生物统计学:是一门探讨如何从不完整的信息中获取科学可靠的结论从而进一步进行生物学实验研究的设计,取样,分析,资料整理与推论的科学。
2、医学统计的资料主要来源于那些方面?有何要求?
医学统计资料主要有实验数据和现场调查资料、医疗卫生工作记录、报表和报告卡等。实验数据是指在试验过程中活的的数据;现场调查资料主要来源于大规模的流行病调查获取的资料;医疗卫生工作记录有门诊病历卡、住院病历卡、化验报告等;报表有卫生工作基本情况年报表、传染年(月、日)报表、疫情旬(年、月、日)报表等;报表卡有传染病发病报告卡、出生报告卡、死亡报告卡等等。
这些资料的手机过程中,必须进行质量抗旨,包括它的统一性、确切性、可重复性。这些原始数据的精读和偏性应有明确的范围。
3、医学统计学的资料类型有哪些?
(1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等。(2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。计数
资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。
(3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。等级资料又称有序变量。如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。
等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。
等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。
4、常见的三类误差是什么?应采取什么措施和方法加以控制?
常见的三类误差是:
(1)系统误差:在收集资料过程中,由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗效标准偏高或偏低等原因,可造成观察结果倾向性的偏大或偏小,这叫系统误差。要尽量查明其原因,必须克服。
(2)随机测量误差:在收集原始资料过程中,即使仪器初始状态及标准试剂已经校正,但是,由于各种偶然因素的影响也会造成同一对象多次测定的结果不完全一致。譬如,实验操作员操作技术不稳定,不同实验操作员之间的操作差异,电压不稳及环境温度差异等因素造成测量结果的误差。对于这种误差应采取相应的措施加以控制,至少应控制在一定的允许范围内。一般可以用技术培训、指定固定实验操作员、加强责任感教育及购置一定精度的稳压器、恒温装置等措施,从而达到控制的目的。
(3)抽样误差:即使在消除了系统误差,并把随机测量误差控制在允许范围内,样本均数(或其它统计量)与总体均数(或其它参数)之间仍可能有差异。这种差异是由抽样引起的,故这种误差叫做抽样误差,要用统计方法进行正确分析。
实习二单变量资料的统计描述
1、试述频数表的要素及用途。
要素:组段,频距。
用途:
①描述资料的分布特征和分布类型。频数分布有两个重要特征:集中趋势和离散趋势。大部分观察值向某一数值集中的趋势称为集中趋势,常用平均数指标来表示,各观察值之间大小参差不齐。频数由中央位置向两侧逐渐减少,称离散趋势,是个体差异所致,可用一系列的变异指标来反映。
②便于进一步计算有关指标或进行统计分析。当数据较多且需手工计算时,常先编制频数表,再进行统计计算。
③发现特大、特小的可疑值。如果频数表的一端或两端出现连续几个组段的频数为零后,又出现少数几个特大值或特小值,使人怀疑其是否准确,需进一步检查和核对并做相应处理。
④当样本含量比较大时,可用各组段的平率作为概率的估计值。
2、描述单变量资料的统计指标分哪两大类,分别是什么指标?
分类:
①描述数据分布集中趋势的指标:算术均数、几何均数、中位数。
②描述数据分布离散程度的指标:极差、四分位数间距、方差、标准差、变异系数。
3、试述平均数、标准差、变异系数的含义及用途?
4、标准正态分布曲线下面积有何分布规律?
所有的正态分布曲线,在υ左右的相同倍数的标准差范围内的面积相同。并且,在υ±σ范围内的面积约为68.3%;在υ±1.96σ范围内的面积约为95%;在υ±2.58σ范围内面积约为99%。
5、同一资料的标准差是否一定小于均数?
均数和标准差是两类不同性质的统计指标.标准差用于描述数据的变异程度,变异程度大,则该值大,变异程度
小,则该值小.标准差可大于均数,也可小于均数。
实习三单变量资料的统计推断
1、标准差与标准误有何区别和联系?
?区别:
1.含义不同:⑴s描述个体变量值(x)之间的变异度大小,s越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。⑵标准误是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。
2.与n的关系不同:n增大时,⑴s σ(恒定)。⑵标准误减少并趋于0(不存在抽样误差)。
3.用途不同: ⑴s:表示x的变异度大小,计算cv,估计正常值范围,计算标准误等⑵:参数估计和假设检验。
?联系:二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。
2、简述Ⅰ型错误和Ⅱ型错误的区别和联系。
·区别:
Ⅰ型错误(弃真):拒绝实际成立的H0,型错误的概率记为α。(1-a)即置信度:重复抽样时,样本区间包含总体参数(μ)的百分数。当p≤α而拒绝H0时,只能犯Ⅰ型错误,不可能犯Ⅱ型错误。
Ⅱ型错误(存伪):不拒绝实际不成立的H0,Ⅱ型错误的概率记为β。(1-β)即把握度(或检验效能:两总体确有差别,被检出有差别的能力。当p≥α而拒绝H0时,只能犯Ⅱ型错误,不可能犯Ⅰ型错误。·联系:对同一资料,α与β反方向变化,若要同时减小α与β,唯一的办法是增加样本含量。
3、可信区间与参考值范围的不同点。
应注意:可信区间与参考值范围的意义、计算公式和用途均不同。
1.从意义和用途来看
95%参考值范围是指同质总体内包括95%个体值的估计范围,而总体均数95%可信区间是指按95%可信度估计的总体均数的所在范围。可信区间用于估计总体参数,总体参数只有一个。参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限。
2.从计算公式看:
若指标服从正态分布,95%参考值范围的公式是:±1.96s。
总体均数95%可信区间的公式是:。
前者用标准差,后者用标准误。前者用1.96,后者用α为0.05,自由度为v的t界值。
4、在统计推断中,如何区别单侧检验和双侧检验?
如果将拒绝性概率平分于理论抽样分布的两侧,称为双侧检验。例如选定显著性水平α= 0.05,双侧检验就是将α概率所规定的拒绝区域平分为两部分而置于概率分布的两边,每边占有=0.025。双侧检验只强调差异是否显著而不强调方向性。
如果将拒绝性概率置于理论抽样分布的一侧(左侧或右侧),称为单侧检验(右侧检验或左侧检验)。单侧检验强调差异的方向性。
在具体的假设检验中,选择双侧检验或单侧检验可分为以下三种情况:
第一种:H0:μ=μ0:μ≠μ0双侧
第二种:H0:μ≥μ0 :μ<μ0单侧(左侧)
第三种:H0:μ≤μ0:μ>μ0 单侧(右侧)
5、t检验、z检验的公式有那些类型,在应用上有何异同?
t检验:当样本例数n较小时,要求样本取自正态总体。
t检验的类型:单样本t检验,独立t检验,配对t检验
z检验:样本例数较大,或n虽小而总体标准差已知。
6、假设检验和总体均数区间估计有何联系?
假设检验:是对总体做出某种假定,然后根据样本信息推断总体是否成立的一类统计学方法总称。假设检验有三个基本步骤:①建立假设和确定检验水准;②选择检验方法和计算检验统计量;③确定P值和做出统计推断结论。
总体均数的估计:1、点估计:样本统计量直接作为总体指标的估计值。它未考虑抽样误差的大小。
2、区间估计:按预先给定的概率(1-α)确定的包含未知总体参数的可能范围。
实习四方差分析
1、方差分析的基本思想是什么?
方差分析(analysis of variance,ANOV A )的基本思想就是根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和(sum of squares of deviations from mean,SS)和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如各组均数的变异SS 组间可由处理因素的作用加以解释。通过各变异来源的均方与误差均方比值的大小,借助F 分布作出统计推断,判断各因素对各组均数有无影响。
2、t检验和F检验的使用条件和应用范围有何异同?
t检验适用于两个样本均数的比较,F检验适用于多个样本的比较。
t检验的应用条件:要求各样本来自相互独立的正态总体且各总体方差齐。
方差分析的应用条件(1)各样本是相互独立的随机样本,且来自正态分布总体。(2)各样本的总体方差相等,即方差齐性。
实习五计数资料的统计推断与描述
1、率的标准化的意义及基本思想。
当比较的两组资料内部各小组率明显不同,且各小组观测例数的构成比也明显不同时,直接比较两个合计率是不合理的。因为期内部构成比不同,往往影响合计率的大小,需要统一的内部构成进行调整后计算标准化率,使其具有可比性,这种方法称为率的标准化。
率的标准化的基本思想:要比较两个总率时,发现两组资料的内部构成(如年龄、性别构成等)存在明显不同,而且影响到了总率的结果,这时就不宜再直接比较总率,而应考虑采用标准化法。标准化法的基本思想,就是采用统一的标准(统一的内部构成)计算出消除内部构成不同影响后的标准化率(调整率),然后再进行比较。
2、常用相对数指标有哪些?它们在计算和意义上有何不同?
率(强度相对数,频率相对数)、构成比、相对比
应用相对数时应注意的问题:⑴计算相对数的分母一般不宜过小。⑵分析时不能以构成比代替率。⑶不能用构成比的动态分析代替率的动态分析。⑷对观察单位数不等的几个率,不能直接相加求其总率。⑸在比较相对数时应注意可比性。⑹对样本率(或构成比)的比较应随机抽样,并做假设检验。
3、卡方检验的使用范围和各个公式的适用条件是什么?
卡方检验用于:推断两个及两个以上总体率或构成比是否有差别,两个分类变量间有无相关关系,多个率的趋势检验,以及两个率的等效检验等。此外,也用于频数分布的拟合优度检验。
对不同的设计类型的资料,检验的应用条件不同:
(1) 完全随机设计两样本率的比较
1) 当n>40,且T≥5时,用非连续性校正值;
若所得P≈α,则改用四格表的确切概率法。
2) 当n≥40,且有1≤T<5时,用连续性校正值。
3) n<40,或有T<1时,不能用检验,应当用四格表的确切概率法。
(2) 配对设计四格表
1) 当b+c≥40,
2) 当b+c<40,需作连续性校正,
(3) 行列表资料
1) 不宜有1/5以上格子的理论频数小于5,或有1个格子的理论频数小于1;
2) 单向有序行列表,在比较各处理组的效应有无差别时,应该用秩和检验或Ridit检验;
3) 多个样本率(或构成比)比较的检验时,结论为拒绝无效假设时,只能认为各总体率(或总体构成比)之间总的说来有差别,但不能说明它们彼此之间都有差别,或某两者间有差别。若想进一步了解哪两者的差别有统计学意义,可用分割法。
4、率的标准误的意义和用途。
意义:由于抽样的原因所造成的样本率与总体率的不一致就是率的抽样误差。率的抽样误差的大小是用率的标准误来表示。
用途:①表示抽样误差的大小,说明样本率的代表性、可靠性。②对总体率的可信区间进行估计。
实习六非参数资料的统计分析
1、非参数统计方法的概念及适用范围。
概念:样本所来自的总体分布难以用某种函数式来表达,还有一些资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,解决这类问题的一种不依赖总体分布的具体形式的统计方法。由于这类方法不受总体参数的限制,故称非参数统计法,或称为不拘分布的统计分析方法,又称为无分布型式假定的统计分析方法。它检验的是分布,而不是参数。非参数统计不需对总体分布(总体参数)作出特殊假设。
适用范围:(1)等级资料。(2)偏态分布资料。当观察资料呈偏态或极度偏态分布而又未作变量变换,或虽经变量变换仍未达到正态或近似正态分布时,宜用非参数检验。(3)各组离散程度相差悬殊,即方差明显不齐,且不能变换达到齐性。(4)个别数据偏离过大,或资料为单侧或双侧没有上限或下限值。(5)分布类型不明。(6)初步分析。有些医学资料由于统计工作量大,可采用非参数统计方法进行初步分析,挑选其中有意义者再进一步分析(包括参数统计内容)。(7)对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作出估计,在这种情况下可用非参数统计方法。
2、非参数检验的优缺点。
优点:①非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。②多数非参数统计方法要求的运算比较简单,可以迅速完成计算取得结果,因而比较节约时间。③大多数非参数统计方法在直观上比较容易理解,不需要太多的数学基础知识和统计学知识。④大多数非参数统计方法可用来分析如象由等级构成的数据资料,而对计量水准较低的数据资料,参数统计方法却不适用。⑤当推论多达3个以上时,非参数统计方法尤具优越性。
缺点:①由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。②对于大样本,如不采用适当的近似,计算可能变得十分复杂。
注意: 凡符合或经过变换后符合参数检验条件的资料,最好用参数检验。当资料不具备参数检验的条件时,非参数检验是一种有效的分析方法。
实习七直线相关与回归分析
1、相关与回归的联系和区别。
区别:
意义:相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。
应用:研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。
研究性质:相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。
相关系数r与回归系数b :r与b的绝对值反映的意义不同。r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b的绝对值越大,回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样。
联系:r与b值可相互换算;r与b正负号一致;r与b的假设检验等价;回归可解释相关。相关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分。
2、直线相关、秩相关的区别与联系。
区别:(1)资料要求不同:直线相关要求x、y是来自双变量正态总体的随机变量;秩相关适用于不服从双变量正态分布或总体分布类型未知以及用等级表示的原始数据。(2)相关意义不同:直线相关表示两变量的直线相关关系存在,秩相关表示两变量的相关关系。
联系:相关系数的取值范围相同;秩相关将原始数据进行秩变换,以秩次计算直线相关系数。
实习八统计表与统计图
1、统计表及统计图的制表原则和要求。
统计表:
(1) 统计表的制表原则
1) 应重点突出,即一张表一般只包括一个中心内容,内容较多时可以用多个表格表达不同指标和内容。
2) 统计表要层次清楚,即标目的安排及分组符合逻辑,便于分析比较。主谓分明,通常主语放在表的左边,作为横标目;谓语放在右边,作为纵标目。由左向右读,构成完整的一句话。但若统计表的主语项目少而谓语项目多或主语项目多而谓语只有一项,亦可将纵标目作主语、横标目作谓语,阅读时从上至下。
3) 统计表应简单明了,一切文字、数字和线条都应尽量从简。
(2) 制表要求:统计表通常由标题、标目、线条、数字4部分组成。表中数字区不插入文字,也不列备注项。必须说明者标“*”号等,在表下方说明。
1) 标题:应高度概括表的主要内容,一般包括研究的时间、地点和研究内容,左侧加表号,置于表的上方。
2) 标目:有横标目和纵标目,分别说明表格每行和每列数字的意义。横标目位于表头的左侧,代表研究的对象;纵标目位于表头右侧,表达研究对象的指标。注意标明指标的单位。
3) 线条:力求简洁,多采用三条线,即顶线、底线、纵标目下横线。部分表格可再用短横线将“合计”分隔开,或用短横线将两重纵标目分割开。其它竖线和斜线一概省去。
4) 数字:用阿拉伯数字表示。同一指标小数点位数一致,位次对齐。表内不留空项,无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”。
统计图:①根据资料性质和分析目的正确选用适当的统计图。②除圆图外,一般用直角坐标系的第一象限的位置表示图域(制图空间),或者用长方形的框架表示。③绘制图形应注意准确、美观,给人以清晰的印象。
2、常见的统计图有哪几种?它们的使用条件各是什么?
常用的统计图有直条图、直方图、百分比条图和圆图、线图、散点图、统计地图、箱式图等。
·直条图:适用于比较、分析独立的或离散变量的多个组或多个类别的统计指标。指标既可以是绝对数,也可以是相对数。
·直方图:主要应用于频数分布资料,描述连续变量的频数分布。
百分比条图和圆图:表示事物内部各构成部分所占的比重,适合描述分类变量的各类别所占的构成比。其中,百分比条图特别适合作多个构成比的比较。
·线图:适合于描述某统计量随另一连续性数值变量的变化而变化的趋势,常用于描述统计量随时间变化
而变化的趋势。普通线图描述的是绝对变化趋势,半对数线图描述的是相对变化趋势,特别适宜作不同指标或相同指标不同组别的变化速度的比较。
·散点图:以直角坐标上点的密集程度和趋势来表示两个变量间的相关关系。
·统计地图:以不同的颜色和花纹表示统计量的值在地理分布上的变化,适宜描述研究指标的地理分布。·箱式图:通过使用5个统计量(数据分布的中心位置、分布、偏度、变异范围和异常值)来反映原始数据的分布特征。特别适合多组数据分布的比较。
3、普通线图和半对数线图的主要区别是什么?
从形式上看,二者的不同点在于纵坐标的尺度不同,普通线图的纵坐标为算术尺度,而半对数线图的纵坐标为对数尺度。从用途上看,普通线图描述的是统计量的绝对变化趋势,半对数线图描述的是相对变化趋势,特别适宜作不同指标或相同指标不同组别的变化速度的比较。
实习九调查设计与实验设计
1、四种基本抽样方法的概念、优缺点和应用条件是什么?
(1) 单纯随机抽样:是在总体中以完全随机的方法抽取一部分观察单位组成样本,其整个抽样过程,都体现了随机化的原则。
单纯随机抽样的优点:简单直观,是最基本的概率抽样方法,也是其他概率抽样方法的基础。
单纯随机抽样的缺点:当总体例数较多时,编号麻烦,实际工作中难以实施;样本分散,组织困难。
单纯随机抽样方法多用于总体例数较少的情况。
(2) 系统抽样:是将总体的观察单位,按一定顺序号平均分成n个部分,每一部分抽取第k号观察单位组成样本,这里的k是随机确定的,其体现了系统抽样中的随机性。
系统抽样的优点是:1) 易于理解,简便易行;2) 容易得到一个按比例分配的样本;3) 一般情况下样本的观察单位在总体中分布均匀,其抽样误差小于单纯随机抽样。
系统抽样的缺点是如果总体中观察单位按顺序有周期趋势或单调递增(减)趋势时,采用系统抽样可能产生明显的系统误差。
系统抽样方法多用于观察单位具有现成且与试验无关的自然编号,同时观察单位在总体中分布均匀。
(3) 整群抽样:是先将总体按照某种与主要研究指标无关的特征划分为K个“群”,每个群包含若干观察单位,然后再随机抽取k个“群”,由抽取的各个群的全部观察单位组成样本。其随机性主要体现在“群”的抽取过程。
整群抽样的优点是便于组织调查、易于质量控制和节省调查成本。
整群抽样的缺点是当样本含量一定时,因为样本观察单位并非广泛散布于总体中,整群抽样的抽样误差一般大于单纯随机抽样。
整群抽样较为常用,尤其当“群”间的个体变异较小时。
(4) 分层抽样:是先按对主要研究指标影响较大的某种特征,将总体分为若干类别(统计上称之为“层”),再从每一层内随机抽取一定数量的观察单位,合起来组成样本。其随机性体现在层内的抽样过程。
分层抽样的优点是:1) 由于分层后增加了层内的同质性,观察指标变异减小,各层的抽样误差减小。
2) 分层抽样便于对不同层采用不同的抽样方法。3) 分层抽样便于对各层独立进行分析。
分层抽样的缺点是:层间变异较大,抽样误差较小;如果分层特征选择不当,层内变异较大,层间变异较小,抽样误差仍然较大,分层抽样就失去了意义。
一般情况下,当样本含量一定,几种方法抽样误差大小的排序为:分层抽样≤系统抽样≤单纯随机抽样≤整群抽样。
2、何谓调查研究和实验研究?各自的特点是什么?
调查研究:是指研究者通过客观地观察、描述调查对象来搜集资料,未加任何的干预措施。
实验研究:是指研究者根据研究假设主动地对研究对象加以干预措施,并观察总结其结果,回答研究假设所提出的问题。
3、何谓实验效应,对实验效应指标的要求是什么?
实验效应:指处理作用于实验对象的反应,一般是通过某些观察指标,定量或定性地反映实验效应。
选择观察指标的基本原则:
指标的选择必须与研究目的密切关联
客观性尽可能选择客观指标,避免一些笼统的、不确切的指标。
准确性选用的指标应尽量精确。
灵敏性和特异性实验效应指标应当同时兼顾其灵敏性和特异性,尽量使灵敏性和特异性都高。
4、实验研究中为什么要设立对照,常见的对照有几种,各自有何特点?
设立对照组的目的是衬托处理因素的效应。
对照原则:所设立的对照组必须与实验组达到均衡可比。除干预措施外,组间其他影响结果的非处理因素等尽可能相同。对所研究疾病的易感度及发病机会相等。检测和观察方法及诊断标准必须一致。
自身对照对照与实验在同一受试者身上进行,如用药前后作为对比。
空白对照对照组不施加任何处理因素。
安慰剂对照主要目的是为了平衡对照组病人心理因素的影响。
实验对照(阳性对照)对照组不施加处理因素,但施加某种实验因素。
标准对照不设立专门的对照组,而是用现有标准值或正常值做对照。
历史对照
5、实验设计为什么要遵循重复原则,影响重复性的因素有哪些?
重复原则包含重现性和观察单位数量两方面的含义。
可靠的实验结果应能在相同的条件下重现;
可靠的实验结论也不能凭一次实验或3~5例结果获得,一定要有足够量的观察单位数。
第二单元 计量资料的统计推断 分析计算题 2.1 某地随机抽样调查了部分健康成人的红细胞数和血红蛋白量,结果见表4: 表4 某年某地健康成年人的红细胞数和血红蛋白含量 指 标 性 别 例 数 均 数 标准差 标准值* 红细胞数/1012 ·L -1 男 360 4.66 0.58 4.84 女 255 4.18 0.29 4.33 血红蛋白/g ·L -1 男 360 134.5 7.1 140.2 女 255 117.6 10.2 124.7 请就上表资料: (1) 说明女性的红细胞数与血红蛋白的变异程度何者为大? (2) 分别计算男、女两项指标的抽样误差。 (3) 试估计该地健康成年男、女红细胞数的均数。 (4) 该地健康成年男、女血红蛋白含量有无差别? (5) 该地男、女两项血液指标是否均低于上表的标准值(若测定方法相同)? 2.1解: (1) 红细胞数和血红蛋白含量的分布一般为正态分布,但二者的单位不一致,应采用变异系数(CV )比较二者的变异程度。 女性红细胞数的变异系数0.29 100%100% 6.94%4.18 S CV X = ?=?= 女性血红蛋白含量的变异系数10.2 100%100%8.67%117.6 S CV X =?=?= 由此可见,女性血红蛋白含量的变异程度较红细胞数的变异程度大。 (2) 抽样误差的大小用标准误X S 来表示,由表4计算各项指标的标准误。 男性红细胞数的标准误0.031 X S = ==(1210/L ) 男性血红蛋白含量的标准误0.374 X S = ==(g/L )
女性红细胞数的标准误0.018X S = ==(1210/L ) 女性血红蛋白含量的标准误0.639X S = ==(g/L ) (3) 本题采用区间估计法估计男、女红细胞数的均数。样本含量均超过100,可视为大样本。σ未知,但n 足够大 ,故总体均数的区间估计按 (/2/2X X X u S X u S αα-+ , )计算。 该地男性红细胞数总体均数的95%可信区间为: (4.66-1.96×0.031 , 4.66+1.96×0.031),即(4.60 , 4.72)1210/L 。 该地女性红细胞数总体均数的95%可信区间为: (4.18-1.96×0.018 , 4.18+1.96×0.018),即(4.14 , 4.22)1210/L 。 (4) 两成组大样本均数的比较,用u 检验。 1) 建立检验假设,确定检验水准 H 0:12μμ=,即该地健康成年男、女血红蛋白含量均数无差别 H 1:12μμ≠,即该地健康成年男、女血红蛋白含量均数有差别 0.05α= 2) 计算检验统计量 22.829X X u === 3) 确定P 值,作出统计推断 查t 界值表(ν=∞时)得P <0.001,按0.05α=水准,拒绝H 0,接受H 1,差别有统计学意义,可以认为该地健康成年男、女的血红蛋白含量均数不同,男性高于女性。 (5) 样本均数与已知总体均数的比较,因样本含量较大,均作近似u 检验。 1) 男性红细胞数与标准值的比较 ① 建立检验假设,确定检验水准 H 0:0μμ=,即该地男性红细胞数的均数等于标准值
医学统计学试题及答案集团文件发布号:(9816-UATWW-MWUB-WUNN-INNUL-DQQTY-
医学统计学试题及答案 习??题 《医学统计学》第二版??(五年制临床医学等本科生用)(一)??单项选择题 1.观察单位为研究中的( d??)。 A.样本? ?? ??B. 全部对象 C.影响因素? ?? ?????D. 个体2.总体是由( c )。 A.个体组成? ?? ?B. 研究对象组成 C.同质个体组成? ?? ? D. 研究指标组成 3.抽样的目的是(b??)。 A.研究样本统计量? ?? ?? ???B. 由样本统计量推断总体参数 C.研究典型案例研究误差? ???D. 研究总体统计量 4.参数是指(b? ?)。 A.参与个体数? ???B. 总体的统计指标 C.样本的统计指标? ? ??D. 样本的总和 5.关于随机抽样,下列那一项说法是正确的( a )。 A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽取个体 D.为确保样本具有更好的代表性,样本量应越大越好 6.各观察值均加(或减)同一数后( b )。 A.均数不变,标准差改变? ?? ? B.均数改变,标准差不变 C.两者均不变? ?? ?? ?? ?? ??? D.两者均改变 7.比较身高和体重两组数据变异度大小宜采用( a??)。 A.变异系数? ?? B.差 C.极差? ?? ?? ? D.标准差 8.以下指标中(? ?d)可用来描述计量资料的离散程度。 A.算术均数? ? B.几何均数 C.中位数? ?? ? D.标准差 9.偏态分布宜用(? ?c)描述其分布的集中趋势。 A.算术均数? ?? B.标准差 C.中位数? ?? D.四分位数间距 10.各观察值同乘以一个不等于0的常数后,(? ?b)不变。 A.算术均数? ??? B.标准差 C.几何均数? ?? ???D.中位数 11.( a??)分布的资料,均数等于中位数。 A.对称? ? B.左偏态 C.右偏态? ?? ?? D.偏态 12.对数正态分布是一种( c )分布。
一、是非题 1.单个自变量的线性回归就是直线回归。 2.直线回归就是指自变量和应变量的观察值落在在一条直线上。 3.直线回归中预测值Y 是固定某个X 值,Y 的总体均数估计值。 4.用逐步回归的方法评价自变量与应变量之间的关联性,只能推断某个自变量与应变量有关联性,不能推断无它们之间无关联性。 二、选择题 1.用最小二乘法确定直线回归方程的原则是各观察点() A . 距直线的纵向距离相等 B . 距直线的纵向距离的平方和最小 C . 与直线的垂直距离相等 D . 与直线的垂直距离的平方和最小 2.直线回归的系数假设检验() E . 只能利用相关系数r 的检验方法进行检验 F . 只能用t 检验 G . 只能用F 检验 H . 三者均可 3.Y ?=7+2X 是1~7岁儿童以年龄(岁)估计体重(公斤)的回归方程,若把体重的单位换成市斤, 则此方程( ) A .截矩改变 B .回归系数改变 C . 截矩与回归系数都改变 D .回归系数不变 E .截矩不变 4.直线回归系数的假设检验,其自由度为( ) A .n B .n-1 C .n-2 D .2n-1 E .2n-2 5.对应变量Y 的离均差平方和,下列哪个分解是正确的?( ) A .SS 剩=SS 回 B .SS 总=SS 剩 C .SS 总=SS 回 D .SS 总+SS 剩=SS 回 E .SS 总+SS 回=SS 剩 三、计算分析题
1.15名儿童的身高与肺死腔容积的观察值如表15-3所示。 表15-3 儿童身高与肺死腔容积的观测数据 对象号 身高(cm) X 肺死腔容积(ml) Y 对象号 身高(cm) X 肺死腔容积(ml) Y 1 110 45 9 175 102 2 116 32 10 167 111 3 123 41 11 165 88 4 130 45 12 160 65 5 129 43 13 157 79 6 142 67 14 156 92 7 147 58 15 149 58 8 153 57 试用该资料进行回归分析: (1)计算样本回归方程的截矩与回归系数; (2)进行回归系数等于0的假设检验; (3)验证是否存在F t b =的关系; (4)估计回归系数β的95%置信区间。 2.一名产科医生收集的12名产妇24h 的尿,测量其中雌三醇的含量,同时记录了产儿的体重,见表15-4。 表15-4 待产妇尿中雌三醇含量与新生儿体重 编号 尿雌三醇(mg/24h) X 新生儿体重(kg) Y 编号 尿雌三醇(mg/24h) X 新生儿体重(kg) Y 1 7 2.5 7 19 3.1 2 9 2.5 8 21 3.0 3 12 2.7 9 22 3.5 4 14 2.7 10 24 3.4 5 16 3.7 11 25 3.9 6 17 3.0 12 27 3.4 (1)试用该数据进行回归分析; (2)求回归系数的95%置信区间; (3)试求当待产妇尿中雌三醇含量为18(mg/24h)时,新生儿体重个体值的95%预测区间。
第一章绪论 1.下列关于概率的说法,错误的是 A. 通常用P表示 B. 大小在0%与100%之间 C. 某事件发生的频率即概率 D. 在实际工作中,概率是难以获得的 E. 某事件发生的概率很小,在单次研究或观察中时,称为小概率事件 [参考答案] C. 某事件发生的频率即概率 2.下列有关个人基本信息的指标中,属于有序分类变量的是 A. 学历 B. 民族 C. 血型 D. 职业 E. 身高 [参考答案] A. 学历3.下列有关个人基本信息的指标,其中属于定量变量的是 A. 性别 B. 民族 C. 职业 D. 血型 E. 身高 [参考答案] E. 身高 4.下列关于总体和样本的说法,不正确的是 A. 个体间的同质性是构成总体的必备条件 B. 总体是根据研究目的所确定的观察单位的集合 C. 总体通常有无限总体和有限总体之分 D. 一般而言,参数难以测定,仅能根据样本估计 E. 从总体中抽取的样本一定能代表该总体
[参考答案] E. 从总体中抽取的样本一定能代表该总体 5.在有关2007年成都市居民糖尿病患病率的调查研究中,总体是 A. 所有糖尿病患者 B. 所有成都市居民 C. 2007年所有成都市居民 D. 2007年成都市居民中的糖尿病患者 E. 2007年成都市居民中的非糖尿病患者[参考答案] C. 2007年所有成都市居民 6.简述小概率事件原理。 答:当某事件发生的概率很小,习惯上认为小于或等于0.05时,统计学上称该事件为小概率事件,其含义是该事件发生的可能性很小,进而认为它在一次抽样中不可能发生,这就是所谓小概率事件原理,它是进行统计推断的重要基础。 7.举例说明参数和统计量的概念答:某项研究通常想知道关于总体的某些数值特征,这些数值特征称为参数,如整个城市的高血压患病率。根据样本算得的某些数值特征称为统计量,如根据几百人的抽样调查数据所算得的样本人群高血压患病率。统计量是研究人员能够知道的,而参数是他们想知道的。一般情况下,这些参数是难以测定的,仅能根据样本估计。显然,只有当样本代表了总体时,根据样本统计量估计的总体参数才是合理的 8.举例说明总体和样本的概念 答:研究人员通常需要了解和研究某一类个体,这个类就是总体。总体是根据研究目的所确定的观察单位的集合,通常有无限总体和有限总体之分,前者指总体中的个体数是无限的,如研究药物疗效,某病患者就是无限总体,后者指总体中的个体数是有限的,它是指特定时间、空间中有限个研究个体。但是,研究整个总体一般并不实际,通常能研究的只是它的一部分,这个部分就是样本。例如在一项关于2007
一、单向选择题 1. 医学统计学研究的对象是 E.有变异的医学事件 2. 用样本推论总体,具有代表性的样本指的是E.依照随机原则抽取总体中的部分个体 3. 下列观测结果属于等级资料的是 D.病情程度 4. 随机误差指的是 E. 由偶然因素引起的误差 5. 收集资料不可避免的误差是 A.随机误差 1.某医学资料数据大的一端没有确定数值,描述其集中趋势适用的统计指标是 A. 中位数 2. 算术均数与中位数相比,其特点是 B.能充分利用数据的信息 3. 一组原始数据呈正偏态分布,其数据的特点是 D.数值分布偏向较小一侧 4. 将一组计量资料整理成频数表的主要目的是E.提供数据和描述数据的分布特征 1. 变异系数主要用于 A .比较不同计量指标的变异程度 2. 对于近似正态分布的资料,描述其变异程度应选用的指标是E. 标准差 3.某项指标95%医学参考值范围表示的是D.在“正常”总体中有95%的人在此范围 4.应用百分位数法估计参考值范围的条件是B .数据服从偏态分布 5.已知动脉硬化患者载脂蛋白B 的含量(mg/dl)呈明显偏态分布,描述其个体差异的统计指标应使用 E .四分位数间距 1.样本均数的标准误越小说明 E.由样本均数估计总体均数的可靠性越大 2. 抽样误差产生的原因是D.个体差异 3.对于正偏态分布的的总体,当样本含量足够大时,样本均数的分布近似为C.正态分布 4. 假设检验的目的是 D.检验总体参数是否不同 5. 根据样本资料算得健康成人白细胞计数的95%可信区间为7.2×109 /L ~9.1×109 /L ,其含义是 E.该区间包含总体均数的可能性为95% 1. 两样本均数比较,检验结果05.0 P 说明 D.不支持两总体有差别的结论 2. 由两样本均数的差别推断两总体均数的差别, 其差别有统计学意义是指 E. 有理由认为两总体均数有差别 3. 两样本均数比较,差别具有统计学意义时,P 值越小说明 D.越有理由认为两总体均数不同 4. 减少假设检验的Ⅱ类误差,应该使用的方法是 E.增加样本含量 5.两样本均数比较的t 检验和u 检验的主要差别是B.u 检验要求大样本资料
1 医学统计学题库 一、最佳选择题 1. 比较相同人群的身高和体重的变异程度,宜用的统计指标是__ __。 A. 全距 B. 标准差 C. 中位数 D. 变异系数 2. 反映一组偏态分布资料平均水平的指标宜用_ __。 A.变异系数 B. 几何均数 C. 中位数 D. 均数 3. 下述_ ___种资料为计数资料。 A. 血红蛋白( g/L ) B. 红细胞计数( 31012 /L ) C. 抗体滴度 D. 血型 4. 表示事物内部各个组成部分所占比重的相对数是___ ____。 A. 相对比 B. 率 C. 构成比 D. 率的标准误 5. 说明样本均数抽样误差大小的指标是___ _____。 A. 变异系数 B. 标准差 C. 标准误 D. 全距 6. 正态分布曲线下中间面积为99% 的变量值范围为___ _____。 A. μσ±196 . B. μσ±258. C. μσ±1 D. μσ±125. 7. 8名新生儿的身长(cm )依次为:50, 53, 58, 54, 55, 52, 54, 52。 中位数M 为__ __。 A. 53.5 B. 54.5 C. 54 D. 53 8. 表示两个变量之间的直线相关关系的密切程度和方向的统计指标是_ _。 A. 变异系数 B. 相关系数 C. 均数 D. 回归系数 9. 某市1955年和2015年的三种死因别死亡率,若用统计图表示宜 选用____ _______。 A. 直条图 B. 直方图 C. 百分直条图 D. 统计地图 10. 下述___ ____为第一类错误的定义。 A.拒绝了实际上是不成立的H 0 B.接受了实际上是不成立的H 0 C.拒绝了实际上是成立的H 0
第二单元 计量资料的统计推断 分析计算题 2.1 某地随机抽样调查了部分健康成人的红细胞数和血红蛋白量,结果见表4: 表4 某年某地健康成年人的红细胞数和血红蛋白含量 指 标 性 别 例 数 均 数 标准差 标准值* 红细胞数/1012·L -1 男 360 4.66 0.58 4.84 女 255 4.18 0.29 4.33 血红蛋白/g ·L -1 男 360 134.5 7.1 140.2 女 255 117.6 10.2 124.7 请就上表资料: (1) 说明女性的红细胞数与血红蛋白的变异程度何者为大? (2) 分别计算男、女两项指标的抽样误差。 (3) 试估计该地健康成年男、女红细胞数的均数。 (4) 该地健康成年男、女血红蛋白含量有无差别? (5) 该地男、女两项血液指标是否均低于上表的标准值(若测定方法相同)? 2.1解: (1) 红细胞数和血红蛋白含量的分布一般为正态分布,但二者的单位不一致,应采用变异系数(CV )比较二者的变异程度。 女性红细胞数的变异系数0.29 100%100% 6.94%4.18 S CV X = ?=?= 女性血红蛋白含量的变异系数10.2 100%100%8.67%117.6 S CV X =?=?= 由此可见,女性血红蛋白含量的变异程度较红细胞数的变异程度大。 (2) 抽样误差的大小用标准误X S 来表示,由表4计算各项指标的标准误。 男性红细胞数的标准误0.031 X S = ==(1210/L ) 男性血红蛋白含量的标准误0.374 X S = ==(g/L )
女性红细胞数的标准误0.018X S = ==(1210/L ) 女性血红蛋白含量的标准误0.639X S = ==(g/L ) (3) 本题采用区间估计法估计男、女红细胞数的均数。样本含量均超过100,可视为大样本。σ未知,但n 足够大 ,故总体均数的区间估计按 (/2/2X X X u S X u S αα-+ , )计算。 该地男性红细胞数总体均数的95%可信区间为: (4.66-1.96×0.031 , 4.66+1.96×0.031),即(4.60 , 4.72)1210/L 。 该地女性红细胞数总体均数的95%可信区间为: (4.18-1.96×0.018 , 4.18+1.96×0.018),即(4.14 , 4.22)1210/L 。 (4) 两成组大样本均数的比较,用u 检验。 1) 建立检验假设,确定检验水准 H 0:12μμ=,即该地健康成年男、女血红蛋白含量均数无差别 H 1:12μμ≠,即该地健康成年男、女血红蛋白含量均数有差别 0.05α= 2) 计算检验统计量 22.829X X u === 3) 确定P 值,作出统计推断 查t 界值表(ν=∞时)得P <0.001,按0.05α=水准,拒绝H 0,接受H 1,差别有统计学意义,可以认为该地健康成年男、女的血红蛋白含量均数不同,男性高于女性。 (5) 样本均数与已知总体均数的比较,因样本含量较大,均作近似u 检验。 1) 男性红细胞数与标准值的比较 ① 建立检验假设,确定检验水准 H 0:0μμ=,即该地男性红细胞数的均数等于标准值
WORD 文档下载可编辑 第二单元计量资料的统计推断 分析计算题 2.1 某地随机抽样调查了部分健康成人的红细胞数和血红蛋白量,结果见表4: 表4 某年某地健康成年人的红细胞数和血红蛋白含量 指标性别例数均数标准差标准值* 红细胞数/1012·L -1男360 4.66 0.58 4.84 女255 4.18 0.29 4.33 血红蛋白/g·L -1男360 134.5 7.1 140.2 女255 117.6 10.2 124.7 请就上表资料: (1) 说明女性的红细胞数与血红蛋白的变异程度何者为大? (2) 分别计算男、女两项指标的抽样误差。 (3) 试估计该地健康成年男、女红细胞数的均数。 (4) 该地健康成年男、女血红蛋白含量有无差别? (5) 该地男、女两项血液指标是否均低于上表的标准值(若测定方法相同)? 2.1 解: (1) 红细胞数和血红蛋白含量的分布一般为正态分布,但二者的单位不一 致,应采用变异系数(CV )比较二者的变异程度。 女性红细胞数的变异系数CV S 100% X S 0.29 4.18 100% 6.94% 10.2 女性血红蛋白含量的变异系数CV 100% 100% 8.67% X 117.6
由此可见,女性血红蛋白含量的变异程度较红细胞数的变异程度大。 (2) 抽样误差的大小用标准误S X 来表示,由表 4 计算各项指标的标准误。 男性红细胞数的标准误S X S 0.58 0.031 ( 1012 /L ) n 360 S 男性血红蛋白含量的标准误S X n 7.1 360 0.374 (g/L ) 女性红细胞数的标准误S X S 0.29 0.018 ( 1012 /L) n 255 女性血红蛋白含量的标准误S X S 10.2 0.639 (g/L ) n 255 (3) 本题采用区间估计法估计男、女红细胞数的均数。样本含量均超过100 ,可视为大样本。未知,但n 足够大,故总体均数的区间估计按( X u / 2S X, X u / 2 S X)计算。 该地男性红细胞数总体均数的95% 可信区间为: (4.66 -1.96 ×0.031 , 4.66 +1.96 ×0.031) ,即(4.60 , 4.72) 1012 /L。 该地女性红细胞数总体均数的95% 可信区间为: (4.18 -1.96 ×0.018 , 4.18 +1.96 ×0.018) ,即(4.14 , 4.22) 1012 /L。 (4) 两成组大样本均数的比较,用u 检验。 1) 建立检验假设,确定检验水准 H0: 1 2 ,即该地健康成年男、女血红蛋白含量均数无差别 H1: 1 2 ,即该地健康成年男、女血红蛋白含量均数有差别 0.05 2) 计算检验统计量
卫生统计学试题1 注:因原件较模糊,所以试题中可能有错字或答案错漏,有的请指出,仅供参考;复习主要看书本。 一、选择题(每题只有一个正确答案,共40分) 1、随机事件的概率p 等于( ) A p=0 B p=1 C p= D 0
40 B T<1或n<40 C T>5且n>40 D 以上都不是 10、( )表示某一事物内部各部分所占比重。 A 频率指标 B 构成比 C 相对比 D 定比 11、t 检验的前提条件是( ) A n 较大 B 小样本来自正态总体且总体方差具有齐性 C 总体标准差已知 D 以上都不是 12、同一资料相关回归分析中,求得r t 与b t 值,其关系( )
第二单元计量资料的统计推断 分析计算题 2.1 某地随机抽样调查了部分健康成人的红细胞数和血红蛋白量,结果见表4: 表4 某年某地健康成年人的红细胞数和血红蛋白含量 指标性别例数均数标准差标准值* 红细胞数/1012·L-1男360 4.66 0.58 4.84 女255 4.18 0.29 4.33 血红蛋白/g·L-1男360 134.5 7.1 140.2 女255 117.6 10.2 124.7 请就上表资料: (1) 说明女性的红细胞数与血红蛋白的变异程度何者为大? (2) 分别计算男、女两项指标的抽样误差。 (3) 试估计该地健康成年男、女红细胞数的均数。 (4) 该地健康成年男、女血红蛋白含量有无差别? (5) 该地男、女两项血液指标是否均低于上表的标准值(若测定方法相同)? 2.1解: (1) 红细胞数和血红蛋白含量的分布一般为正态分布,但二者的单位不一致,应采用变异系数(CV)比较二者的变异程度。 女性红细胞数的变异系数 女性血红蛋白含量的变异系数 由此可见,女性血红蛋白含量的变异程度较红细胞数的变异程度大。 (2) 抽样误差的大小用标准误来表示,由表4计算各项指标的标准误。 男性红细胞数的标准误(/L) 男性血红蛋白含量的标准误(g/L)
女性红细胞数的标准误(/L) 女性血红蛋白含量的标准误(g/L) (3) 本题采用区间估计法估计男、女红细胞数的均数。样本含量均超过100,可视为大样本。未知,但足够大,故总体均数的区间估计按()计算。 该地男性红细胞数总体均数的95%可信区间为: (4.66-1.96×0.031 , 4.66+1.96×0.031),即(4.60 , 4.72)/L。 该地女性红细胞数总体均数的95%可信区间为: (4.18-1.96×0.018 , 4.18+1.96×0.018),即(4.14 , 4.22)/L。 (4) 两成组大样本均数的比较,用u检验。 1) 建立检验假设,确定检验水准 H0:,即该地健康成年男、女血红蛋白含量均数无差别 H1:,即该地健康成年男、女血红蛋白含量均数有差别 2) 计算检验统计量 3) 确定P值,作出统计推断 查t界值表(ν=∞时)得P<0.001,按水准,拒绝H0,接受H1,差别有统计学意义,可以认为该地健康成年男、女的血红蛋白含量均数不同,男性高于女性。 (5) 样本均数与已知总体均数的比较,因样本含量较大,均作近似u检验。 1) 男性红细胞数与标准值的比较 ①建立检验假设,确定检验水准 H0:,即该地男性红细胞数的均数等于标准值
医学统计学期末复习题 一、单项选择题 1 下面的变量中是分类变量的是 A.身高 B.体重 C.年龄 D.血型 2 下面的变量中是是数值变量的是 A.性别 B.年龄 C.血型 D.职业 3.随机事件的概率 P 为 =0 B. P=1 C. P= D. 0
第一章绪论 第二章(一)A1型:1.下面的变量中,属于分类变量的是_____。 A.脉搏 B.血型 C.肺活量 D.红细胞计数 E.血压 2.下面的变量中,属于定量变量的是_____。A.性别 B.体重 C.血型 D.职业 E.民族 3.某人记录了50名病人体重的测定结果:小于50kg的13人,介于50kg和70kg间的20人,大于70kg的17人,此种资料属于_____。 A.定量资料 B.分类资料 C.有序资料 D.二分类资料 E.名义变量资料 4.上述资料可以进一步转换为_____。 A.定量资料 B.分类资料 C.有序资料 D.二分类资料 E.名义变量资料 5.若要通过样本作统计推断,样本应是_____。 A.总体中典型的一部分 B.总体中任一部分 C.总体中随机抽取的一部分 D.总体中选取的有意义的一部分 E.总体中信息明确的一部分 6.统计量_____。A.是统计总体数据得到的量 B.反映总体统计特征的量 C.是根据总体中的全部数据计算出的统计指标 D.是用参数估计出来的 E.是由样本数据计算出的统计指标 7.因果关系_____。A.就是变量间数量上的联系 B.可以用统计方法证明 C.必定表现 为数量间的联系 D.可以通过单独考察两个变量间关系得出 E.可以通过变量间数量上的联系来证明 (二)A2型:1.教材中提及美国人1954年实施了旨在评价索尔克(Salk)疫苗预防小儿麻痹或死于脊髓灰质炎效果的临床试验。有180万儿童参与,约有1/4参与者得到了随机化。这180万儿童是_____。 A.目标总体 B.研究总体 C.1份样本 D.1份随机样本 E.180万份样本 2.上述试验最终肯定了索尔克疫苗的效果。请问此结论是针对_____而言。 A.180万儿童 B.每个儿童 C.所有使用索尔克疫苗的儿童 D.所有儿童 E.180万儿童中随机化的1/4 二、是非题 1.定量变量、分类变量和有序变量可以相互转换。 2.假变量可以参与计算,所以假变量是定量变量。 3.离散变量在数值很大时,单位为“千”或“万”时可以取小数值,此时可近似地视为连续型变量。 4.同质的个体间不存在变异。 5.如果个体间有变异,则它们一定不是来自同一总体。 第二章定量资料的统计描述(一)A1型:1.用频率表计算平均数时,各组的组中值应为_______。 A.本组段变量值的平均数 B. 本组段变量值的中位数 C. 本组段的上限值 D. 本组段的下限值 E. (本组段上限值+本组段下限值)/2 2.离散型定量变量的频率分布图可以用_______表达。 A. 直方图 B. 直条图 C.百分条图 D.箱式图 E.复式条图 3. 变异系数越大说明_______。A.标准差越大 B.平均数越大 C.标准差、平均数都大
医学统计学复习题 一、名词解释 1.总体:根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。 2.样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。 3.随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。 4.变异:在自然状态下,个体间测量结果的差异称为变异(variation)。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。 5.计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等。 6.计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O四种血型的人数等。 7.等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。等级资料又称有序资料。如患者的治疗结果可分为治愈、好转、有效、无效、死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量。 8.概率:概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大。0﹤P(A)﹤1。 9.频率:在相同的条件下,独立重复做n次试验,事件A出现了m次,则比值m/n称为随机事件A在n次试验中出现的频率(freqency)。当试验重复很多次时P(A)= m/n。 10. 随机误差:随机误差(random error)又称偶然误差,是指排除了系统误差后尚存的误差。它受多种因素的影响,使观察值不按方向性和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。 11.系统误差:是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。系统误差可以通过实验设计和完善技术措施来消除或使之减少。 12.参数:指总体的统计指标,如总体均数、总体率等。总体参数是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统
第一套试卷及参考答案 一、选择题(40分) 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制( B ) A 条图 B 百分条图或圆图C线图D直方图 2、均数和标准差可全面描述 D 资料的特征 A 所有分布形式B负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5岁男孩的身高是否偏高或偏矮,其统计方法是(A ) A 用该市五岁男孩的身高的95%或99%正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99%的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用(A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是( A ) A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同 6. 男性吸烟率是女性的10倍,该指标为(A ) (A)相对比(B)构成比(C)定基比(D)率 7、统计推断的内容为( D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A和B均不是 D. A和B均是 8、两样本均数比较用t检验,其目的是检验( C ) A两样本均数是否不同B两总体均数是否不同C两个总体均数是否相同D两个样本均数是否相同 9、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t检验时,自由度是(D ) (A)n1+ n2(B)n1+ n2–1 (C)n1+ n2 +1 (D)n1+ n2 -2 10、标准误反映(A ) A 抽样误差的大小 B总体参数的波动大小 C 重复实验准确度的高低 D 数据的离散程度 11、最小二乘法是指各实测点到回归直线的(C) A垂直距离的平方和最小B垂直距离最小C纵向距离的平方和最小D纵向距离最小 12、对含有两个随机变量的同一批资料,既作直线回归分析,又作直线相关分析。令对相关系数检验的t值为t r,对回归系数检验的t值为t b,二者之间具有什么关系?(C) A t r>t b B t r
五、分析应用题(4题,共40分) 1、为观察某病西医治疗及中西医结合治疗的疗效, 单纯型用西医治疗, 疑难型用中西医结合治疗, 疗效如下: 某病西医治疗及中西医结合治疗疗效比较 疗法例数治愈数治愈率(%) 西医治疗 70 50 74.29 中西医治疗 60 22 36.67 X2 =5.29 0.05>P>0.01, 西医治疗的疗效较好。你认为如何?请说出理由(6分) 1、答:结论不可信(2分);因为在设计分组上不科学,两组间不具有可比性(4分)。 2、24名志愿者完全随机地分成两组,接受降胆固醇试验。甲组为特殊饮食组,乙组为药物处理组,受试者在试验前后各测量一次血清胆固醇(mmol/L),数据如下表, 甲组乙组 受试者试验前试验后受试者试验前试验后 1 6.11 6.00 1 6.90 6.93 2 6.81 6.8 3 2 6.40 6.35 3 6.48 6.49 3 6.48 6.41 4 7.59 7.28 4 7.00 7.10 5 6.42 6.30 5 6.53 6.41 6 6.94 6.64 6 6.70 6.68 7 9.17 8.42 7 9.10 9.05 8 7.33 7.00 8 7.31 6.83 9 6.94 6.58 9 6.96 6.91 10 7.67 7.22 10 6.81 6.73 11 8.15 6.57 11 8.16 7.65 12 6.60 6.17 12 6.98 6.52 (1)欲分析两种治疗方法是否有效,采用何种统计分析方法?(6分) (2)欲判断两种降血清胆固醇措施效果是否相当,又采用何种统计分析方法?(6分) 2、答:(1)欲分析两种治疗方法是否有效,可用治疗前后比较,属配对设计(2分),应用配对t检验(3分)。(2)如判断两种方法的效果有无差别,则属成组设计(2分),应用两样本均数比较的t检验(3分)。 3、检验血磷含量有甲、乙两种方法,其中,乙法具有快速、简便等优点。现用甲、乙两法检测相同的血液样品,所得结果如下表。 样本号 1 2 3 4 5 6 7 乙法 2.74 0.54 1.20 5.00 3.85 1.82 6.51 甲法 4.49 1.21 2.13 7.52 5.81 3.35 9.61 问:⑴若要判断能否用乙法推算甲法,又用何统计方法?(6分) ⑵欲比较甲乙两法检出血磷是否相同,用何统计方法?(6分) 3、答:(1)根据题意,应用回归分析(6分) (2)这是配对设计计量资料(2分),应用配对t检验(4分) 4、某单位对常住本市5年以上,从未接触过铅作业,也未服过含铅药物或其它重金属,饮用自来水,无肝、肾疾患及贫血,近日未使用利尿剂的健康成年,用乙酸乙酰法测24小时尿δ-ALA的结果如下,欲制定其95%正常值范围。请问:用何种估计方法?说出理由并给出计算公式。(10分) δ-ALA 0.5- 1.0- 1.5- 2.0- 2.5- 3.0- 3.5- 4.0 -4.5- 5.0-5.5 合计
第一章绪论习题 一、选择题 1.统计工作与统计研究得全过程可分为以下步骤:(D) A、调查、录入数据、分析资料、撰写论文 B、实验、录入数据、分析资料、撰写论文 C、调查或实验、整理资料、分析资料 D、设计、收集资料、整理资料、分析资料 E、收集资料、整理资料、分析资料 2、在统计学中,习惯上把(B )得事件称为小概率事件。 A、B、或C、 D、E、 3~8 A、计数资料 B、等级资料 C、计量资料 D、名义资料 E、角度资料 3、某偏僻农村144名妇女生育情况如下:0胎5人、1胎25人、2胎70人、3胎30人、4胎14人。该资料得类型就是( A)。 4、分别用两种不同成分得培养基(A与B)培养鼠疫杆菌,重复实验单元数均为5个,记录48小时各实验单元上生长得活菌数如下,A:48、84、90、123、171;B:90、116、124、22 5、84。该资料得类型就是(C )。 5、空腹血糖测量值,属于( C)资料。 6、用某种新疗法治疗某病患者41人,治疗结果如下:治愈8人、显效23人、好转6人、恶化3人、死亡1人。该资料得类型就是(B )。 7、某血库提供6094例ABO血型分布资料如下:O型1823、A型1598、B型2032、AB型641。该资料得类型就是(D )。 8、100名18岁男生得身高数据属于(C )。 二、问答题 1.举例说明总体与样本得概念、 答:统计学家用总体这个术语表示大同小异得对象全体,通常称为目标总体,而资料常来源于目标总体得一个较小总体,称为研究总体。实际中由于研究总体得个体众多,甚至无限多,因此科学得办法就是从中抽取一部分具有代表性得个体,称为样本。例如,关于吸烟与肺癌得研究以英国成年男子为总体目标,1951年英国全部注册医生作为研究总体,按照实验设计随机抽取得一定量得个体则组成了研究得样本。 2.举例说明同质与变异得概念 答:同质与变异就是两个相对得概念。对于总体来说,同质就是指该总体得共同特征,即该总体区别于其她总体得特征;变异就是指该总体内部得差异,即个体得特异性。例如,某地同性别同年龄得小学生具有同质性,其身高、体重等存在变异。 3.简要阐述统计设计与统计分析得关系 答:统计设计与统计分析就是科学研究中两个不可分割得重要方面。一般得,统计设计在前,然而一定得统计设计必
l.统计中所说的总体是指: A A根据研究目的确定的同质的研究对象的全体B随意想象的研究对象的全体 C根据地区划分的研究对象的全体 D根据时间划分的研究对象的全体 E根据人群划分的研究对象的全体 2.概率P=0,则表示 B A某事件必然发生 B某事件必然不发生 C某事件发生的可能性很小D某事件发生的可能性很大E以上均不对3.抽签的方法属于 D A分层抽样B系统抽样 C整群抽样 D单纯随机抽样 E二级抽样4.测量身高、体重等指标的原始资料叫: B A计数资料B计量资料 C等级资料 D分类资料 E有序分类资料5.某种新疗法治疗某病患者41人,治疗结果如下: 治疗结果治愈显效好转恶化死亡
治疗人数82363 1 该资料的类型是: D A计数资料 B计量资料 C无序分类资料 D有序分类资料 E数值变量资料6.样本是总体的 C A有价值的部分B有意义的部分C有代表性的部分D任意一部分E典型部分7.将计量资料制作成频数表的过程,属于统计工作哪个基本步骤:C A统计设计B收集资料C整理资料D分析资料E以上均不对8.统计工作的步骤正确的是 C A收集资料、设计、整理资料、分析资料 B收集资料、整理资料、设计、统计推断C设计、收集资料、整理资料、分析资料 D收集资料、整理资料、核对、分析资料E搜集资料、整理资料、分析资料、进行推断9.良好的实验设计,能减少人力、物力,提高实验效率;还有助于消除或减少: B
A抽样误差B系统误差C随机误差D责任事故E以上都不对 10.以下何者不是实验设计应遵循的原则 D A对照的原则B随机原则C重复原则D交叉的原则E以上都不对 第八章数值变量资料的统计描述11.表示血清学滴度资料平均水平最常计算 B A算术均数B几何均数C中位数D全距E率12.某计量资料的分布性质未明,要计算集中趋势指标,宜选择 C A X B G C M D S E C V 13.各观察值均加(或减)同一数后: B A均数不变,标准差改变B均数改变,标准差不变 C两者均不变D两者均改变E以上均不对14.某厂发生食物中毒,9名患者潜伏期分别为:16、2、6、3、30、2、l O、2、24+(小时),问该食物中毒的平均潜伏期为多少小时 C A5B5.5C6D10E1 2