文档库 最新最全的文档下载
当前位置:文档库 › 统计学名词解释超级大全

统计学名词解释超级大全

统计学名词解释超级大全
统计学名词解释超级大全

统计学名词解释超级大全第一章导论

统计学:一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学,是一门独立的、实用性很强的通用方法论科学。

教育统计学:专门研究如何搜集、整理、分析在心理和教育方面对实验或调查所获得的数字资料,如何根据这些资料所传递的信息,进行数学推论,找出客观规律的一门科学。

描述统计:对实验或调查所获得的数据加以整理(如制表、绘图),并计算其各种代表量数(如集中量数、差异量数、相关量数等),其基本思想是平均,如在集中量数中将原始数据进行平均,在差异量数中将离均差进行平均,在相关量数中将积差进行平均等等。

推断统计:又称抽样统计。它是根据对部分个体进行观测所得到的信息,通过概括性的分析、论证,在一定可靠程度上去推测相应团体。换言之,就是根据已知的情况推测未知情况。

实验设计:研究如何更加合理、有效地获得观测资料,如何更正确、更经济、更有效地达到实验目的,以揭示试验中各种变量关系的实验计划。

统计常态法则:从总体中随机抽取一部分个体所组成的样本,差不多可以保持总体的特征。这种样本特性保持着总体特性的现象叫做统计常态法则。

小数永存法则:第一个样本中所表现出的特性,在其他样本中也会存在,这就是小数永存法则。此处“小数”是指小数量的意思。

大量惰性原则:某一事物的某一性质或状态,在反复观察或试验中是保持不变的。

有效数字:指能影响测量准确性的数字。

变量:又称随机变量。具有变异性的数据。三个特性,离散型,变异性,规律性。

数据:某个数值一旦被取定了,则称这个数值为随机变量的一个观察值。即数据。

总体:性质相同的一类事物的全体。

个体:构成总体的每一基本单位或单元。

样本:总体抽出的部分个体。

参数:表示总体特征的量数。

统计量:直接从样本计算出的量数,代表样本的特征。

名称变量:指一事物与其他事物在属性、类别上不同。

顺序变量:事物的某一属性的多少或大小按顺序排列起来的变量。既无相等的单位又无绝对的零点的变量。

等距变量:只具有相等的单位,而没有绝对的零点的变量。

比率变量:既有相等的单位,又有绝对的零点的变量。

连续变量:指取值可以是某区间内任一数值的随机变量,它是指测量单位之间可以划分成无限多个细小单位,其数字形式多取小数。

离散变量:指测量单位之间不能再细分的数字资料,其数字形式常取整数。

计数数据:计算人或物的个数所获得的数据。

度量数据:用一定的测量工具或测量标准测量时所获得的数据。

指标:表明总体数量特征的概念和具体数值,又称统计指标,它是把各个个体的特征加总起来的综合结果。

标志:指统计总体中各个个体共同具有的属性和特征,它是说明个体属性和特征的名称。

绝对数:用来表明在一定时间、地点条件下某种教育、心理现象的总体规模和发展水平的统计指标,又称总量指标。

相对数:指教育与心理现象中两个单位相同的相互联系的指标数值的比率。

品质标志:是表明个体属性特征的,不能用数量说明,只能用文字说明。

数量标志:是表明个体数量特征的标志,是用数值表示的。

第二章数据的搜集、整理与表达

次数:某一事件在某一类别中出现的数目,又叫频数,用f表示。

频率:指每一组的数据个数除以数据的总和,又称相对次数。用符号p表示。

百分频率:频率与百分数的乘积。

组中值:每一组的中点值,常用m或X c表示。

全距:全部数据的距离,也称极差,是用一群数据中的最大值减去最小值。

组距:指每一组所包含的间隔或数据单位,用i表示。

组限:指每一组的起止点或每一组的界限。

统计表:以表格的形式表达统计资料数量关系的方式或工具。

统计图:以几何图形和形象图形表示统计资料数量关系的工具。

次数分布

累积次数:以简单次数为基础,从最低组开始逐级累加直至最高组,或从最高组开始逐级累加直至最低组,用符号cum﹒f或F表示。

累积百分频率:各组累计次数与总次数的比值。

一时性资料:在一定时限内所收集的有关问题的资料为一时性资料。来源三个方面,教育与心理调查,教育与心理测量和教育与心理实验。

经常性资料:主要是日常工作中的记录和统计报表等。

直条图:用直条(或矩形)的长短表示统计数据多少的图形。

直方图:以矩形面积表示连续变量的统计图。

折线图:以纵轴的高度表示次数,并将各点用线段连接的统计图形。

散点图:表示事物相互关系的图形。

圆形图:用圆的面积表示一组数据的整体,用扇形表示各组成部分所占比重或百分比的统计图。

枝叶图:把首位数字或首几位数字定位枝,其他位数定为叶的一种数字图。

第三章集中量数

集中量数:一组数据的代表值,用以说明一组数据分布的典型情况或一般水平,它比个别数据更能反映客观现象或事物的实际情况。

集中趋势:在实验、测量或调查中获得的大量观测数据,具有一种向数据中央某一点靠拢的趋势。

平均数:所有观测值(或变量值)的总和除以总个数所得的商。

中数:按一定顺序排列的一组数的中央位置的数值。

众数:一群数据中出现次数最多的那个数值,又称范数。

几何平均数:几个变量值乘积的n次方根。

调和平均数:指一群数据倒数的算术平均数的倒数,又称倒数平均数。

百分位数:任意百分位上的数值。

四分位数:1/4位置上的数值和3/4位置上的数值。

第四章差异量数

离中趋势:

差异量数:描述一组数据离中趋势的量数。

方差(S2/V/MS):一列数据离差平方的算术平均数。一列数据平均差距地平方。

标准差(S/SD):方差的算术平方根。一列数据的平均差距。

平均差(AD):离差绝对值的平均数。

全距(R g):最大值与最小值的差。

偏态量(SK/α3):三级中心动差。

峰态量(α4):四级中心动差。

百分位差:表示某两个百分位数之间差异程度的指标。

四分位差:是百分位差的特例。用于分析P75与P25之差的一半。

统计动差:在统计学上,借用物理学中的动势(或动差)概念而称为统计动差。

中心动差:以平均数所在的位置为原点,以各组观测值与均数的差(X-X)为力臂,各组次数为作用力来计算动差。这种以均数为原点计算的统计动差叫做中心动差。

第五章相对量数

相对地位量数:就某一特质来描述个体在团体中所占的地位的量数。

相对差异量数:指差异量数与集中量数的百分比,又叫差异系数。用符号CV表示。

标准差系数:标准差与平均数的百分比,用符号CV S表示。

百分等级:指把一组观测值先按高低次序排列起来,然后计算出某个个体的分数在百分位上超出多少人,或是在此分数下占多少百分比的一种量数,用符号

P R表示

标准分数:它有许多变形,其中最典型的标准分数为Z分数。以标准差为单位所表示的“原始分数”与平均数的偏差,亦即原始分数与其平均数之差除以标准差所得的商。

第六章相关量数

相关量数:分析或研究两个或两个以上变量之间相互关系的量数。

正相关:指一列变量由大到小或由小而大变化时,另一列变量亦由大而小或由小而大的变化,即两列变量是同方向变化的,属“同增共减”的关系。

负相关:指一列变量由小到大或由大而小变化时,另一列变量却由小而大或由大而小的变化,即两列变量是反方向变化的,属“此增彼减”的关系。

零相关:又称无相关,指两列变量的变化看不出一定的趋势。

相关系数:表示相关方向和大小的一种数值。用符号r表示。

直线相关:指两列变量中的一列变量在增加时,另一列变量随之而增加;或一列变量在增加,另一列变量却相应的减少,形成一种直线关系。

曲线相关:指两列相伴随变化的变量,未能形成直线关系。

简相关:指只有两个变量的相关。

复相关:指有三个或三个以上变量的相关。

积差相关:直线相关中最基本的方法。利用离差乘积的关系来说明事物的关系,是将原始记分转换为离差乘积,再转换为标准积差后所求得的标准积差的平均数。用符号r XY表示

斯皮尔曼等级相关:根据两列变量的成对等级差数计算的相关系数,又称“等级差数法”,用符号r p或r s表示。

肯德尔W系数:用于描述多列等级变量相关程度或一致性程度的相关方法。

点二列相关:研究一列等距或比率变量与一列“二分”名称变量之间相关的统计方法。r pb

二列相关:研究一列正态的比率或等距变量和一列人为“二分”名称变量之间相互关系的统计方法。用符号r b或r bis表示

phi系数:专门研究两列“二分”变量之间相关的统计方法,衡量两个分类变量均分为两类时其关联程度的指标。即Φ相关。用符号rΦ或Φ表示。

第七章概率分布及其应用

二项分布:二项试验结果的概率分布。

正态分布:就是中间量数次数分布多,两端量数次数分布少,呈对称型的概率分布。又叫高斯分布。

t分布:由小样本统计量形成的概率分布。

频率:一种随机事件发生的次数与总试验次数的比值。

概率:随机事件在试验中发生可能的程度或可能性的大小,用P表示。概率的统计定义是指通过频率来计算的概率;又称经验概率。概率的古典定义是根据问题本身所具有的“对称性”特点直接计算事件的概率;又称先验概率。

中心极限定理:推断统计中最基本的理论与方法,用极限的方法所求得随机变量分布的一系列定理。

随机抽样:

随机样本:指按照概率的规律抽取的样本,即随机样本所包含的研究对象不是由某个人或集体的意向所决定的,只能凭各研究对象相互独立的机会而定。

抽样误差:由于抽样的随机性所引起的样本统计量与总体参数之间的不同。

标准误:样本统计量分布的标准差或某统计量在抽样分布上的标准差。用符号SE或σx表示。

自由度:在推断统计中,把一群数据或观测值可以独立自由变动的数目称为自由度。df /n’

确定性事件:指在一定条件下必然会发生或必然不会发生的事件。分为必然事件和不可能事件。

必然事件:指在一定条件下必然会发生的事件。

不可能事件:指在一定条件下必然不会发生的事件。

随机事件:在一定条件下,可能发生,也可能不发生的事件。

模糊事件:指对象类属边界和性态不确定的事件。

第八章参数估计

参数估计:根据样本统计量去估计相应总体的参数。

总体平均数估计:用样本的均数去估计总体的均数。

点估计:在参数估计中直接以样本的统计量作为总体参数的估计值。

区间估计:以统计量的区间值来估计相应总体。

置信系数:指被估计的总体参数落在置信区间内的概率D,或以1-α表示,又叫置信水平,置信度,可靠性系数,置信概率。

置信区间:指在特定的可靠性(即置信系数)要求下,估计总体参数所落得区间范围,亦即进行估计的全距。

置信限:被估计的总体参数所落区间的上、下界限。

推断统计:指由样本资料区推测相应总体情况的理论与方法,也就是部分推全体,由已知推未知的过程。

无偏估计量:用统计量估计总体参数必然存在一定误差,恰好相等的情形是极少见的,当然,无偏性并不是说没有一点误差,而是要求用各个样本的统计量作为估计值,其偏差为0。即∑(X-μ)=0。这时的统计量被称为无偏估计量。

第九章参数检验

假设检验:由于在进行差异检验时需要先对事物是否存在差异作出假设,然

后再作统计检验,因此称为假设检验,又称差异的显著性检验。

α错误:指虚无假设本身是正确的,但由于抽样的随机性而使检验值落入了拒绝虚无假设的区域,致使做出了拒绝虚无假设的结论,又称Ⅰ型错误。

β错误:指虚无假设本身不正确,但由于抽样的随机性而使检验值落入了接受虚无假设的区域,致使作出了接受虚无假设的结论,又称Ⅱ型错误。

双侧检验:把拒绝性概率值置于理论分布的两端或两侧。

单侧检验:把拒绝性概率值置于理论分布的一尾或一侧。

虚无假设:研究人员为了证实研究假设是真的而利用概率论的反证法所进行的假设。根据检验结果予以接受或拒绝的假设。用H o表示。

研究假设:研究者希望证实的假设。用H a表示。

显著性水平:拒绝虚无假设,接受研究假设的小概率值。

方差齐性:

独立样本:指从两个无关的总体中随机抽取的两个或多个样本,或者说是独立抽取的,彼此间的数据不存在对应关系的样本。

相关样本:从具有一定程度相关的总体中抽取的两个或多个样本,亦即彼此的观测值之间存在一一对应的关系的样本。

第十章方差分析

方差分析:就是对多个平均数进行比较的一种统计方法,又称变异数分析。

变异率:根据方差分析的原理,需比较组间变异和组内变异,若用一个统计量来揭示组间变异,则称这一统计量为变异率。

组间变异:组与组之间的差异称组间变异,它反映各组平均数的不同。

组内变异:同一组内部被试(个体)之间的差异称组内变异,它反映每一个人分数的不同。

区组变异:

多重比较:F检验的后续检验。

因素:自变量(实验者所操作的变量)。

水平:自变量的配置或范围。

处理:不同因素水平的组合。

F检验:F值中分子大于分母的一种检验方法。

第十一章回归分析

回归分析:根据一个已知变量来预测另一个变量平均值的统计方法。

回归线:分别用两列变量做横、纵轴描点。如没有随机误差的影响,这些点将落在一条直线上,此直线叫回归线。

回归系数:线性回归方程中自变量的系数。

最小二乘法:找到这样一条直线,使所有的点到直线的垂直距离(与X轴垂直)的平方和最小。

线性方程:

一元线性方程:

多元线性方程:

预测标准误:能够估计自变量与因变量接近程度的统计值就是预测的标准误。

测定系数:相关系数的平方,用于说明一个变量由另一个变量解释的程度。

偏回归系数:

偏相关:排除一个(或两个)变量后再求另两个变量的相关。

多元测定系数:多元相关系数R是指三个或更多变量之间相互关联的程度,又称复相关系数。其平方(R2)则为多元测定系数。

复相关:三个及三个以上的变量相关。

第十二章χ2检验——计数数据分析方法

χ2检验

适合性检验:检验实际的观察次数与某一理论模型是否相符,又称为1×c 表的χ2检验。

独立性检验:处理二元分类资料的χ2检验方法。

χ2分布:如果从总体中随机抽取若干个样本,每一样本的实测次数与理论次数相比较都可以得到一个χ2值,若干个样本就可以计算出若干个χ2值,于是一切可能的χ2值就组成了一个抽样分布,即χ2分布。

正态拟合性检验:检验实际次数分布是否符合正态分布。

第十三章非参数检验

参数检验:

非参数检验:

符号检验:指利用正负号为资料检验两个相关样本差异显著性的统计方法。

符号等级检验:利用成对数据的符号及差值大小顺序检验两个相关样本差异显著性的统计方法。

秩和检验:以秩和概率分布检验两总体是否为同一分布的统计方法。

中位数检验:检验两个以上独立样本差异的方法。

等级方差分析:

名词解释:

医学统计学:用统计学的原理和方法研究生物医学问题的一门学科。

变量(variable):观察单位的某项特征

变量值(value of variable):变量的观察结果(测量值)

总体(population):是根据研究目的确定的同质的观察单位的全体,确切的说是同质的所有的观察单位某种变量值的集合。

样本(sample)从总体中随机抽取部分由代表性的观察单位,其测量值的集合称为样本。

随机抽样(random sample):按随机化原则从总体中抽取部分观察单位的过程。

同质(homogeneity):是针对被研究指标来讲,其影响因素相同。简单地理解就是指对研究指标影响大约可以控制的主要因素应尽可能相同。

变异(variation):指在自然地状态下,个体测量结果在同质基础上的差异。

等级资料(ordinal data):将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位称为等级资料,如患者的治疗结果可分为治愈,好转,有效,无效,死亡。有序变量(定性变量的一种)。

概率(probability):是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大,0

频率(frequency):在相同的条件下,独立重复做n次实验,事件A出现了m次,比值m/n称为随机事件A在n次实验中出现的频率。

随机误差(random error):排除了系统误差后的尚存的误差,受多种因素影响,使观察值不按照方向性和系统性而随机的变化,误差变量一般服从正态分布,可以通过统计处理来估计。

系统误差(system error):由于受试对象,研究者,仪器设备,研究方法等非实验因素影响等确定性原因造成,有一定倾向性或规律性的误差,可以避免。

随机变量(random variable):是指取值不能事先确定的观察结果,不能用一个正常数来表示,每个变量的取值服从特定的概率分布。

参数(parameter):根据总体分布特征而计算的总体统计指标。

统计量(statistic):由总体中随机抽取样本而计算的相应样本指标。

频数表(frequency table):将各变量值及其相应的频数列出表格形式,用来表示一批数据各观察值出现的频繁程度。

算术均数(arithmetic mean):描述一组数据在数量上的平均水平。总体均

数用μ表示,样本均数用X 表示。

几何均数(geometric mean ):描述对数正态分布或数据呈倍数变化资料的水平,记为G.

中位数(median ),将一组观察值由小到大排列,n 为奇数时取位次居中的变量值,为偶数时,取位次居中的两个变量的平均值。

极差(range ):又称全距,为最大值与最小值之差,用于资料的粗略分析,计算简便但稳定性较差。符号R.

百分位数(percentile ):将n 个观察值从小到大依次排列,再把它们的位次转化为百分位。

四分位数间距(inter quarnle range ):表示百分位数P 75和百分位数P 25之差,定义为Q=P 75-P 25.。

方差(variance ):表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。

标准差(standard deviation ):是描述反映正态分布计量资料离散程度的指标。是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大小样本均可,最为常用。

变异系数(coefficient of variation ):用于量纲不同和变量间或均数相差较大的变量间变异程度的比较,其计算公式为: CV=100%?X

S 正态曲线(normal curve )是函数f(X)=22

2)(21

σμπσ--x e 对应的曲线,此曲线

是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟形曲线。

正态分布(normal distribution ):若指标X 的频率曲线对应于正态曲线,则称该指标服从正态分布,通常用记号N (μ,σ2)表示均数为标准差为的正态分布。

标准正态分布(standard normal distribution ):均数为0标准差为1的正态分布为标准正态分布,记为N(0,1).

标准化转换(standardized transformation ):若随机变量X 服从正态分布N

(μ,σ2),经过标准化转换Z=

σμ

-

X

,就服从标准正态分布。

统计推断(statistical inference):通过样本指标来说明总体特征,这种从样本获取有关总体信息的过程为统计推断。

抽样误差(sampling error):由个体差异产生,由于抽样而造成的样本统计量与样本统计量及样本统计量与总体参数之间的差异称为抽样误差,无倾向性,不可避免。

均数的标准误(standard error of mean SEM):用于表示均数抽样误差的指标,反映样本均数之间的离散程度和样本均数抽样误差的大小。

可信区间(confidence interval CI):为按预先给定的概率确定的包含未知总体参数的可能范围,含义是包含总体参数的可能性是1-a。

自由度:n个变量中,可自由取值的变量的个数。

参数估计:用样本指标(统计量)估计总体指标(参数),有点估计和区间估计两种。

假设检验中P的含义:指从H0规定的总体随机抽得的等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。

I类错误:拒绝了实际上成立的H0这类弃真的错误称为I类错误,概率大小用alfa表示。

II类错误:接受了实际上不成立的H0这类存伪的错误称为II类错误,概率大小用β表示。

检验效能:是指当两总体确有差别,按规定的检验水准所能发现该差异的能力。数值表示:1-β

检验水准:是预先规定的,当假设检验结果拒绝H0接受H1下有差别的结论时犯错误的概率称为检验水准,记为α

均方:有离均差平方和被自由度相除而得。

方差分析:根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和与自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个或某几个因素的作用加以解释,通过各变异来源地均方与误差均方比值的大小,借助F分布做出统计推断,判断各因素对观测指标有无影响。

总变异:样本中全部实验单位差异称为总变异,其大小可用全部观察值的均

方表示。

组间变异:各处理组间观察值大小不等,这种变异称为组间变异,可用组间均方表示。

组内变异:各处理组内部观察值大小不等,这种变异称为组内变异,可用组内均方表示。

完全随机设计:只考虑一个处理因素,将全部受试对象随机分配到各处理组,然后观察实验效应。

随机区组设计:事先将全部受试对象按自然属性分为若干区组,原则是各区组内的受试对象的特征相同或相近,且受试对象数与处理因素的水平相等,然后将每个区组内的观察对象随机地分配到各处理组。

相对数:是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用相对数有“率,构成比,比”等。

率:频率指标,说明一定时期内某现象发生的频率或强度,计算公式为发生某现象的观察单位数除以可能发生某现象的观察总体值*100% 表示方式有百分率%,千分率。

构成比:构成指标。说明某一事物内部的各组成部分所占的比重或分布,计算公式为:某一组分的观察单位数除以同一事物各组分的观察单位总数*100%,表示方法有百分数等。

比相对比。是AB 两个有关指标之比,说明A 是B 的若干倍或百分之几,计算公式为比等于B

A 。 标准化法:常用于内部构成不同的两个或多个率比较的一种方法,基本思想是指定一个统计标准,按指定标准计算调制率,使之具备可比性以后再比较,以消除由于内部构成不同对总率比较带来的影响。

定基比:统一用某个时间的指标作为基数,其它各时间的指标与之相比。 环比:以前一个时间的指标作基数,以相邻的后一个时间的指标与之相比。

平均增长速度:用于概括某一时期的平均速度变化,即该时期环比的几何均

数减1。计算公式为平均增长速度=平均发展速度-1=10 n

n a a 粗死亡率(crude death rate CDR ):或死亡率(mortality rate ),指某地某年

平均每千人口中的死亡数,它反映居民总的死亡水平。

发病率(incidence rate IR):表示一定时期内,可能发生某病的一定人群中新发生某病的强度。

患病率(prevalence rate PR):又称现患率,指某时刻点上受检人群中现患某种疾病的频率,通常用于描述病程较长或发病时间不明确的疾病的患病情况。

动态数列(dynamic series)按一定的时间顺序,将一系列描述事物的统计指标依次排列起来,就可以观察和比较该事物在时间上的变化和发展趋势。

标化死亡率(standardized mortality rate SMR):寻找一个统一的分布作为标准组,然后每个比较组均按照该分布标准计算相应的死亡率,所得到的死亡率是相对于标准组的,故称为标化死亡率,由于采取了统一的标准,消除了内部分布不同对总死亡率的影响,使算得的标化死亡率具有可比性。

二项分布(Binomial distribution):如果每一次实验只有阳性或阴性两种可能的结果,每次实验阳性结果的发生概率均为π,阴性结果均为1-π,每次实验结果是相互独立的,那么重复n次实验,发生阳性结果次数X的概率分布称为二项分布。

拟合优度:指一种度量某事物的频数分布是否符合某一理论分布或数据是否与模型吻合的方法。

非参数统计:不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验。

参数统计:通常要求样本来自总体分布型是已知的,在这种假设的基础上,对总体参数进行估计和检验。

秩次:变量值按从小到大顺序所编的秩序号。

秩和:各组秩次的合计称为秩和,是非参数检验的基本统计量。

直线回归:建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。

回归系数:即直线的斜率,直线回归方程中用b表示,其统计意义为X每增减一个单位,Y平均改变b个单位。

直线相关:用于双变量正态分布资料,有正相关,负相关和零相关等关系。零相关表示两变量之间美欧直线相关系数。

相关系数或积差相关系数:以符号γ表示样本相关系数,p表示总体相关系数,它是说明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标。

秩相关或等级相关:用双变量等级数据作直线相关分析,适用于1,不服从双变量正态分布而不宜作积差相关分析,2,总体分布型未知,3,用等级表示原始数据。

统计图:将统计指标用几何图形表达,即以点的位置,线段的升降,直条的长短和面积的大小等形式直观的表示事物间的数量关系。

安慰剂对照:在实验研究中,对照组使用一种外形与实验药物完全相同而毫无药理作用的物质,这种对照称为安慰剂对照。

随机化:指研究对象中或总体中每一个观察单位都有同等的机会被选入样本或实验研究的各处理组中。

混杂因素:指实验研究中由于某些非实验因素与实验因素同时并存的作用影响到观察的结果,这种非实验因素称为混杂因素。

偏倚:指在实验中由于某些非实验因素的干扰而形成的系统误差,歪曲了处理因素的真实效应。

实验研究:是指研究者根据研究目的主动加以干预措施,并观察总结结果,回答假设研究所提出的问题的一种研究方法。

调查研究:是指对特定对象群体进行调查,影响被调查的因素是客观存在的,研究者只能被动地观察和如实记录。调查时的研究条件往往难以控制,一般只有通过合理分组,设置对照等手段尽可能的减少干扰。

简答

1,统计工作的步骤:统计工作全过程可分为:统计设计,搜集资料,整理资料和分析资料四个步骤。它们相互联系,缺一不可。

设计:是整个统计研究实施的依据,是最关键的一环,在设计时应对后三个步骤进行周密的设想和安排。

搜集资料:是统计工作的基础。是根据设计取得准确可靠地原始数据,按其来源时间分为经常性资料和一时性资料。资料要求完整,准确和及时。

整理资料:对原始资料进行审核、校正、整理并使之系统化、条理化,便于统计分析。

分析资料:计算统计指标,反映数据的综合特征,阐明事物内在的联系和规律,得出科学结论,统计分析包括统计描述和统计推断。

2,制作频数表的步骤:求全距,定组段数和组距;划组段;绘制整理表。

3,频数表的用途:解释频数的分布特征和类型:便于进一步计算统计指标和进行统计分析处理;便于发现某些特大或特小的可疑值。

4,标准差的用途:表示观察值得平均离散程度:结合均数可疑描述正态资料频数分布的特征和估计医学参考值范围:结合样本均数可疑计算变异系数;结合样本含量可疑计算标准误。

5,变异系数的应用:比较度量衡单位不同的多组资料的变异度:比较均数相差悬殊的多组资料的变异度。

6,正态分布的特征:以μ为中心,左右对称,均数处于曲线最高,两边逐渐下降;正态分布曲线下面积分分布有一定规律:有两个参数μ和σ,位置参数μ和变异参数σ决定了曲线的变异度和位置。

7,正态分布的应用:估计频数分布:制定医学参考值范围;做质量控制

8,标准误的用途:反映了样本均数间的离散程度及样本均数抽样误差的大小;推算可信区间;进行假设检验。

9,t分布的特征:单峰分布,以O位中心,左右对称,类似于标准正态分布;t分布形状与n有关,自由度越小,标准误越大,t值越分散,曲峰越矮,尾翘越高;n趋于无穷时,样本标准差逼近总体标准差,t分布逼近标准正态分布,t分布不是一条曲线,而是一簇曲线。

10,假设检验的基本思想:基于反证法思想和小概率思想。反证法思想:首先提出假设,用适当的统计方法确定假设成立的可能性大小,如果可能性小,

则认为假设不成立,拒绝它,如果可能性大,还不能认为它不成立;小概率思想:是指小概率事件在一次随机实验中认为基本上不会发生,在进行统计分析时要事先规定概率,即检验水准a

11,假设检验的基本步骤:建立假设;确定检验水准;选定检验方法;计算检验统计量;确定P值,做出推断结论。

12,t检验的应用条件:当样本含量较小时,理论上要求样本取自正态总体,两样本均数比较时还要求两样本方差相等,(u检验应用条件:样本含量较大,或n虽小但总体标准差已知)。

13,配对设计的几种情形:两个同质受试对象分别接受两种不同的处理;同一受试对象分别接受两种不同的处理;同一受试对象处理前后

14,配对t检验的基本原理:设两种处理的效应相同,即u1=u2,即看成是差值的样本均数d所代表的未知总体均数与已知总体均数的比较15,假设检验注意的问题:要有严密的研究设计:不同变量或资料选用不同的检验方法;正确理解显著性一词的含义;做结论不能绝对化;统计显著性对应于统计结论,医学临床生物学显著性对应于专业结论。

16,参数检验和非参数检验的区别及各自优缺点:参数检验:以已知分布为假设条件,对总体参数进行估计或检验;非参数检验:不依赖总体分布的具体形式和检验分布是否相同。参数检验优点是符合条件时检验效率高,缺点是对资料要求严格而且要求资料的分布型已知和总体方差相等。

非参数检验优点是计算简单便于掌握;应用广泛;收集资料方便,缺点是容易损失信息。检验效率低。

17,可信区间与假设检验的区别和联系:可信区间用于说明量的大小即推断总体均数的范围,而假设检验用于推断质的不同即判断两总体均数是否不同,两者相互联系又相互区别;可信区间亦可回答假设检验的问题;可信区间比假设检验可提供更多的信息,但并不意味着可信区间能够完全代替假设检验;可信区间只能在预先规定的概率——检验水准的前提下进行计算,而假设检验能够获得较为确切的P值,故两者结合起来次才是完整的分析。

18,方差分析的基本思想:根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和和自由度分解为两个或多个部分,除随机误差外,

其余每个部分的变异可由某个或几个因素的作用加以解释,通过比较不同变异来源地均方,借助F分布做出统计推断,从而了解该因素对观测指标有无影响。

19,方差分析的应用条件:1各次观察独立,即任何两个观察值之间均不相关,2同一水平下的观察值X ij分别服从总体均数μ的正态分布。3各总体的方差基本相等,概括的表达为:任何观察值都是独立的来自于具有等方差的正态总体。

20,应用相对数的注意事项:计算相对数的分母一般不宜过小;分析是不能以构成比代替率,应当注意不能用构成比的动态分析代替率的动态分析;对观察单位不等的几个率,不能直接相加求其总率,在比较相对数时应注意可比性;对样本率(构成比)的比较应随机抽样,并做假设检验。

21,四格表χ2检验的适用条件:1,当n>=40且所有T>=5时,用普通的χ2检验,若所得的P约等于0时,改用确切概率法,2,当n>=40但1<=T<=5时,用校正χ2检验;3当n<40或T<1时,不能用χ2检验,改用确切概率法。

22,秩和检验的基本思想:假定从一总体中,随机抽取一个样本,可以求出T+和T-,当重复所有可能组合的样本,得T+和T-的分布,T的分布以均数为中心对称的非连续分布,当H0成立,从总体随机抽取任一样本,所得T值在均数附近的概率最大,当T值远离均数概率较小,随着n增大,T的分布逐渐逼近均数n(n+1)/4,方差n(n+1)(2n+1)/24的正态分布,当n<25时,T的分布已较好地近似正态分布。

23,成组设计两个样本比较的秩和检验的基本思想n1和n2两个样本,来自同一总体和分布相同的两个总体,即假设检验H0成立,则n1样本的秩和T 与平均秩和n1(N+1)/2一般相差不大,也就是u值小于u,若T与平均秩和

n1(N+1)/2相差很大,则表示筹得的样本统计量T值的概率很小,因而拒绝检验假设H0。

24,直线回归方程的应用:描述两变量的依存关系;利用回归方程进行预测;利用回归方程进行统计控制。

25,应用直线回归应注意的问题:做回归分析要有实际意义,不能把毫

统计学名词解释简答

名词解释 统计总体:指客观存在的、在同一性质基础上结合起来的许多个别单位的整体。统计总体的特征:同质性、差异性、大量性。 总体单位:个体,指构成总体的各个单位。 统计指标:简称指标,用来反映社会经济现象总体的数量特征的概念及其数值。任一概念都包含指标名称和指标数值。特征有总体性、数量性、综合性、具体性。 统计标志:在统计中,总体单位所具有的属性或特征的名称。标志是统计研究的起点,总体单位是标志的载体,是标志的承担者,统计研究是从登记标志开始的,并通过对标志的综合来反映总体的数 量特征。可分为品质标志和数量标志,或不变标志和变异标志。 统计调查:就是根据统计研究的预定目的、要求和任务,运用各种科学的调查方法,有计划、有组织地搜集有关现象的各个单位的资料,对客观事实进行登记,取得真实可靠的原始资料的工作过程。 统计调查是整个统计工作的基础环节。统计调查的好坏,将影响统计资料的正确与否,从而影 响统计质量。统计调查的要求:准确性、及时性、全面性、系统性。 普查:是根据统计任务的特定目的而专门组织的一次性全面调查。调查范围:1.属于一定时点的社会经济现象的总量(如人口普查)。2.反映一定时期现象的总量(如出生人口总数)。优点:所获资料 更详细,有较高的准确性和时效性。缺点:工作量大,花费时间长,耗费大量的人力、物力和 财力。主要作用:在于掌握某些关系国计民生、国情国力的数据,获得比较准确的信息。 抽样调查:指从所要研究的总体中,按照随机原则,抽取部分单位进行调查,并将调查整理得出的数量特征,用以推断总体综合数量特征的一种非全面调查组织形式。特点:随机性、推断性。优点: 经济性、时效性、准确性、灵活性。应用范围:①对总体不可能或不必要进行全面调查,但要 掌握总体某些现象的全面数值②用抽样调查资料修正全面调查资料。作用:①承担全面调查无 法或很难承担的调查任务。如气象调查。②与全面调查结合,可以发挥相互补充、校对的作用。 ③进行生产过程的质量控制。④用来检验总体特征的某些假设,为行动决策提供依据。抽样调 查的组织形式:纯随机抽样、机械抽样、类型抽样、整群抽样、阶段抽样。 典型调查:根据调查目的和要求,在对研究总体作全面分析后,有意识地从中选取少数具有代表性的单位进行深入调查研究的一种非全面调查。优点:节省人力、物力,既可搜集统计资料,又可分析 研究问题。缺点:资料不齐全,缺乏代表性。主要作用:1.弥补全面调查不足(获取其它统计调 查方法不能得到的统计资料;补充完善统计报表;验证全面调查数据的真实性。2.进行估算某些 指标数值。 重点调查:是一种非全面调查,是在调查对象中选择重点单位进行的调查,但这部分重点单位占总体的绝大比重。优点:省事、省力,能用较少的代价及时搜集到总体的基本情况和基本趋势。缺点: 资料受重点单位影响大,资料一般不齐全。 统计整理:就是根据统计研究的预定目的,对所搜集到的资料进行科学加工,使之条理化、系统化,建立统计数据库,以满足多方面、多层次的反复需要的工作过程。作用:统计整理是统计工作过程 的重要阶段,它是实现从个体单位标志值过渡到总体数量特征值的必经阶段,是统计分析的前 提。其质量的好坏会直接影响统计分析的效果。 绝对指标:又称总量指标,有时也称绝对数。是用来说明一定社会经济现象的规模、水平的总量。它包括总体总量和标志总量。 相对指标:又称相对数,是两个相联系指标的比值。作分母的指标为基数,分子为表数。通过相对指标可反映现象间的相互关系和对比关系。一般分为有名数和无名数。种类有:计划完成相对指标、 结构相对指标、比较相对指标、动态相对指标、强度相对数。 平均指标:又称统计平均数,它是度量频率分布集中趋势或中心位置的指标。也是社会经济统计中最常用的综合指标。它是在同质总体内各总体单位某一数量标志的一般水平。一般有两种分类:静态 平均数、动态平均数。

统计学名词解释

1、统计学 统计学是一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学,是一门独立的、实用性很强的通用方法论科学。 2、指标和标志 标志是说明总体单位属性或特征的名称。指标是说明总体综合数量特征和数量关系的数字资料。 3、总体、样本和单位 统计总体是统计所要研究的对象的全体,它是由客观存在的、具有某种共同性质的许多个体所构成的整体。简称总体。构成总体的个体则称为总体单位,简称单位。样本是从总体中抽取的一部分单位。 4、统计调查 统计调查是根据统计研究的目的和要求、采用科学的方法,有组织有计划的搜集统计资料的工作过程。它是取得统计数据的重要手段。 5、统计绝对数和统计相对数 反映总体规模的绝对数量值,在社会经济统计中称为总量指标。统计相对数是两个有联系的指标数值之比,用以反映现象间的联系和对比关系。 6、时期指标和时点指标 时期指标是反映总体在一段时期内累计总量的数字资料,是流量。时点指标是反映总体在某一时刻上具有的总量的数字资料,是存量。 7、抽样估计和假设检验 抽样估计是指根据所抽取的样本特征来估计总体特征的统计方法。假设检验是先对总体的某一数据提出假设,然后抽取样本,运用样本数据来检验假设成立与否。 8、变量和变异 标志的具体表现和指标的具体数值会有差别,这种差别就称为变异。数量标志和指标在统计中称为变量。 9、参数和统计量 参数是反映总体特征的一些变量,包括总体平均数、总体方差、总体标准差等。统计量是反映样本特征的一些变量,包括样本平均数、样本方差、样本标准差等。 10、抽样平均误差 样本平均数与总体平均数之间的平均离散程度称之为抽样平均误差,简称为抽样误差。重复抽样的抽样平均误差为总体标准差的1/n。 11、抽样极限误差 抽样极限误差是指样本统计量和总体参数之间抽样误差的可能范围。我们用样本统计量变动的上限或下限与总体参数的绝对值表示抽样误差的可能范围,称为极限误差或允许误差。 12、重复抽样和不重复抽样 重复抽样也称为回置抽样,是从总体中随机抽取一个样本时,每次抽取一个样本单位时都放回的抽样方式。不重复抽样也叫不回置抽样,它是在每次抽取样本单位时都不放回的抽样方式。13、点估计和区间估计 点估计也叫定值估计,就是直接用抽样平均数代替总体平均数,用抽样成数代替总体成数。区间估计是在一定概率保证下,用样本统计量和抽样平均误差去推断总体参数的可能范围的估计方法。 14、统计指数 广义上来说,它是表明社会经济现象的数量对比关系的相对指标。狭义上来说,它是反映不能直接相加对比的复杂总体综合变动的动态相对数。 15、综合法总指数 凡是一个总量指标可以分解为两个或两个以上的因素指标时,将其中一个或一个以上的因素指

统计学名词解释

统计学名词解释 第一章绪论 1.随机变量:在统计学上,把取值之间不能预料到什么值的变量。 2.总体:又称母全体、全域,指具有某种特征的一类事物的全体。 3.个体:构成总体的每个基本单元称为个体。 4.样本:从总体中抽取的一部分个体,称为总体的一个样本。 5.次数:指某一事件在某一类别中出现的数目,又称为频数。 6.频率:又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。 7.概率:某一事物或某一情在某一总体中出现的比率。 8.观测值:一旦确定了某个值。就称这个值为某一变量的观测值。 9.参数:又称为总体参数,是描述一个总体情况的统计指标。 10.统计量:样本的那些特征值叫做统计量,又称特征值。 第二章统计图表 1.统计表:是由纵横交叉的线条绘制,并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。一般由表号、名称、标目、数字、表注组成。 2.统计图:一般采用直角坐标系,通常横轴表示事物的组别或自变量x,称为分类轴。纵轴表示事物出现的次数或因变量,称为数值轴。一般由图号及图题、图目、图尺、图形、图例、图组成。 3.简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表,适合数据个数和分布范围比较小的时候用。 4.分组次数分布表:数据量很大时,应该把所有的数据先划分在若干区间,然后将数据按其数值大小划归到相应区域的组别内,分别统计各个组别中包括的数据个数,再用列表的形式呈现出来,适合数据个数和分布范围比较大的时候用。 5.分组次数分布表的编制步骤: (1)求全距 (2)定组距和组数 (3)列出分组组距 (4)登记次数 (5)计算次数 6.分组次数分布的意义: (1)优点:A.可将杂乱无章数据排列成序,以发现各数据的出现次数及分布状况。B.可显示一组数据的集中情况和差异情况等。 (2)缺点:原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差,即归组效应。 7.相对次数分布表:用频数比率或百分数来表示次数 8.累加次数分布表:把各组的次数由下而上,或由上而下加在一起。最后一组的累加次数等于总次数。 9.双列次数分布表:对有联系的两列变量用同一个表表示其次数分布。

社会统计学的名词解释

社会统计学的名词解释 非参数检验:泛指“对分布类型已知的总体进行参数检验”之外的所有检验方法。符号检验:181页 配对符号秩检验:183页 秩和检验方法:把两个样本混合起来,从小到大进行编号;分别计算两个样本的秩和;;计算检验统计量U;如果计算出的U只小于或等于从附表10中查处的临界值,则零假设被拒绝。 游程检验:把样本1和样本2混合起来,按数值从小到大编号;点算游程数目,以混合样本中游程数目r为检验统计量。 确定性关系:一个变量值确定后,另一个变量值也就完全确定了。 非确定性关系:给定了一个变量值,另一个变量值还可以在一定的范围内变化。相关系数r:这一指标用来度量相关关系程度或强度。就线性相关来说,当\r\=1时,表示完全相关;当0<\r\<1时,表示不完全相关;当\r\=0时,表示无相关或零相关。 判断两个变量有因果联系的条件:(1)两个变量有共变关系;(2)两个变量之间的关系不是有其他因素形成的;(3)两个变量的产生和变化有明确的时间顺序。 列联表:按品质标志吧两个变量的频数分布进行交互分类,由于表内的每一个频

数都需同时满足两个变量的要求,所以列联表又称条件频数表。 消减误差比例(PRE)=(原来的误差—后来的误差)\原来的误差 Gamma系数:适用于测量两对称的定序变项的相关系数。 积差系数:两个定距变量之间的相关测量,最常用的就是积差系数。英国统计学家皮尔逊用积差方法推导出来的,所以也称皮尔逊相关系数,用符号r表示。回归:有一种力量使子辈个体身高趋向父辈平均身高,高尔顿把这种趋向中心的现象称之为回归。 拟合优度检验:检验总体是否具有正态或其他分部形式的非参数统计检验。 方差分析:他可以检验多个总体均值是否存在差异的统计检验方法。 时间数列:是某一指标的数值按时间按先后顺序排列而成的一个序列,也称动态数列。一般有两个基本要素构成:被研究对象所属的时间和反映该现象在各个时间上的统计指标数值。 增长量:总量指标报告期水平和基期水平之差,表明该指标在一定时期内增加和减少的绝对数量。(逐期增长量和累计增长量) 发展速度:反映社会现象发展程度的动态相对指标,即时间相对数。发展速度时报告期发展水平除以基期发展水平所得之商。如果这个比值大于1,表示水平提高了;如果这个比值小于1,表示水平下降了。(环比发展速度、定基发展速度)

统计学名词解释及公式

第1章统计与统计数据 一、学习指导 统计学是处理和分析数据的方法和技术,它几乎被应用到所有的学科检验领域。本章首先介绍统计学的含义和应用领域,然后介绍统计数据的类型及其来源,最后介绍统计中常用的一些基本概念。本章各节的主要内容和学习要点如下表所示。 概念:统计学,描述统计,推断统计。 统计在工商管理中的应用。 统计的其他应用领域。 概念:分类数据,顺序数据,数值型数据。 不同数据的特点。 概念:观测数据,实验数据。 概念:截面数据,时间序列数据。 统计数据的间接来源。 二手数据的特点。 概念:抽样调查,普查。 数据的间接来源。 数据的收集方法。 调查方案的内容。 概念。抽样误差,非抽样误差。 统计数据的质量。 概念:总体,样本。 概念:参数,统计量。 概念:变量,分类变量,顺序变量,数值 型变量,连续型变量,离散型变量。 二、主要术语 1.统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。 2.描述统计:研究数据收集、处理和描述的统计学分支。 3.推断统计:研究如何利用样本数据来推断总体特征的统计学分支。 4.分类数据:只能归于某一类别的非数字型数据。 5.顺序数据:只能归于某一有序类别的非数字型数据。 6.数值型数据:按数字尺度测量的观察值。 7.观测数据:通过调查或观测而收集到的数据。 8.实验数据:在实验中控制实验对象而收集到的数据。 9.截面数据:在相同或近似相同的时间点上收集的数据。 10.时间序列数据:在不同时间上收集到的数据。

11.抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推 断总体特征的数据收集方法。 12.普查:为特定目的而专门组织的全面调查。 13.总体:包含所研究的全部个体(数据)的集合。 14.样本:从总体中抽取的一部分元素的集合。 15.样本容量:也称样本量,是构成样本的元素数目。 16.参数:用来描述总体特征的概括性数字度量。 17.统计量:用来描述样本特征的概括性数字度量。 18.变量:说明现象某种特征的概念。 19.分类变量:说明事物类别的一个名称。 20.顺序变量:说明事物有序类别的一个名称。 21.数值型变量:说明事物数字特征的一个名称。 22.离散型变量:只能取可数值的变量。 23.连续型变量:可以在一个或多个区间中取任何值的变量。 四、习题答案 1.D 2.D 3.A 4.B 5.A 6.D 7.C 8.B 9.A 10.A 11.C、12.C 13.B 14.A 15.C 16.D 17.C 18.A 19.C 20.D 21.A 22.C 23.C 24.B 25.D 26.C 27.B 28.D 29.A 30.D 31.A 32.B 33.C 34.A 35.A 36.A 37.D 38.B 39.B 40.C 41.C 42.D 43.C 44.D 45.A 46.B 47.C 48.A 49.C 50.D 51.A 52.C 53.D 54.A 55.B

【缩印整理版】医学统计学名词解释及问答题

统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学。 总体(population):大同小异的研究对象全体。更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。 样本(sample):来自总体的部分个体,更确切的说,应该是部分个体的观察值。样本应该具有代表性,能反映总体的特征。利用样本信息可以对总体特征进行推断。 抽样误差(sampling error)在抽样过程中由于抽样的偶然性而出现的误差。表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。可用标准误描述其大小。 标准误(Standard Error) 样本统计量的标准差,反映样本统计量的离散程度,也间接反映了抽样误差的大小。样本均数的标准差称为均数的标准误。均数标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数 区间估计(interval estimation):将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为置信区间(confidence interval,CI),又称可信区间。 参考值范围描述绝大多数正常人的某项指标所在范围;正态分布法(标准差)、百分位数法,参考值范围用于判断某项指标是否正常 置信区间揭示的是按一定置信度估计总体参数所在的范围。t分布法、正态分布法(标准误)、二项分布法。置信区间估计总体参数所在范围 可信区间:按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间(confidence interval,CI)。它的确切含义是:可信区间包含总体参数的可 能性是1- α ,而不是总体参数落在该范围的可能性为1-α 。 参数统计(parametric statistics) 非参数统计(nonparametric statistics)是指在统计检验中不需要假定总体分布形式和计算参数估计量,直接对比较数据(x)的分布进行统计检验的方法。 变异(variation):对于同质的各观察单位,其某变量值之间的差异 同质(homogeneity):研究对象具有的相同的状况或属性等共性。 回归系数有单位,而相关系数无单位 β为回归直线的斜率(slope)参数,又称回归系数(regression coefficient)。 线性相关系数(linear correlation coefficient):又称Pearson积差相关系数(Pearson product moment coefficient),是定量描述两个变量间线性关系的密切程度与相关方向的统计指标。 参数(parameter):描述总体特征的统计指标。 统计量(statistic):描述样本特征的统计指标。实验设计的基本原则 对照 (control) 对受试对象不施加处理因素的状态。在确定接受处理因素的实验组时,要同时设立对照组 重复 (replication)相同实验条件下进行多次实验或多次观察。整个实验的重复;观察多个受试对象(样本量);同一受试对象重复观察。作用是估计变异大小和降低变异 随机化(randomization) 采用随机的方式,使每个受试对象都有同等的机会被抽取或分配到试验组和对照组。 I类错误(假阳性错误)真实情况为H0是成立的,但检验结果为H0不成立,这样的错误称为I类错误。其发生的概率用α表示。在假设检验中作为检验水准。一般取0.05或0.01。 II类错误(假阴性错误)真实情况为H1是成立的,但检验结果为H1不成立,这样的错误称为II类错误。其发生的概率用β表示。由于其取值取决于H1 ,因此在假设检验中无法确定。 变异指标是用于描述一组观察值围绕中心位置散布的范围,即描述离散趋势的统计指标。数值越大,说明数据越离散,反之越集中。极差 (range);四分位数间距(quartile range);方差(variance);标准差(standard deviation);变异系数(coefficient of variation 平均数指标用于描述一组同质观察值的集中趋势,反映一组观察值的平均水平。算术均数(arithmetic mean);几何均数(geometric mean);中位数(median);众数(mode) 单纯抽样将调查总体的全部观察单位编号,从而形成抽样框架,在抽样框架中随机抽取部分观察单位组成样本。每个观察对象都有相同的机会被抽中系统抽样又称机械抽样。按照某种顺序给总体中的个体编号,然后随机地抽取一个号码作为第一个调查个体,其他的调查个体则按照某种确定的规则“系统”地抽取。最常用的方法是等距抽样 分层抽样先将总体中全部个体按某种特征分成若干“层”,再从每一层内随机抽取一定数量的个体组成样本。分层特征与研究目的有关。按各层比例抽样。为减少抽样误差,要求层内误差最小,层间误 差最大。 整群抽样先将总体分成若干“群”,从中随机抽取 几个群,抽取群内的所有观察单位组成调查样本。 “群”的确定与研究目的无关。为减少抽样误差, 需多抽几个“群”。 方差分析:又称变异数分析或 F检验,适用于对多 个平均值进行总体的假设检验,以检验实验所得的 多个平均值是否来自相同总体。 析因设计(factorial design)实验:凡同时配置两个 或两个以上处理因素,这些因素的各水平又具有完 全组合的实验,统称为析因设计(factorial design) 实验。 随机区组设计(randomized block design)是事先 将全部受试对象按某种可能与实验因素有关的特征 分为若干个区组(block),使每一区组内的受试对 象例数与处理因素的分组数相等,使每个实验组从 每一区组得到一例受试对象。 单向方差分析(one way analysis of variance)是指 处理因素只有一个。这个处理因素包含有多个离散 的水平,分析在不同处理水平上应变量的平均值是 否来自相同总体。 (2)计数资料:将观察单位按某种属性或类别分组, 所得的观察单位数称为计数资料 (count data)。计数资料亦称定性资料或分类资料。 其观察值是定性的,表现为互不相容的类别或属性。 如调查某地某时的男、女性人口数;治疗一批患者, 其治疗效果为有效、无效的人数;调查一批少数民 族居民的A、B、AB、O 四种血型的人数等。 (3)等级资料:将观察单位按测量结果的某种属性 的不同程度分组,所得各组的观察单位数,称为等 级资料(ordinal data)。等级资料又称有序变量。如 患者的治疗结果可分为治愈、好转、有效、无效或 死亡,各种结果既是分类结果,又有顺序和等级差 别,但这种差别却不能准确测量;一批肾病患者尿 蛋白含量的测定结果分为+、++、+++等。 随机变量(random variable)是指取指不能事先确 定的观察结果。随机变量的具体内容虽然是各式各 样的,但共同的特点是不能用一个常数来表示,而 且,理论上讲,每个变量的取值服从特定的概率分 布。 变异系数(coefficient of variation)用于观察指标单 位不同或均数相差较大时两组资料变异程度的比 较。用CV 表示。计算:标准差/均数*100% 直线回归(linear regression)建立一个描述应变量 依自变量变化而变化的直线方程, 并要求各点与该直线纵向距离的平方和为最小。直 线回归是回归分析中最基本、最简单的一种,故又 称简单回归(simple regression)。 回归系数(regression coefficient )即直线的斜率 (slope),在直线回归方程中用b 表示,b 的统计意 义为X每增(减)一个单位时,Y平均改变b 个单 位。 相关系数r:用以描述两个随机变量之间线性相关 关系的密切程度与相关方向的统计指标。 秩次:变量值按照从小到大顺序所编的秩序号称为 秩次(rank)。 秩和:各组秩次的合计称为秩和(rank sum),是非 参数检验的基本统计量。 方差(variance):方差表示一组数据的平均离散情 况,由离均差的平方和除以样本个数得到。 检验效能:1- β称为检验效能(power of test),它是 指当两总体确有差别,按规定的检验水准a 所能发 现该差异的能力。 百分位数(percentile)是将n 个观察值从小到大依 次排列,再把它们的位次 依次转化为百分位。百分位数的另一个重要用途是 确定医学参考值范围 随机误差(random error)又称偶然误差,是指排 除了系统误差后尚存的误差。它受多种因素的影响, 使观察值不按方向性和系统性而随机的变化。误差 变量一般服从正态分布。随机误差可以通过统计处 理来估计。 一、统计表有哪些要素构成的?制表的注意事项有 哪些? 一般来说,统计表由标题、标目、线条和数字、备 注五部分组成。但备注并不是必需的内容,可以根 据需要出现。 1简明扼要,重点突出:最好一张表突出一个中心, 不易太多中心,如果需要说明多个中心,可分成多 张统计表。 2合理安排主语和谓语的位置:对于表中任意一行, 从左至右,通过简短的连接词,可连成成一句通顺 的句子。 3表中数据要认真核对,保证准确可靠 二、为什么不宜用t 检验对多组均数进行比较? 如果用t检验进行多个样本均数的两两比较,则会 增加犯I 类错误的概率。 经检验得到拒绝H0 ,认为两组之间有差别的结论 可能犯I类错误的概率为α,不犯I类错误的概率为 1- α.每次判断均不犯I类错误的概率为(1- α)k, k为比较的次数,上例α=0.05, k=3,则均不犯错误 的概率为( 1- 0.05)3 =0.86. 至少有一次判断犯I 类错误的概率为1-(1- α)k 三、方差分析的基本思想是什么? 按实验设计的类型,将全部观察值间的变异分解成 两个或多个组成部分,然后将各部分的变异与随机 误差进行比较(每个部分的变异可由某因素的作用 来解释),以判断各部分的变异是否具有统计学意 义,从而推断不同样本所代表的总体均数是否相同。 五、简述直线相关与回归的区别与联系 区别:1.回归说明依存关系,直线回归用于说明两 变量间数量依存变化的关系,描述y如何依赖于x 而变化;相关说明相关关系,直线相关用于说明两 变量间的直线相关关系,此时两变量的关系是平等 的 2.r与b有区别:r说明具有直线关系的两个 变量间相关的密切程度与相关方向; b表示x每改 变一个单位,y平均增(减)多少个单位; 3.资料要求不同:直线回归要求应变量 y是来自正态总体的随机变量,而x可以是来自正 态总体的随机变量,也可以是严密控制、精确测量 的变量,相关分析则要求x,y是来自双变量正态分 布总体的随机变量。 4.取值范围:-∞

统计学名词解释

一、名词解释 总体:指在同一组条件下所有成员的某种状态变量的集合;或者说是某一变数的全部可能值的集合;或性质相同的个体组成的整个集团. 样本:从总体中取出来用作分析、研究的个体称样本。 随机样本:总体中的每个总体单位都有同等的机会被抽取为样本单位,由这种方法抽得的样本叫随机样本.(用随机抽样的方法,从总体中抽出一个部分;等概率抽取的样本。)随机抽样:保证总体中的每一个体在每一次抽样中都有同等的机会被取为样本。 复置抽样:保证总体中的每个个体在每次抽样中都有同等的概率被取为样本。 样本容量:样本中包含的单位数称为样本容量。(样本中变量的个数.) 观察值:每一个体的某一性状测定值叫做观察值。 变数:若干有变异的观察值叫随机变数,简称变数。 连续性变数:指在任意两个变量之间都有可能存在只有微量差异的第三个变量存在,这样一类变数称为连续性变数. 间断性变数:只能取整数的一类变数。 参数:由总体获得的代表总体的特征数.(描述总体的特征数,如μσ .)统计数:由样本获得的代表样本的特征数。(描述样本的特征数。) 数量资料(数量性状资料):以测量或称重的方式获取的试验资料称为数量资料。 计量资料、质量性状资料 次数资料:凡是试验结果以次数表示的资料称为次数资料。 算术平均数、众数 几何平均数:变量对数的算术平均数的反对数, (lg) lg Y G n = ∑ 调和平均数:变量倒数的算术平均数的反倒数, 1 () n H Y = ∑ 中位数:将变量顺序排列,处在中间的变量称中位数,计作M d。极差:一组资料中最大值与最小值的差值为极差. 方差:变数变异程度的度量,对于总体 ()2 2i Y N μ σ - = ∑ ,对于样本 2 2 () 1 Y y s n - = - ∑ 。 (描述变量平均变异程度的统计量.定义为 2 1 2 () 1 n j j Y y s n = - = - ∑ 。) EMS:期望均方,是对均方MS的期望值。 标准差:变数变异程度的度量,总体标准差: () N Y ∑- = 2 μ σ ,样本标准 差: () 1 2 - - = ∑ n y Y s .(变数的平均变异量.) 标准误:统计数变异度的度量,12 y y y s s - == 。(统计数的标准差。)

医学统计学名词解释复习资料

1. 总体(population):根据研究目的所确定的同质观察单位的全体。只包括(确定的时间和空间范围内)有限个观察单位的总体,称为有限总体(finite population)。假想的,无时间和空间概念的,称为无限总体(infinite population)。 2. (总体)参数(parameter):总体的统计指标或特征值。总体参数是事物本身固有的、不变的。 3. 样本(sample):从总体中随机抽取的部分个体。 4. 样本含量(sample size):样本中所包含的个体数。 5. 变量(variable):观察对象个体的特征或测量的结果。由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,故称为随机变量(random variable),简称变量(variable)。变量的取值称为变量值或观察值(observation)。根据变量的取值特性,分为数值变量和分类变量。 6. 数值变量(Numerical variable):又称为计量资料、定量资料,指构成其的变量值是定量的,其表现为数值大小,有单位。对每个观察单位用定量的方法测定某项指标的数值,组成的资料。 7. 计数资料:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。 8. 抽样(sampling):从总体中抽取部分观察单位的过程称为抽样。 9. 抽样误差(sampling error):由于抽样造成的统计量与参数之间的差别,特点是不能避免的,可用标准误描述其大小。 10. 误差(error):统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有以下二种:系统误差和随机误差 。 11. 可信区间(confidence interval, CI):按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间,又称置信区间。 12. 总体均数的可信区间:按一定的概率大小估计总体均数所在的范围(CI)。常用的可信度为95%和99%,故常用95%和99%的可信区间。 13. 变异(variation):同质事物间的差别。由于观察单位通常即为观察个体,故变异亦称为个体变异(individual variation)。 16. 平均数(average):也叫平均值,是一组(群)数据典型或有代表性的值。这个值趋向于落在根据数据大小排列的数据的中心,包括算术平均数(arithmetic mean)、几何平均数(geometric mean)、中位数(median)等。 17. 中位数(median):将一组观察值按升序或降序排列,位次居中的数,常用M 表示。适用于偏态分布资料或不规则分布资料和开口资料。所谓“开口”资料,是指数据的一端或两端有不确定值。当n 为奇数时,M=X (n+1)/2;当n 为偶数时,M=[X n/2+ X n/2+1]/2。 18. 百分位数(percentile):是一种位置指标,以P x 表示,一个百分位数Px 将全部观察值分为两个部分,理论上有x%的观察值小于Px 小,有(1-x%)的观察值大于Px 。 19. 变异系数(coefficient of variance, CV):亦称离散系数(coefficient of dispersion),为标准差与均数之比,常用百分数表示。100%X s/CV ?=, 变异系数没有度量衡单位,常用于比较度量单位不同或均数相差悬殊的两组或多组资料的离散程度。 20. 频率(relative frequency):在n 次随机试验中,事件A 发生了m 次,则比值 22. 概率(probability):在重复试验中,事件A 的频率,随着试验次数的不断增加将愈来愈接近一个常数p ,这个常数p 就称为事件A 出现的概率(probability),记作P(A)或P 。 描述随机事件发生的可能性大小的数值,常用P 来表示。 23. 统计量(statistic):由样本所算出的统计指标或特征值。 24. 相关系数(correlation coefficient):用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数,又称为积差相关系数(coefficient of product-moment correlation),总体相关系数用希腊字母ρ表示,而样本相关系数用r 表示,取值范围均为[-1, 1]。 25. 回归系数(regression coefficient):直线回归方程Y ?= a+b X 的系数b 称为回归系数,也就是回归直线的斜率(slope),表示X 每增加一个单位,Y 平均改变 b 个单位。 26. 参考值范围(reference range):也称为正常值范围(normal range),医学上常把绝大多数正常人的某指标值范围称为该指标的正常值范围。绝大多数:可以是90%、95%、99%等等,最常用的是95%。正常人:不是指健康人,而是指排除了影响所研究指标的疾病和有关因素的同质人群。又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。 28. 统计推断(statistic inference):从总体中随机抽取一定含量的样本进行研究,目的是通过样本的信息判断总体的特征,这一过程称为统计推断。 29. 标准误(standard error, SE):在统计理论上将样本统计量的标准差称为标准误,用来衡量抽样误差的大小。据此,样本均数的标准差X σ称为标准误。 30. 参数估计(parameter estimation):由样本信息估计总体参数。它包括两种:点估计和区间估计。 点估计:直接用样本统计量作为对应的总体参数的估计值。 区间估计:按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间(confidence interval, CI ),又称置信区间。这种估计方法称为区间估计。 33. 95%可信区间含义:如果重复若干次样本含量相同的抽样,每个样本均按同一方法构建95%可信区间,则在这些可信区间中,理论上有95个包含了总体参数,还有5个未估计到总体均数。 34.Ⅰ类错误(type Ⅰerror):统计学上规定,拒绝了实际上成立的H 0,这类“弃真”的错误称为Ⅰ型错误或第一类错误,Ⅰ型错误的概率用α表示。 35.Ⅱ类错误(type Ⅱerror):统计学上规定,不拒绝实际上不成立的H 0,这类“存伪”的错误称为Ⅱ型错误或第二类错误,Ⅱ型错误的概率用β表示。 36. 检验效能(power of a test):又称把握度,即两总体确有差别,按α水准能发现它们有差别的能力。 37. 参数检验:总体分布已知,对其中一些未知参数进行估计或检验。这类统计推断的方法叫参数统计或参数检验。 38. 参数检验:假定比较数据服从某分布,通过参数的估计量(x , s)对比较总体的参数(μ)作检验,统计上称为参数法检验(parametric test)。如t 、u 检验、方差分析。 39. 率(rate):又称频率指标,用以说明某现象发生的频率或强度。常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示。其计算公式为: 40. 构成比(proportion):又称构成指标,它说明一种事物内部各组成部分所占的比重或分布,常以百分数表示。 41. 比(ratio):又称相对比,是A 、B 两个有关指标之比,说明A 为B 的若干倍或百分之几,它是对比的最简单形式。其计算公式为:比=A/B 。 统计学(Statistics ):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达 的科学。 总体(population ):大同小异的研究对象全体。更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。 样本(sample ):来自总体的部分个体,更确切的说,应该是部分个体的观察值。样本应该具有代表性,能反映总体的特征。利用样本信息可以对总体特征进行推断。

《教育统计学》名词解释重点

第一章绪论 1,教育统计学是运用数理统计学的原理来研究教育问题的一门应用科学。 2,教育统计学分为描述统计、推断统计和实验设计三类。 (1)描述统计:计算集中量(算术平均数、中位数、众数、加权算术平均数、几何平均数、调和平均数)来反映集中趋势;计算差异量(全距、四分位距、百分位距、平均差、标准差、差异系数)反映离散程度;计算偏态量及峰态量反映分布形态;计 算相关量(积差相关系数、等级、点二列、二列、四分、C相关系数、肯德尔和谐 系数、多系列相关系数)反映一致性程度。 (2)推断统计包括总体参数估计和假设检验两部分。 3,随机现象三个特性:一,一次试验有多种可能的结果,其所有结果是已知的;二,试验之前不能预料那一种结果会出现;三,在相同条件下可以重复试验。 随机事件:随机现象的每一种结果。 随机变量:把能表示随机现象各种结果的变量称之 4,总体:是我们研究的具有某种共同特性的个体的总和。 样本数目大于30称为大样本,小于等于30称为小样本。 第二章数据的初步整理 1,教统资料来源有经常性资料和专题性资料。 专题性资料包括(1)教育调查。按调查方法分为现情调查、回顾调查和追踪调查;按调查范围分全面调查和非全面调查(抽样调查和典型调查)。(2)教育实验。分为单组实验(指对同一实验对象先后实施两种实验处理)、等组实验(指在甲乙两组条件基本相同的情况下,对之实行不同的实验处理)和轮组实验(指在实验组和对照组分别进行两种实验处理,并且每种处理各重复一次,也即每个或多个单组实验的联合) 2,数据的分类。按来源分为点计数据和度量数据;按随机变量取值情况分为间断型随机变量(取值个数有限、独立的、两个单位之间不能再划分细小单位、一般用整数表示,如优劣程度、品德爱好打分)和连续性随机变量(个数无限、单位之间可以再划分、可以用小数表示如身高体重、完成作业的时间等)。 3,频数分布表制作步骤:求全距;决定组数和组距;决定组限;登记频数。 4,用累计频数表示的频数分布表称为累计频数分布表。 第三章集中量 1,集中量是代表一组数据典型水平或集中趋势的量。它能反映频数分布中大量数据向某一点集中的情况。 2,加权平均数:是不同比重数据(或平均数)的平均数。 几何平均数:是n个数值连乘积的n次方根。 调和平均数:是一组数据倒算的算术平均数的倒数,亦称倒数平均数。 第四章差异量 1,差异量是指表示一组数据变异程度或离散程度的量。差异量越大,表示数据分布越广,越不整齐;相反,表示分布越集中,变动范围越小。 2,全距是一组数据中最大值与最小值之差,又称极差,用R表示。 四分位距是指用依一定顺序排列的一组数据中间部分50%个频数距离的一半作为差异量指标。四分位距就是第三个四分位数(第75百分位数)与第一个四分位数(第25半分位数)差的一半。 百分位距是指两个百分位数之差。常用的有两种:一为第90与第10百分位数之差;一为第93与第7百分位数之差。 3,标准差越大,表明离散程度越大,即数据越参差不齐,分布范围越广。

统计学名词解释及简答题 .

名词解释 一、分类数据(categorical data )是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,使用文字来表述的。 二、顺序数据(ran k data )是只能归于某一有序类别的非数字型数据。 三、数值型数据(metric data )是按数字尺度测量的观察值,其结果表现为具体的数值。 四、系统抽样(systematic sampling )将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机的抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位,这种抽样方法被称为系统抽样。 五、非概率抽样(non-probability sampling )是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采取某种方式从总体中抽出部分单位对其实施调查。 六、抽样误差(sampling error )是由于抽样的随机性引起的样本结果与总体真值之间的误差。 七、四分位数(quartile)也称四分位点,他是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包括25%的数据。 八、离散系数也成为变异系数(coefficient of variation ),它是一组数据的标准差与其相应的平均数之比。其计算公式为: s s v x = 离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。 九、泊松分布(Poisson distribution )是用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布。 十、中心极限定理(central limit theorem ):设从均值μ、2σ(有限)的任意一个总体中抽取样本量为n 的样本,当n 充分大时,样本均值X 的抽样分布近似服从均值为μ、方差2σ/n 的正态分布。 十一、置信区间(confidence interval )在区间估计中,有样本统计量所构造的总体参数的估计区间称为置信区间,其中区间的最小值称为置信上限。 十二、显著性水平(significant level)是一个统计专有名词,在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险,其实这就是前面所说假设检验中犯弃真错误的概率,它是由人们根据检验的要求确定的,通常取0.05α=或0.01α=,这表明,当做出接受原假设的决定时,其正确的概率为95%或99%。 十三、方差分析(analysis of variance, ANOV A )就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。 十四、相关系数(correlation coefficient )是根据样本数据计算的度量两个变量之间线性关系强度的统计量。 十五、回归模型(regression model )对于具有线性关系的两个变量,可以用一个线性方程来表示他们之间的关系。描述因变量y 如何依赖于自变量x 和误差项ε的方程称为回归模型。 十六、点估计 利用估计的回归方程,对于x 的一个特定值0x ,求出y 的一个估计值就是点估计。点估计可分为两种:一是平均值的点估计;二是个别值的点估计。 十七、时间序列(time series )是同一现象在不同时间上的相继观察值排列而成的序列。 十八、指数平滑法(exponential smoothing )是通过对过去的观察值加权平均进行预测的一种方法,该方法使t+1期的预测值等于t 期的实际观察值与t 期的预测值的加权平均值。 十九、指数,或称统计指数,是分析社会经济现象数量变化的一种重要统计方法。指数是测定多项内容数量综合变动的相对数。这个概念中包含两个重点:第一个要点是指数的实质是测定多项内容;指数概念的第二个要点是其表现形式为动态相对数,既然是动态相对

相关文档