文档库 最新最全的文档下载
当前位置:文档库 › 统计习题集

统计习题集

统计习题集
统计习题集

一、绪论与数据整理

单选

1.________ =频数÷组距,它能准确反映频数分布的实际情况。 C A.组中值B.组数C.频数密度D.频率密度

2.对连续型变量分组,相邻组的组限必须()。A

A.重叠B.间断C.相等D.相离

3.将某地区100个工厂按产值多少分组而编制的频数分布中,频数是()。C

A.各组的产值数B.各组的工人数C.各组的工厂数D.各组职工人数4.某管理局对其所属企业的生产计划完成百分比采用如下分组,指出哪项是正确的。()C

A.80%~90% 90%~99% 100%~109% 110%以上

B.80%以下90%~100% 89%~100% 100%~110%

C.90%以下90%~100% 100%~110 110%以上

D.90% 90%~105% 100%~110 115%以上

5.频数分布中,靠近中间的变量值分布的频数少,靠近两端的变量值分布频数多,这种分布的类型是()。B

A.钟形分布B.U形分布C.J形分布D.均匀分布.

填空

1.对于数值型数据的排序只有两种,即________和________。

2.频数分布反映了总体所有个体在________的分布状态和分布特征。

3.在数据分组中,________可以进行单变量值分组,也可以进行组距分组,而

________只能进行组距式分组。

4.组距分组中,向上累积频数是指某组________的频数之和。

5.箱线图是由一组组数据的________、________、________、________和

________5个特征值绘制而成的,反应原始数据分布的图形。

6.组距数列中,每一组的下限与上限之间的中点值称为组中值,它通常作为该组数据的一个________。

7.从外表形式看,统计表一般由4个主要部分组成,即________、________、

________和________。

递增、递减2.各类(或组)3.离散型变量、连续型变量4.上限以下

5.最大值、最小值、中位数、上四分位数、下四分位数

6.代表值7.表头、行标题、列标题、数字资料

二、描述性统计

单选

1.对于对称分布的数据,众数、中位数和平均数的关系是:B

A.众数>中位数>平均数

B.众数=中位数=平均数

C.平均数>中位数>众数

D.中位数>众数>平均数

2.可以计算平均数的数据类型有:C

A.分类型数据

B.顺序型数据

C.数据型数据

D.所有数据类型

3.顺序数据的集中趋势测度指标有:B

A.众数

B.中位数

C.四分位差

D.标准分数

4.数据型数据的离散程度测度方法中,受极端变量值影响最大的是:A

A.极差

B.方差

C.均方差

D.平均差

5.当偏态系数为正数时,说明数据的分布是:C

A.正态分布

B.左偏分布

C.右偏分布

D.双峰分布

填空

一组数据向某一中心值靠拢的倾向反映了数据的———————。

2. ————是一组数据中出现次数最多的变量值。

3.一组数据排序后处于中间位置上的变量值称——————。

4.不受极端值影响的集中趋势度量指标有————、————和————。

5.一组数据的最大值与最小值之差称————。

6. —————是一组数据的标准差与其相应的平均数之比。

7.数据分布的不对称性是——————。

8.数据分布的平峰或尖峰程度称——————

1、集中趋势

2、众数

3、中位数

4、众数中位数分位数

5、极差

6、离散系数

7、偏度

8、峰度

简答

1.测度数据集中趋势的指标有哪些?主要的含义是什么?

测度数据集中趋势的指标主要有两类:一类是数值平均数,他们是根据全部数据计算得到的代表值,主要的有算术平均数、调和平均数和几何平均数;另一类是位置代表值,是根据数据所处的位置直接观察或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中位数。

2.什么是数据的离散程度?常用的测度离散程度的指标有哪些?

离散程度反映的是各变量值远离其中心值的程度。

反映数据离散程度的指标主要有:四分位差、方差、标准差、极差、离散系数等。

3.怎样理解平均数在统计学中的地位?

3、平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础;平均数作为代表值,是误差相互抵消的结果,反映了事物必然性的数量特征。

4.简述众数、中位数和均值的特点和应用场合。

众数是一组数据分布的峰值,是一种位置代表值,不受极端值的影响,其缺点是不具有唯一性。虽然对数据型数据和分类数据也适用,但主要是用于分类数据的集中趋势测度值。

中位数是中间位置上的代表值,也是一种位置的代表值,其特点是不受极端值的影响。顺序数据可以计算众数,但以中位数宜。

平均数是根据数据型数据计算的,而且利用了所以信息,是实际中应用最广的集中趋势测度值。虽然数据型数据可以计算众数和中位数,但以平均数为宜。平均数的主要缺点是受极端值的影响,对于偏态分布,平均数的代表性差。特别是当偏态程度较大是,可用位置平均数代替。

5.为什么要计算离散系数?

5、离散系数是一个相对指标,它一方面可以解决不同变量值水平的离散程度的对比;另一方面可以解决不同计量单位的离散程度对比。

计算题

1.某班级25名学生的统计学考试成绩数据如下:

89,95,98,95,73,86,78,67,69,82,84,89,93,

91,75,86,88,82,53,80,79,81,70,87,60

试计算:(1)该班统计学成绩的均值、中位数和四分位数;81.2 82 74 89(2)该班统计学成绩的方差、标准差。11.18 124.92

2.甲、乙两个农贸市场某种蔬菜价格及销售额资料如下:

试计算两市场的平均价格,并说明哪一个市场蔬菜的平均价格代表性高?为什么?

甲均值 1.6 标准差0.1225 离散系数 7.6%

乙均值1.625 标准差0.109 离散系数 6.7%

乙代表性高

3.甲、乙两厂生产同种产品,有关资料如下:

甲均值 45 标准差 7.56 离散系数 16.8%

乙均值52.5 标准差 8.33 离散系数 15.87%

乙代表性高

试计算甲乙两厂工人的平均产量和产量的均方差,并以适当的指标比较工人平均产量的代表性。

4.某厂生产某配件要经过三道工序,各加工工序的合格率分别是95%,92%,96%,求三道工序的平均合格率。

几何平均数 94.3%

三、抽样分布

填空

抽样方法根据抽取的原则不同,可以分为和两种。

2、根据样本统计量推断总体参数的理论依据是。

3、不重复抽样的样本均值方差等于重复抽样的样本均值方差乘以。

概率抽样、非概率抽样

2、样本统计量的抽样分布

3、(N-n)/(N-1)

单项选择题

1、样本的形成是:A

A.随机的

B.随意的

C.非随机的

D.确定的

2、抽样误差之所以产生是由于:B

A. 破坏了随机抽样的原则。

B. 抽样样本的结构不足以代表总体的结构。

C. 破坏了抽样的系统。

D.调查人员的素质。

3、一个连续性生产的工厂,为检验产品的质量,在一天中每隔一小时取下五分钟的产品做全部检验,这是:C

A、等距抽样

B、机械抽样

C、整群抽样

D、简单随机抽样

4、抽样误差大小D

A. 可以事先计算,但不能控制

B. 不可事先计算,但能控制

C. 能够控制和消灭

D. 能够控制,但不能消灭

5、某工厂连续性生产,为检验产品的质量,在一天中每隔半小时取下一件产品做检验,这是:B

A、等距抽样

B、机械抽样

C、整群抽样

D、简单随机抽样

四、参数估计

填空题

单项选择题

1、不重复抽样平均误差:B

A. 总是大于重复抽样平均误差

B. 总是小于重复抽样平均误差

C. 总是等于重复抽样平均误差

D. 上情况都可能发生

2、在其它条件不变的情况下,抽样单位数增加一半,抽样平均误差A

A. 缩小为原来的81.6%

B. 缩小为原来的50%

C. 缩小为原来的25%

D. 扩大为原来的四倍

3、根据某城市抽样调查225户,计算出户均储蓄额30000元,抽样平均误差800元,试问概率为90%,户均储蓄额极限误差是多少?D

A.53.3

B.1.65

C.720

D.1320

4、假定10亿人口大国和100万人口小国的居民年龄的变异程相同,现在各自用重复抽样方法抽取本国的1%人口计算平均年龄,则平均年龄的抽样平均误差为:C

A.两者相等

B.前者比后者大

C.前者比后者小

D.不能确定

5、根据抽样调查的资料,某城市人均日摄入热量2500千卡,抽样平均误差150千卡,试问有多大的置信度来断定该市人均摄入热量在2350千卡至2650千卡之间?B

A.0.9545

B.0.6827

C.1

D.0.90

简答

1.参数估计的两种形式以及具体含义?

参数估计就是用样本统计量来估计总体的未知参数,参数估计有的两种形式:点估计和区间估计。点估计就是用一个数值作为未知参数的估计值,区间估计是实质上就是用两个相互联系的样本统计量给出具体的上限和下限,把总体参数包括在这个区间内,同时要求该区间将总体参数包含在内的概率应该达到一定的程度。

2、在参数估计中,为什么说准确性的要求和可靠性的要求是一对矛盾,在实际估计中又如何解决这对矛盾?

对于一个样本,提高了估计准确性的要求,伴随的必然降低了估计的可靠性。同样,提高了估计可靠性的要求,也必然降低了估计的准确性。因此在抽样估计的时候,只能对其中的一个提出要求,而推求另一个要素的变动情况。

3、什么是抽样标准误差、抽样边际误差,两者在抽样估计中发挥什么作用?

3、抽样标准误差是所有可能的样本均值的标准差,测度所有样本均值的离散程度,反映抽样误差的一般水平,其实质是样本均值抽样分布的标准差,反映样本统计量和总体参数间的平均误差程度。抽样边际误差是指抽样误差可允许的最大范围。因标准误差反映抽样的可能误差范围,而实际上每次抽样推断中只抽一个样本,因此实际上的抽样误差可能大于抽样标准误差,也可能小于抽样标准误差。误差太大或太小都会给抽样工作造成不利影响,因而在抽样估计时,应根据研究对象的变异程度和分析任务的要求确定可允许误差的范围,这一允许范围称边际误差。

计算

1、某快餐店对顾客的平均花费进行抽样调查,随机抽取了49名顾客构成一个简单随机样本,调查结果为:样本平均花费为12.6元,标准差为2.8元。试以95.45%的置信水平估计该快餐店顾客的总体平均花费数额的置信区间;(φ(2)=0.9545)

n是大样本,由中心极限定理知,样本均值的极限分布为正态分布,故可用

49

正态分布对总体均值进行区间估计。

已知:8.2,6.12==S x 0455.0=α

则有: 202275

.02

==Z Z α平均误差=4.07

8.22==n S 极限误差8.04.022

2

=?==?n

S Z α

据公式

x x ±=±? 代入数据,得该快餐店顾客的总体平均花费数额95.45%的置信区间为(11.8,13.4)

2、假设某城市在全社会劳动者中,随机抽样调查了1600名劳动者,其中400名在集体所有制单位工作,试求集体所有制单位劳动者在全社会劳动者所占比率的置信度为95%的置信区间。

根据题意,0.05400

25%,0.05, 1.96,1600

p αμ=

===因此

1.96

2.12%α

μ?=== 所以,集体所有制单位劳动者在全社会劳动者所占比率的置信度为95%的置信区间为:

(,)(25% 2.12%,25% 2.12%)(22.88%,27.12%)p p -?+?=-+=

3、某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本。

1)假定总体标准差为15元,求样本均值的抽样标准误差; 2)在95%的置信水平下,求边际误差;

3)如果样本均值为120元,求总体均值置信水平为95%的置信区间。 3、(1)2.14;(2)4.2;(3)(115.8,124.2)

4、某居民小区共有居民500户,小区管理者准备采取一项新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。

1)求总体中赞成该项改革的户数比例的置信区间,置信水平为95%。 2)如果小区管理者预计赞成的比例能达到80%,应抽取多少户进行调查? 4、(1)(51.37%,76.63%);(2)36

五、假设检验

5.对生产厂商而言,其生产的产品平均寿命越低,则其生产成本也越低。因而其质量检验宜采用:

A.双侧检验B.右侧检验C.左侧检验D.以上都可以

CACCB

简答

1、什么是显著性水平?它对于假设检验决策的意义是什么?

答:假设检验中犯第一类错误的概率被称为显著性水平。显著性水平通常是人们事先给出的一个值,用于检验结果的可靠性度量,但确定了显著性水平等于控制了犯第一错误的概率,但犯第二类错误的概率却是不确定的,因此作出“拒绝原假设”的结论,其可靠性是确定的,但作出“不拒绝原假设”的结论,其可靠性是难以控制的。

2.第一类错误和第二类错误分别是指什么?它们发生的概率大小之间存在怎样的关系?

答:第I类错误指,当原假设为真时,作出拒绝原假设所犯的错误,其概率为α。第II类错误指当原假设为假时,作出接受原假设所犯的错误,其概率为β。在

其他条件不变时,α增大,β减小;β增大,α减小。

3.什么是p值?p值检验和统计量检验有什么不同?

答:p值是当原假设为真时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率。P值常常作为观察到的数据与原假设不一致程度的度量。统计量检验采用事先确定显著性水平α,来控制犯第一类错误的上限,p

值可以有效地补充α提供地关于检验可靠性的有限信息。p值检验的优点在于,

它提供了更多的信息,让人们可以选择一定的水平来评估结果是否具有统计上的显著性。

计算

1.假设某产品的重量服从正态分布,现在从一批产品中随机抽取16件,测得平均重量为820克,标准差为60克,试以显著性水平α=0.01与α=0.05,分别检验这批产品的平均重量是否是800克。

解:假设检验为800:,800:0100≠=μμH H (产品重量应该使用双侧检验)。采用t 分布的检验统计量n

x t /0

σμ-=

。查出α=0.05和0.01两个水平下的临界值(df=n-1=15)为2.131和2.947。667.116

/60800

820=-=t 。因为t <2.131<2.947,所

以在两个水平下都接受原假设。

2.某牌号彩电规定无故障时间为10000小时,厂家采取改进措施,现在从新批量彩电中抽取100台,测得平均无故障时间为10 150小时,标准差为500小时,能否据此判断该彩电无故障时间有显著增加(α=0.01)?

解:假设检验为10000:,10000:0100>=μμH H (使用寿命有无显著增加,应该使用右侧检验)。n=100可近似采用正态分布的检验统计量n

x z /0

σμ-=

。查出α=0.01水平下的反查正态概率表得到临界值2.32到2.34之间(因为表中给

出的是双侧检验的接受域临界值,因此本题的单侧检验显著性水平应先乘以2,再查到对应的临界值)。计算统计量值3100

/50010000

10150=-=

z 。因为

z=3>2.34(>2.32),所以拒绝原假设,无故障时间有显著增加。

3.某品种羊的平均年产毛量为10公斤,标准差为0.49公斤。现采用一种新饲料配方,抽取100只羊作试验,得平均年产毛量为10.5公斤。请判断该配方对增加产毛量是否有效?(0.05)α=

.解:第一步:提出假设

01:10,:10H H μμ=≠,

第二步:构造检验统计量并计算具体数值

10.510

10.204

0.49/10x Z S μ--=

=== 第三步:规定显著性水平,作出检验规则

显著性水平为0.05α=,使用的是双侧检验,则:

/20.025 1.96Z Z α==

第四步:作出判断

由于10.204>1.96,在双侧检验中,10.204属于拒绝域,即充分的理由接受原假设。从而判断配方对增加羊毛量的影响不显著。

4.某大学想了解学生英语四级考试水平,随机抽样25名学生的成绩,抽样结果

表明平均成绩为80分,标准差为7分。根据这些结果,在显著性水平为0.05下,能否认为该校英语四级考试的平均成绩可以达到82分?

第一步:提出原假设和备择假设

01:82,:82H H μμ=≠

第二步:构造检验统计量,计算检验统计量的观测值

由于以上总体标准差σ未知,所以用t 检验,所用的检验统计量为

X t =

第三步,确定显著性水平,确定拒绝域

对于25n =,显著性水平0.05α=,查得t -分布表,得到临界值24

0.025 2.064t =,拒绝域为

2.064t ≥

第四步,作出判断

由于条件和

0,H 知道07,80,82s X μ===,因此 1.43X t =

==-,由于

1.43

2.064,t =<所以不能否定假设0,H 即认为该校英语四级考试的平均成绩可以达到82

分。

5、市场研究机构用一组被调查者样本来给某特定商品的潜在购买力打分。样本

中每个人都分别在看过该产品的新的电视广告之前与之后打分。潜在购买力的分值为0~10分,分值越高表示潜在购买力越高。原假设认为“看后”平均得分小于或等于“看前”平均得分,拒绝该假设就表明广告提高了平均潜在购买力得分。对=0.05的显著性水平,用下列数据检验该假设,并对该广告给予评价。

匹配小样本 提出假设:01:,:a b a b H H μμμμ≤>

由计算得:0.625, 1.302,8,0.05d d s n α====,检验统计量为

()0.051.35777 1.8946d t t =

==<=,不拒绝0H ,不能认为广告提

高了潜在购买力的平均得分。

6、某种纤维原有的平均强度不超过6克,现希望通过改进工艺来提高其平均强

度。研究人员测得了100个关于新纤维的强度数据,发现其均值为6.35。假定纤维强度的标准差仍为1.19不变,在5%的显著性水平下对该问题进行假设检验。 (1) 选择检验统计量并说明其抽样分布是什么样的? (2) 检验的拒绝规则是什么?

(3) 计算检验统计量的值,你的结论是什么?

(1)检验统计量

,在大样本情形下近似服从标准正态分布;

(2)如果,就拒绝;

(3)检验统计量=2.94>1.645,所以应该拒绝。

αn s x z /μ

-=

05.0z z >0H z 0H

六、方差分析

单项选择题

方差分析所要研究的问题是(C)

A、各总体的方差是否相等

B、各样本数据之间是否有显著差异

C、分类型自变量对数值型因变量的影响是否显著

D、分类型因变量对数值型自变量是否显著

2、组间误差是衡量因素的不同水平(不同总体)下各样本之间的误差,它(C)

A、只包含随机误差

B、只包含系统误差

C、既包含随机误差也包含系统误差

D、有时包含随机误差,有时包含系统误差

3、组内误差(A)

A、只包含随机误差

B、只包含系统误差

C、既包含随机误差也包含系统误差

D、有时包含随机误差,有时包含系统误差

4、在单因素方差分析中,各次实验观察值应(B)

A、相互关联

B、相互独立

C、计量逐步精确

D、方法逐步改进

5、在单因素方差分析中,若因子的水平个数为k,全部观察值的个数为n,那么(D)

A、SST的自由度为n B 、SSA的自由度为k C、SSE的自由度为n-k-1

D、SST的自由度等于SSE的自由度与SSA的自由度之和。

6、在方差分析中,如果拒绝原假设,则说明(A)

A、自变量对因变量有显著影响

B、所检验的各总体均值之间全部相等

C、不能认为自变量对因变量有显著影响

D、所检验的各样本均值之间全不相等

7、在单因素分析中,用于检验的统计量F的计算公式为(C)

A、SSA/SSE

B、SSA/SST

C、MSA/MSE

D、MSE/MSA

8、在单因素分析中,如果不能拒绝原假设,那么说明组间平方和SSA (C)

A、等于0

B、等于总平方和

C、完全由抽样的随机误差所决定

D、显著含有系统误差

9、SSA自由度为(A)

A、r-1

B、n-1

C、n-r

D、r-n

填空题

1.总变差平方和、组间变差平方和、组内变差平方和三者之间的关系是。

总变差平方和=组间变差平方和+组内变差平方和

2.方差分析中的因变量是数值型变量,自变量可以是分类型变量。

3.方差分析是通过对组间均值变异的分析研究判断多个是否相等的一种统计方法。

总体均值

4.在单因子方差分析中,分子的自由度是因素个数减1,分母的自由度是样本个数减因素个数。

计算

1、某公司采用四种颜色包装产品,为了检验不同包装方式的效果,抽样得到了一些数据并进行单因素方差分析实验。实验依据四种包装方式将数据分为4组,每组有5个观察值,用EXCEL中的数据分析工具,在0.05的显著水平下得到如下方差分析表:

方差分析

(1)填表:请计算表中序号标出的七处缺失值,并直接填在表上。

(2)请问这4种包装方式的效果是否有显著差异?并说明理由。

(1)A=150 B=3 C=10

D=16 E= 5 F=230 G=19 (每个1分)

(2)有显著差异

F统计量的值大于临界值

P=0.002<α=0.05 (3分)

2、养鸡场要检验四种饲料配方对小鸡增重是否相同,用每一种饲料分别喂养了6只同一品种同时孵出的小鸡,共饲养了8周,每只鸡增重数据如下:(克)配方:370,420,450,490,500,450

配方:490,380,400,390,500,410

配方:330,340,400,380,470,360

配方:410,480,400,420,380,410

问:四种不同配方的饲料对小鸡增重是否相同?

根据计算结果列出方差分析表

F

的差异。

3、

七、相关与回归

填空题

1. 变量间存在的_______________数量关系,称为相关关系。

2.由坐标及其散点形成的二维数据图,称为_______________。

3.根据样本数据计算的对两个变量之间________________的度量值,称为相关系数。

4.相关系数r的取值在_____和_____之间。

5.回归系数表示____________每增减一个单位时,___________平均增减的数量。

6.相关关系从变动方向上划分,有_______和______________。

7.回归平方和占____________的比例,称为判定系数。

8.因变量的观察值与_________________之差,称为残差。

9.反映回归直线方程拟合精度的统计指标是_____________。

10.总平方和=__________+________。

1.不确定2.散点图3.线性关系强度

4.-1,+15.自变量x,因变量y6.正相关,负相关

7.总平方和8.估计回归方程求出的预测值9.估计标准误差10.回归平方和,残差平方和

判断

1.产品的单位成本随着产量增加而下降,这种现象属于函数关系。

答:错。应是相关关系。单位成本与产量间不存在确定的数值对应关系。

2.相关系数为0表明两个变量之间不存在任何关系。

答:.错。相关系数为零,只表明两个变量之间不存在线性关系,并不意味着两者间不存在其他类型的关系。

3.单纯依靠相关与回归分析,无法判断事物之间存在的因果关系。

答:对,因果关系的判断还有赖于实质性科学的理论分析。

4.圆的直径越大,其周长也越大,两者之间的关系属于正相关关系。

答:错。两者是精确的函数关系。

5.总体回归函数中的回归系数是常数,样本回归函数中的回归系数的估计量是随机变量。

答:对。

6.当抽取的样本不同时,对同一总体回归模型估计的结果也有所不同。

答:对。因为,估计量属于随机变量,抽取的样本不同,具体的观察值也不同,尽管使用的公式相同,估计的结果仍然不一样。

单项选择

1:当自变量的数值确定后,因变量的数值也随之完全确定,这种关系属于()。

A.相关关系

B.函数关系

C.回归关系

D.随机关系

2:现象之间的相互关系可以归纳为两种类型,即()。

A.相关关系和函数关系

B.相关关系和因果关系

C.相关关系和随机关系

D.函数关系和因果关系

3:在相关分析中,要求相关的两变量()。

A.都是随机的

B.都不是随机变量

C.因变量是随机变量

D.自变量是随机变量

4: 测定变量之间相关密切程度的指标是( )。

A.估计标准误

B.两个变量的协方差

C.相关系数

D.两个变量的标准差 5:相关系数的取值范围是( )。 A. 0

C. -1≤r≤1

D. -1≤r≤0

6: 现象之间线性依存关系的程度越低,则相关系数( ) 。

A. 越接近于-1

B. 越接近于1

C. 越接近于0

D. 在0.5和0.8之间 7: 若物价上涨,商品的需求量相应减少,则物价与商品需求量之间的关系为( )。 A. 不相关

B. 负相关

C. 正相关

D. 复相关

8: 现象之间线性相关关系的程度越高,则相关系数( ) 。

A.越接受于0

B.越接近于1

C.越接近于-1

D.越接近于+1和-1 9:能够测定变量之间相关关系密切程度的主要方法是( ) 。 A.相关表 B.相关图 C.相关系数 D.定性分析 10:如果变量x 和变量y 之间的相关系数为1±,说明两变量之间( ) 。 A. 不存在相关关系 B. 相关程度很低C. 相关程度显著 D. 完全相关 11:当变量x 值增加时,变量y 值随之下降,那么变量x 与变量y 之间存在着( )。 A.直线相关关系 B.正相关关系 C.负相关关系 D.曲线相关关系 12:下列哪两个变量之间的相关程度高( )。 A.商品销售额和商品销售量的相关系数是0.9 B.商品销售额与商业利润率的相关系数是0.84 C.平均流通费用率与商业利润率的相关系数是-0.94 D.商品销售价格与销售量的相关系数是-0.91 13:回归分析中的两个变量( )。

A 、都是随机变量

B 、关系是对等的

C 、都是给定的量

D 、一个是自变量,一个是因变量

14:当所有的观察值y 都落在直线bx a y c +=上时,则x 与y 之间的相关系数为( )。 A. r=0 B . |r|=1 C.-1

题目16:每一吨铸铁成本(元)倚铸件废品率(%)变动的回归方程为: y c =56+8x, 这意味着( )

A.废品率每增加1%,成本每吨增加64元

B.废品率每增加1%,成本每吨增加8%

C.废品率每增加1%,成本每吨增加8元

D.废品率每增加1%,则每吨成本为56元 17:估计标准误说明回归直线的代表性,因此( )。 A.估计标准误数值越大,说明回归直线的代表性越大 B.估计标准误数值越大,说明回归直线的代表性越小 C.估计标准误数值越小,说明回归直线的代表性越小 D.估计标准误的数值越小,说明回归直线的实用价值小

简答题

1、请举一实例说明什么是单相关和偏相关?以及它们之间的差别。

答:例如夏季冷饮店冰激凌与汽水的消费量,简单地就两者之间的相关关系进行考察,就是一种单相关,考察的结果很可能存在正相关关系,即冰激凌消费越多,汽水消费也越多。然而,如果我们仔细观察,可以发现一般来说,消费者会在两者中选择一种消费,也就是两者之间事实上应该是负相关。两者之间的单相关关系出现正相关是因为背后还有天气等因素的影响,天气越热,两种冷饮的消费量都越多。如果设法将天气等因素固定不变,单纯考察冰激凌与汽水的消费量,则可能出现负相关关系。像这种假定其他影响因素不变专门考察其中两个因素之间的关系就成为偏相关。

2.讨论以下几种场合,回归方程t t t t u X X Y +++=33221βββ中回归系数的经济意义和应取的符号。

(1)Yt 为商业利润率;X2t 为人均销售额;X3t 为流通费用率。 (2)Yt 为粮食销售量;X2t 为人口数;X3t 为人均收入。 (3)Yt 为工业总产值;X2t 为占用的固定资产;X3t 为职工人数。 (4)Yt 为国内生产总值;X2t 为工业总产值;X3t 为农业总产值。

答:(1)02>β,03<β

人均销售额越大,企业利润越高,故此商业利润率越高,从而商业利润率与人均销售额呈正相关关系;而流通费用率越高,反映商业企业的经营成本越高,其商业利润率就越低。

(2)02>β,03>β

人口数量越多,对粮食的消费量就越大;人均收入越多,对粮食的购买力就越强,故此这两个变量皆与粮食销售量呈正相关关系。

(3)02>β,03>β

固定资产和职工人数是两大生产要素,数量越多,说明生产要素越密集,工业总产值就越高,所以它们与工业总产值的关系为正相关。

(4)01>β,02>β,03>β

因为国内生产总值包括三次产业,所以工业总产值、农业总产值和全部的国内生产总值为正相关关系,同时即便某些特殊地区没有工业和农业,仍然有国内生产总值,所以,01>β。

3、什么是相关分析?相关分析的主要内容是什么?

相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的关系的一种统计方法。 相关分析的内容:

①确定现象之间有无相关关系 ②确定相关关系的表现形式 ③判定相关关系的密切程度和方向

4、什么是回归分析?回归分析的主要内容是什么?

回归分析就是对具有相关关系的两个或两个以上变量之间的数量变化关系进行测定,建立因变量和自变量之间数量变动关系的数学表达式(回归方程),以便利用自变量的数值去估计或预测因变量数值的统计分析方法。

①根据研究的目的和现象之间的内在联系,确定自变量和因变量 ②确定回归分析模型的类型及数学表达式 ③对回归分析模型进行评价和诊断 ④根据给定的自变量数值推断因变量的数值

5、相关分析和回归分析有什么区别与联系? ①回归分析与相关分析的区别

从广义上来说,相关分析包括回归分析,从狭义上说,相关分析与回归分析又有一定的区别。狭义的相关分析和回归分析的区别主要有以下三个方面: 第一,在相关分析中涉及的变量不存在自变量和因变量的划分问题,变量之间的

医学统计学 名词解释+问答题-1

医学统计学 1、应用相对数时应注意的事项 ①计算相对数时分母不能太小; ②分析时不能以构成比代替率; ③当各分组的观察单位数不等时,总率(平均率)的计算不能直接将各分组的率相加求其平均; ④对比时应注意资料的可比性:两个率要在相同的条件下进行,即要求研究方法相同、研究对象同质、观察时间相等以及地区、民族、年龄、性别等客观条件一致,其他影响因素在各组的内部构成应相近; ⑤进行假设检验时,要遵循随机抽样原则,以进行差别的显著性检验。 2、正态分布的特点及其应用 性质:①两头低中间高,略呈钟形; ②只有一个高峰,在X=μ,总体中位数亦为μ; ③以均数为中心,左右对称; ④μ为位置参数,当σ恒定时,μ越大,曲线沿横轴越向右移动; σ为变异度参数,当μ恒定时,σ越大,表示数据越分散,曲线越矮胖,反之,曲线越瘦高; ⑤对于任何服从正态分布N(μ,σ2)的随机变量X作的线性变换,都会变换成u 服从于均数为0,方差为1的正态分布,即标准正态分布。 应用:①概括估计变量值的频数分布; ②制定参考值范围; ③质量控制; ④是许多统计方法的理论基础。 3、确定参考值范围的一般原则和步骤、方法 一般原则和步骤:①抽取足够例数的正常人样本作为观察对象; ②对选定的正常人进行准确而统一的测定,以控制系统误差; ③判断是否需要分组测定; ④决定取单侧范围值还是双侧范围值; ⑤选定适当的百分范围; ⑥选用适当的计算方法来确定或估计界值。 方法:①正态分布法:②百分位数法(偏态分布) 4、总体均数的可信区间与参考值范围的区别 概念:可信区间是按预先给定的概率来确定的未知参数μ的可能范围。 参考值范围是绝大多数正常人的某指标范围。所谓正常人,是指排除了影响所研究指标的疾病和有关因素的人;所谓绝大多数,是指范围,习惯上指正常人的95%。 计算公式:可信区间① ② ③ 参考值范围①正态分布 ②偏态分布 用途:可信区间用于总体均数的区间估计 参考值范围用于表示绝大多数观察对象某项指标的分布范围

统计学作业答案

1. 一家调查公司进行一项调查,其目的是为了了解某市电信营业厅大客户对该 电信的服务的满意情况。调查人员随机访问了30名去该电信营业厅办理业务 的大客户,发现受访的大客户中有9名认为营业厅现在的服务质量较两年前 好。试在95%的置信水平下对大客户中认为营业厅现在的服务质量较两年前 好的比率进行区间估计。 4.据某市场调查公司对某市80名随机受访的购房者的调查得到了该市购房 者中本地人购房比率p 的区间估计,在置信水平为10%下,其允许误差E = 0.08。则: (1)这80名受访者样本中为本地购房者的比率是多少? (2)若显著性水平为95%,则要保持同样的精度进行区间估计,需要调查 多少名购房者。 解:这是一个求某一属性所占比率的区间估计的问题。根据已知n =30,2 /αz =1.96,根据抽样结果计算出的样本比率为%30309?==p 。 总体比率置信区间的计算公式为: ()n p p z p ?1??2/-±α 计算得: ()n p p z p ?1??2/-±α=30%()30 %301%3096.1-??± =(13.60%,46.40%) 5、某大学生记录了他一个月31天所花的伙食费,经计算得出了这个月平均每天 花费10.2元,标准差为2.4元。显著性水平为在5%,试估计该学生每天平 均伙食费的置信区间。 解:由已知:=x 10.2,s =2.4,96.1025.0=z ,则其置信区间为: 314 .296.12.10025.0?±=±n s z x =〔9.36,11.04〕。 该学生每天平均伙食费的95%的置信区间为9.36元到11.04元。

6、据一次抽样调查表明居民每日平均读报时间的95%的置信区间为〔2.2,3.4〕 小时,问该次抽样样本平均读报时间t 是多少?若样本量为100,则样本标准 差是多少?若我想将允许误差降为0.4小时,那么在相同的置信水平下,样 本容量应该为多少? 解:样本平均读报时间为:t = 24.32.2+=2.8 由()96 .121002.24.322.24.305.0?-=?-==s n s z E =3.06 2254 .006.396.122 22205.02=?=?=E s z n 7、某电子邮箱用户一周内共收到邮件56封,其中有若干封是属于广告邮件,并 且根据这一周数据估计广告邮件所占比率的95%的置信区间为〔8.9%, 16.1%〕。问这一周内收到了多少封广告邮件。若计算出了20周平均每周收 到48封邮件,标准差为9封,则其每周平均收到邮件数的95%的置信区间 是多少?(设每周收到的邮件数服从正态分布) 解:本周收到广告邮件比率为:p =2 161.0089.0+=0.125 收到广告邮件数为:n ×p =56×0.125=7封 根据已知:x =48,n =20,s =9,093.2)19(025.0=t ()199 093.24819025.0?±=±n s t x =[43.68,52.32] 8、为了解某银行营业厅办理某业务的办事效率,调查人员观察了该银行营业厅 办理该业务的柜台办理每笔业务的时间,随机记录了15名客户办理业务的时间,测得平均办理时间为t =12分钟,样本标准差为s =4.1分钟,则: (1)其95%的置信区间是多少? (2)若样本容量为40,而观测的数据不变,则95%的置信区间又是多少? 解:(1)根据已知有()145.214025.0=t ,n =15,t =12,s =4.1。 置信区间为:()151 .4145.21214025.0?±=±n s t t =〔9.73,14.27〕

统计学试题库及答案

统计学试题库及答案 Document serial number【KKGB-LBS98YT-BS8CB-BSUT-BST108】

《统计学》试题库 知识点一:统计基本理论和基本概念 一、填空题 1、统计是、和的统一体,是统计工作的成果,是统计工作的经验总结和 理论概括。 2、统计研究的具体方法主要有、、和。 3、统计工作可划分为、、和四个阶段。 4、随着的改变,总体和是可以相互转化的。 5、标志是说明,指标是说明。 6、可变的数量标志和所有的统计指标称为,变量的具体数值称为。 7、变量按分,可分为连续变量和离散变量,职工人数、企业数属于变量;变量按分,可 分为确定性变量和随机变量。 8、社会经济统计具有、、、等特点。 9、一个完整的统计指标应包括和两个基本部分。 10、统计标志按是否可用数值表示分为和;按在各个单位上的具体表现是否相同分为 和。 11、说明特征的名称叫标志,说明特征的名称叫指标。 12、数量指标用表示,质量指标用或平均数表示。 13、在统计中,把可变的和统称为变量。 14、由于统计研究目的和任务的变更,原来的变成,那么原来的指标就相应地变成标志,两者 变动方向相同。 二、是非题 1、统计学和统计工作的研究对象是完全一致的。 2、运用大量观察法,必须对研究对象的所有单位进行观察调查。 3、统计学是对统计实践活动的经验总结和理论概括。 4、一般而言,指标总是依附在总体上,而总体单位则是标志的直接承担者。 5、数量指标是由数量标志汇总来的,质量指标是由品质标志汇总来的。 6、某同学计算机考试成绩80分,这是统计指标值。 7、统计资料就是统计调查中获得的各种数据。 8、指标都是用数值表示的,而标志则不能用数值表示。 9、质量指标是反映工作质量等内容的,所以一般不能用数值来表示。 10、总体和总体单位可能随着研究目的的变化而相互转化。 11、女性是品质标志。

教育统计学与SPSS课后作业答案祥解题目

教育统计学课后作业 一、P118 1 题目:10位大一学生平均每周所花的学习时间与他们的期末考试成绩见表6-17.试问: (1)学习时间与考试成绩之间是否相关? (2)比较两组数据谁的差异程度大一些? (3)比较学生2与学生9的期末考试测验成绩。 表6-17 学习时间与期末考试成绩 1 2 3 4 5 6 7 8 9 10 学习时间考试成绩40 58 43 73 18 56 10 47 25 58 33 54 27 45 17 32 30 68 47 69 解题步骤: (1)第一步:定义变量:“xuexishijian”、“xuexichengji”后,输入数据.如下图: 1

第二步:单击选择“分析(Analyze)”中的“相关(Correlate)”中的“双变量(Bivariate Correlations)”, 将上图中的“xuexishijian”和“xuexichengji”添加到右边变量框中,如下图: 第三步:点击“确定“后,输出结果如下图: 第四步:分析结果

3 由上图可知:学习时间与学习成绩之间的pearson 相关系数为0.714,p (双侧)为0.20。自由度 df=10-2=8时,查“皮尔逊积差相关系数显著临界值表”知:r 0.05= 0.623 ; r 0.01=0.765。 因为0.765 > 0.714 >0.623,所以在0.05水平上学习时间和学习成绩是相关显著的。 (2)SPSS 软件分析结果如下图: 由上图可知:学习时间标准差和平均值为:S 1=12.037 ?X 1= 29.00 ;学习时间标准差和平均值为:S 2=12.437?X 2=56.00 根据差异系数公式可知: 学习时间差异系数为:%100?=X S CV S =12.037/29.00×100%=41.51% 学习成绩差异系数为:%100?= X S CV S =12.437/56.00×100%=22.27% 有上述结果可知学习时间差异程度大于学习成绩差异程度。 (4) 把学生2和学生9的期末考试成绩转化成标准分数: Z 2=(X -?X) /S= (73—56)/12.437=1.367 Z 9=(X-?X)/S=(68—56)/12.437=0.965 由上计算可知:学生2期末考试测验成绩优于学生9的期末考试测验成绩。 二、P119 2 题目:某班数学的平均成绩为90,标准差10;化学的平均分为85,标准差为8;物理的平均分为79,标准差为15.某生这三科成绩分别为95,80,80.试问 (1) 该生在哪一学科上突出一些? (2) 该班三科成绩的差异度如何?有无学习分化现象? (3) 该生的学期分数是多少? (4) 三科的总平均和总标准差是多少? 解题步骤:

应用统计学练习题(含答案)

应用统计学练习题 第一章绪论 一、填空题 1.统计工作与统计学的关系是__统计实践____和___统计理论__的关系。 2.总体是由许多具有_共同性质_的个别事物组成的整体;总体单位是__总体_的组成单位。 3.统计单体具有3个基本特征,即__同质性_、__变异性_、和__大量性__。 4.要了解一个企业的产品质量情况,总体是_企业全部产品__,个体是__每一件产品__。 5.样本是从__总体__中抽出来的,作为代表_这一总体_的部分单位组成的集合体。 6.标志是说明单体单位特征的名称,按表现形式不同分为__数量标志_和_品质标志_两种。 7. 8.统计指标按其数值表现形式不同可分为__总量指标__、__相对指标_和__平均指标__。 9.指标与标志的主要区别在于: (1)指标是说明__总体__特征的,而标志则是说明__总体单位__特征的。 (2)标志有不能用__数量__表示的_品质标志_与能用_数量_表示的_数量标志_,而指标都是能用_数量_表示的。 10.一个完整的统计工作过程可以划分为_统计设计_、_统计调查_、_统计整理_和__统计分析__4个阶段。 二、单项选择题 1.统计总体的同质性是指(A)。 A.总体各单位具有某一共同的品质标志或数量标志 B.总体各单位具有某一共同的品质标志属性或数量标志值 C.总体各单位具有若干互不相同的品质标志或数量标志 D.总体各单位具有若干互不相同的品质标志属性或数量标志值 2.设某地区有800家独立核算的工业企业,要研究这些企业的产品生产情况,总体是( D)。

A.全部工业企业 B.800家工业企业 C.每一件产品 D.800家工业企业的全部工业产品 3.有200家公司每位职工的工资资料,如果要调查这200家公司的工资水平情况,则统计总体为(A)。 A.200家公司的全部职工 B.200家公司 C.200家公司职工的全部工资 D.200家公司每个职工的工资 4.一个统计总体( D)。 A.只能有一个标志 B.可以有多个标志 C.只能有一个指标 D.可以有多个指标 5.以产品等级来反映某种产品的质量,则该产品等级是(C)。 A.数量标志 B.数量指标 C.品质标志 D.质量指标 6.某工人月工资为1550元,工资是( B )。 A.品质标志 B.数量标志 C.变量值 D.指标 7.某班4名学生金融考试成绩分别为70分、80分、86分和95分,这4个数字是( D)。 A.标志 B.指标值 C.指标 D.变量值 8.工业企业的职工人数、职工工资是(D)。 A.连续变量 B.离散变量 C.前者是连续变量,后者是离散变量 D.前者是离散变量,后者是连续变量 9.统计工作的成果是(C)。 A.统计学 B.统计工作 C.统计资料 D.统计分析和预测 10.统计学自身的发展,沿着两个不同的方向,形成(C)。 A.描述统计学与理论统计学 B.理论统计学与推断统计学 C.理论统计学与应用统计学 D.描述统计学与推断统计学

【缩印整理版】医学统计学名词解释及问答题

统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学。 总体(population):大同小异的研究对象全体。更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。 样本(sample):来自总体的部分个体,更确切的说,应该是部分个体的观察值。样本应该具有代表性,能反映总体的特征。利用样本信息可以对总体特征进行推断。 抽样误差(sampling error)在抽样过程中由于抽样的偶然性而出现的误差。表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。可用标准误描述其大小。 标准误(Standard Error) 样本统计量的标准差,反映样本统计量的离散程度,也间接反映了抽样误差的大小。样本均数的标准差称为均数的标准误。均数标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数 区间估计(interval estimation):将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为置信区间(confidence interval,CI),又称可信区间。 参考值范围描述绝大多数正常人的某项指标所在范围;正态分布法(标准差)、百分位数法,参考值范围用于判断某项指标是否正常 置信区间揭示的是按一定置信度估计总体参数所在的范围。t分布法、正态分布法(标准误)、二项分布法。置信区间估计总体参数所在范围 可信区间:按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间(confidence interval,CI)。它的确切含义是:可信区间包含总体参数的可 能性是1- α ,而不是总体参数落在该范围的可能性为1-α 。 参数统计(parametric statistics) 非参数统计(nonparametric statistics)是指在统计检验中不需要假定总体分布形式和计算参数估计量,直接对比较数据(x)的分布进行统计检验的方法。 变异(variation):对于同质的各观察单位,其某变量值之间的差异 同质(homogeneity):研究对象具有的相同的状况或属性等共性。 回归系数有单位,而相关系数无单位 β为回归直线的斜率(slope)参数,又称回归系数(regression coefficient)。 线性相关系数(linear correlation coefficient):又称Pearson积差相关系数(Pearson product moment coefficient),是定量描述两个变量间线性关系的密切程度与相关方向的统计指标。 参数(parameter):描述总体特征的统计指标。 统计量(statistic):描述样本特征的统计指标。实验设计的基本原则 对照 (control) 对受试对象不施加处理因素的状态。在确定接受处理因素的实验组时,要同时设立对照组 重复 (replication)相同实验条件下进行多次实验或多次观察。整个实验的重复;观察多个受试对象(样本量);同一受试对象重复观察。作用是估计变异大小和降低变异 随机化(randomization) 采用随机的方式,使每个受试对象都有同等的机会被抽取或分配到试验组和对照组。 I类错误(假阳性错误)真实情况为H0是成立的,但检验结果为H0不成立,这样的错误称为I类错误。其发生的概率用α表示。在假设检验中作为检验水准。一般取0.05或0.01。 II类错误(假阴性错误)真实情况为H1是成立的,但检验结果为H1不成立,这样的错误称为II类错误。其发生的概率用β表示。由于其取值取决于H1 ,因此在假设检验中无法确定。 变异指标是用于描述一组观察值围绕中心位置散布的范围,即描述离散趋势的统计指标。数值越大,说明数据越离散,反之越集中。极差 (range);四分位数间距(quartile range);方差(variance);标准差(standard deviation);变异系数(coefficient of variation 平均数指标用于描述一组同质观察值的集中趋势,反映一组观察值的平均水平。算术均数(arithmetic mean);几何均数(geometric mean);中位数(median);众数(mode) 单纯抽样将调查总体的全部观察单位编号,从而形成抽样框架,在抽样框架中随机抽取部分观察单位组成样本。每个观察对象都有相同的机会被抽中系统抽样又称机械抽样。按照某种顺序给总体中的个体编号,然后随机地抽取一个号码作为第一个调查个体,其他的调查个体则按照某种确定的规则“系统”地抽取。最常用的方法是等距抽样 分层抽样先将总体中全部个体按某种特征分成若干“层”,再从每一层内随机抽取一定数量的个体组成样本。分层特征与研究目的有关。按各层比例抽样。为减少抽样误差,要求层内误差最小,层间误 差最大。 整群抽样先将总体分成若干“群”,从中随机抽取 几个群,抽取群内的所有观察单位组成调查样本。 “群”的确定与研究目的无关。为减少抽样误差, 需多抽几个“群”。 方差分析:又称变异数分析或 F检验,适用于对多 个平均值进行总体的假设检验,以检验实验所得的 多个平均值是否来自相同总体。 析因设计(factorial design)实验:凡同时配置两个 或两个以上处理因素,这些因素的各水平又具有完 全组合的实验,统称为析因设计(factorial design) 实验。 随机区组设计(randomized block design)是事先 将全部受试对象按某种可能与实验因素有关的特征 分为若干个区组(block),使每一区组内的受试对 象例数与处理因素的分组数相等,使每个实验组从 每一区组得到一例受试对象。 单向方差分析(one way analysis of variance)是指 处理因素只有一个。这个处理因素包含有多个离散 的水平,分析在不同处理水平上应变量的平均值是 否来自相同总体。 (2)计数资料:将观察单位按某种属性或类别分组, 所得的观察单位数称为计数资料 (count data)。计数资料亦称定性资料或分类资料。 其观察值是定性的,表现为互不相容的类别或属性。 如调查某地某时的男、女性人口数;治疗一批患者, 其治疗效果为有效、无效的人数;调查一批少数民 族居民的A、B、AB、O 四种血型的人数等。 (3)等级资料:将观察单位按测量结果的某种属性 的不同程度分组,所得各组的观察单位数,称为等 级资料(ordinal data)。等级资料又称有序变量。如 患者的治疗结果可分为治愈、好转、有效、无效或 死亡,各种结果既是分类结果,又有顺序和等级差 别,但这种差别却不能准确测量;一批肾病患者尿 蛋白含量的测定结果分为+、++、+++等。 随机变量(random variable)是指取指不能事先确 定的观察结果。随机变量的具体内容虽然是各式各 样的,但共同的特点是不能用一个常数来表示,而 且,理论上讲,每个变量的取值服从特定的概率分 布。 变异系数(coefficient of variation)用于观察指标单 位不同或均数相差较大时两组资料变异程度的比 较。用CV 表示。计算:标准差/均数*100% 直线回归(linear regression)建立一个描述应变量 依自变量变化而变化的直线方程, 并要求各点与该直线纵向距离的平方和为最小。直 线回归是回归分析中最基本、最简单的一种,故又 称简单回归(simple regression)。 回归系数(regression coefficient )即直线的斜率 (slope),在直线回归方程中用b 表示,b 的统计意 义为X每增(减)一个单位时,Y平均改变b 个单 位。 相关系数r:用以描述两个随机变量之间线性相关 关系的密切程度与相关方向的统计指标。 秩次:变量值按照从小到大顺序所编的秩序号称为 秩次(rank)。 秩和:各组秩次的合计称为秩和(rank sum),是非 参数检验的基本统计量。 方差(variance):方差表示一组数据的平均离散情 况,由离均差的平方和除以样本个数得到。 检验效能:1- β称为检验效能(power of test),它是 指当两总体确有差别,按规定的检验水准a 所能发 现该差异的能力。 百分位数(percentile)是将n 个观察值从小到大依 次排列,再把它们的位次 依次转化为百分位。百分位数的另一个重要用途是 确定医学参考值范围 随机误差(random error)又称偶然误差,是指排 除了系统误差后尚存的误差。它受多种因素的影响, 使观察值不按方向性和系统性而随机的变化。误差 变量一般服从正态分布。随机误差可以通过统计处 理来估计。 一、统计表有哪些要素构成的?制表的注意事项有 哪些? 一般来说,统计表由标题、标目、线条和数字、备 注五部分组成。但备注并不是必需的内容,可以根 据需要出现。 1简明扼要,重点突出:最好一张表突出一个中心, 不易太多中心,如果需要说明多个中心,可分成多 张统计表。 2合理安排主语和谓语的位置:对于表中任意一行, 从左至右,通过简短的连接词,可连成成一句通顺 的句子。 3表中数据要认真核对,保证准确可靠 二、为什么不宜用t 检验对多组均数进行比较? 如果用t检验进行多个样本均数的两两比较,则会 增加犯I 类错误的概率。 经检验得到拒绝H0 ,认为两组之间有差别的结论 可能犯I类错误的概率为α,不犯I类错误的概率为 1- α.每次判断均不犯I类错误的概率为(1- α)k, k为比较的次数,上例α=0.05, k=3,则均不犯错误 的概率为( 1- 0.05)3 =0.86. 至少有一次判断犯I 类错误的概率为1-(1- α)k 三、方差分析的基本思想是什么? 按实验设计的类型,将全部观察值间的变异分解成 两个或多个组成部分,然后将各部分的变异与随机 误差进行比较(每个部分的变异可由某因素的作用 来解释),以判断各部分的变异是否具有统计学意 义,从而推断不同样本所代表的总体均数是否相同。 五、简述直线相关与回归的区别与联系 区别:1.回归说明依存关系,直线回归用于说明两 变量间数量依存变化的关系,描述y如何依赖于x 而变化;相关说明相关关系,直线相关用于说明两 变量间的直线相关关系,此时两变量的关系是平等 的 2.r与b有区别:r说明具有直线关系的两个 变量间相关的密切程度与相关方向; b表示x每改 变一个单位,y平均增(减)多少个单位; 3.资料要求不同:直线回归要求应变量 y是来自正态总体的随机变量,而x可以是来自正 态总体的随机变量,也可以是严密控制、精确测量 的变量,相关分析则要求x,y是来自双变量正态分 布总体的随机变量。 4.取值范围:-∞

统计学习题集含答案

第一章绪论 一、填空题 1、统计一词有三种涵义,分别是统计工作、统计资料和统计学。 2、从统计发挥作用的层次来看,统计工作的基本职能可概括为信息职能、咨询职能和监督职能。 3、统计资料按计量方法不同,分为计点资料和计量资料。 4、统计资料按是否直接取得,分为原始资料和次级资料。 5、统计资料按时间属性不同,分为时期资料和时点资料。 6、统计资料按所覆盖的范围不同,分为全面资料和非全面资料。 7、历史上“有统计学之名,无统计学之实”的统计学派是国势学派,“有统计学之实,无统计学之名”的统计学派是政治算术学派。 8、凯特勒是近代统计学的先驱者,同时也是数理统计学的奠基人。 9、统计学的性质可概括为:统计学是研究现象总体的数量表现和规律性的方法论科学。 10、统计学按其发展阶段不同,可分为描述统计学和推断统计学。 11、统计学按其理论与实践的关系不同,可分为理论统计学和应用统计学。 12、统计信息与其它信息相比,具有客观性,总体性、数量性和扩展性几大特征。 13、统计是随着社会生产的发展和适应国家管理_的需要而产生和发展起来的。 14、统计学作为一门独立的科学,始于17世纪中叶,距今有300多年历史。 15、统计学是一门方法论科学,而不是研究实质性问题的科学。 16、在统计研究方法体系中,最主要、最基本的研究方法有大量观察法、统计分组法、综合指标法和归纳推断法。 17、统计研究方法中的归纳法是一种从个别到一般的推理方法。 18、统计分析是对统计整理后的数据进行再加工和深加工的过程。 二、单选题

1、统计最基本的职能是( A )。 A.信息职能 B.咨询职能 C.反映职能 D.监督职能 2、统计学作为统计实践活动的理论总结和概括的一门独立的科学,始于( C )。 A.15世纪末叶 B.16世纪末叶C。17世纪末叶 D.18世纪末叶 3、历史上最先提出统计学一词的统计学家是(B )。 A.威廉·配弟 B.阿亨瓦尔 C.康令 D.约翰·格朗特 4、历史上“有统计学之名,无统计学之实”的统计学派是( B )。 A.政治算术学派B.国势学派 C.数理统计学派 D.社会统计学派 5、历史上“有统计学之实,无统计学之名”的统计学派是(A )。 A.政治算术学派 B.国势学派 C.数理统计学派 D.社会统计学派 6、统计学的创始人一般认为是(A )。 A.威廉·配弟 B.阿亨瓦尔 C.康令 D.约翰·格朗特 7、“统计”一词的三种涵义是( A )。 A.统计活动、统计资料和统计学 B.统计调查、统计整理和统计分析 C.统计设计、统计分析和统计预测 D.统计方法、统计分析和统计预测 8、统计活动的特点是(B )。 A.数量性、总体性、同质性和客观性B.数量性、总体性、具体性和社会性C.数量性、总体性、差异性和客观性 D.数量性、总体性、同质性和差异性 9、统计活动过程一般由四个环节构成,即( D )。 A.统计调查、统计整理、统计分析和统计决策 B.统计调查、统计整理、统汁分析和统计预测 C.统计设计、统计调查、统计审核和统计分析 D.统计设计、统计调查、统计整理和统计分析 三、多选题 l、统计资料或统计信息与其它信息相比,具有以下特征(A )(B )( D )( E )()。 A.客观性 B.总体性 C.社会性D.数量性 E.扩展性

统计学试题库及答案

1、统计学与统计工作的研究对象就是完全一致的。F 2、运用大量观察法,必须对研究对象的所有单位进行观察调查。T 3、统计学就是对统计实践活动的经验总结与理论概括。T 4、一般而言,指标总就是依附在总体上,而总体单位则就是标志的直接承担者。T 5、数量指标就是由数量标志汇总来的,质量指标就是由品质标志汇总来的。F 6、某同学计算机考试成绩80分,这就是统计指标值。F 7、统计资料就就是统计调查中获得的各种数据。F 8、指标都就是用数值表示的,而标志则不能用数值表示。F 9、质量指标就是反映工作质量等内容的,所以一般不能用数值来表示F。 10、总体与总体单位可能随着研究目的的变化而相互转化。T11、女性就是品质标志。T 12、以绝对数形式表示的指标都就是数量指标以相对数或平均数表示的指标都就是质量指标 T 13、构成统计总体的条件就是各单位的差异性。F 14、变异就是指各种标志或各种指标之间的名称的差异。F 9、调查某校学生,学生“一天中用于学习的时间”就是(A)A、标志 13、研究某企业职工文化程度时,职工总人数就是(B) B数量指标 14、某银行的某年末的储蓄存款余额(C)C、可能就是统计指标,也可能就是数量标志 15、年龄就是(B)B、离散型变量 四、多项选择题 1、全国第四次人口普查中(BCE)A、全国人口数就是统计总体B、总体单位就是每一个人 C、全部男性人口数就是统计指标 D、男女性别比就是总体的品质标志 E、人的年龄就是变量 2、统计总体的特征表现为(ACD)A、大量性B、数量性C、同质D、差异性E、客观性 3、下列指标中属于质量指标的有(ABCDE)A、劳动生产率B、产品合格率C、人口密度 D、产品单位成本 E、经济增长速度 4、下列指标中属于数量指标的有(ABC) A、国民生产总值B、国内生产总值C、固定资产净值D、劳动生产率E、平均工资 5、下列标志中属于数量标志的有(BD)A、性别B、出勤人数C、产品等级D、产品产量E 文化程度 6、下列标志中属于品质标志的有(ABE)A、人口性别B、工资级别C、考试分数D、商品使用寿命E、企业所有制性质 7、下列变量中属于离散型变量的有(BE)A、粮食产量B、人口年龄C、职工工资 D、人体身高 E、设备台数 8、研究某企业职工的工资水平,“工资”对于各个职工而言就是(ABE)A、标志B、数量标

医学统计学题库

第一章 绪论习题 一、选择题 1.统计工作和统计研究的全过程可分为以下步骤:(D ) A . 调查、录入数据、分析资料、撰写论文 B . 实验、录入数据、分析资料、撰写论文 C . 调查或实验、整理资料、分析资料 D. 设计、收集资料、整理资料、分析资料 E. 收集资料、整理资料、分析资料 2.在统计学中,习惯上把(B )的事件称为小概率事件。 A.10.0≤P B. 05.0≤P 或01.0≤P C. 005.0≤P D.05.0≤P E. 01.0≤P 3~8 A.计数资料 B.等级资料 C.计量资料 D.名义资料 E.角度资料 3.某偏僻农村144名妇女生育情况如下:0胎5人、1胎25人、2胎70人、3胎30人、4胎14人。该资料的类型是( A )。 4.分别用两种不同成分的培养基(A 与B )培养鼠疫杆菌,重复实验单元数均为5个,记录48小时各实验单元上生长的活菌数如下,A :48、84、90、123、171;B :90、116、124、225、84。该资料的类型是(C )。 5.空腹血糖测量值,属于( C )资料。 6.用某种新疗法治疗某病患者41人,治疗结果如下:治愈8人、显效23人、好转6人、恶化3人、死亡1人。该资料的类型是(B )。 7.某血库提供6094例ABO 血型分布资料如下:O 型1823、A 型1598、B 型2032、AB 型641。该资料的类型是(D )。 8. 100名18岁男生的身高数据属于(C )。 二、问答题 1.举例说明总体与样本的概念. 答:统计学家用总体这个术语表示大同小异的对象全体,通常称为目标总体,而资料常来源于目标总体的一个较小总体,称为研究总体。实际中由于研究总体的个体众多,甚至无限多,因此科学的办法是从中抽取一部分具有代表性的个体,称为样本。例如,关于吸烟与肺癌的研究以英国成年男子为总体目标,1951年英国全部注册医生作为研究总体,按照实验设计随机抽取的一定量的个体则组成了研究的样本。 2.举例说明同质与变异的概念 答:同质与变异是两个相对的概念。对于总体来说,同质是指该总体的共同特征,即该总体区别于其他总体的特征;变异是指该总体内部的差异,即个体的特异性。例如,某地同性别同年龄的小学生具有同质性,其身高、体重等存在变异。 3.简要阐述统计设计与统计分析的关系 答:统计设计与统计分析是科学研究中两个不可分割的重要方面。一般的,统计设计在前,然而一定的统计设计必然考虑其统计分析方法,因而统计分析又寓于统计设计之中;统计分析是在统计设计的基础上,根据设计的不同特点,选择相应的统计分析方法对资料进行分析

统计学课程作业及答案2

统计学作业2 单项选择题 第1题某地区有10万人口,共有80个医院。平均每个医院要服务1250人,这个指标是()。 A、平均指标 B、强度相对指标 C、总量指标 D、发展水平指标 答案:B 第2题某企业2002年工业总产值比1992年增长了3倍,则该公司1992-2002年间工业总产值平均增长速度为() A、11.61% B、14.87% C、13.43% D、16.65% 答案:A 第3题某工业企业的某种产品成本,第一季度是连续下降的。1月份产量750件,单位成本20元;2月份产量1000件,单位成本18元;3月份产量1500件,单位成本15元。则第一季度的平均成本为()。 A、17.67 B、17.54 C、17.08 D、16.83 答案:C 第4题已知4个水果商店苹果的单价和销售额,要求计算4个商店苹果的平均单价,应该采用()。 A、简单算术平均数 B、加权算术平均数 C、加权调和平均数 D、几何平均数 答案:C

第5题如果分配数列把频数换成频率,那么方差()。 A、不变 B、增大 C、减小 D、无法预期变化 答案:A 第6题某厂5年的销售收入如下:200万、220万、250万、300万、320万,则平均增长量为()。 A、120/5 B、120/4 C、320/200的开5次方 D、320/200的开4次方 答案:B 第7题直接反映总体规模大小的指标是()。 A、平均指标 B、相对指标 C、总量指标 D、变异指标 答案:C 第8题计算结构相对指标时,总体各部分数值与总体数值对比求得的比重之和()。 A、小于100% B、大于100% C、等于100% D、小于或大于100% 答案:C 多项选择题 第9题下列统计指标属于总量指标的是()。 A、工资总额

统计学原理练习题及答案

统计学原理练习题及答案 2007-12-7 9:32:24 阅读数:6162 《统计学原理》综合练习题 一、判断题(把正确的符号“√”或错误的符号“×”填写在题后的括号中。) 1、社会经济统计的研究对象是社会经济现象总体的各个方面。() 2、在全国工业普查中,全国企业数是统计总体,每个工业企业是总体单位。() 3、总体单位是标志的承担者,标志是依附于单位的。() 4、数量指标是由数量标志汇总来的,质量指标是由品质标志汇总来的。() 5、全面调查和非全面调查是根据调查结果所得的资料是否全面来划分的()。 6、调查单位和填报单位在任何情况下都不可能一致。() 7、在统计调查中,调查标志的承担者是调查单位。() 8、对全同各大型钢铁生产基地的生产情况进行调查,以掌握全国钢铁生产的基本情况。这种调查属于非全面调查。() 9、统计分组的关键问题是确定组距和组数( ) 10、按数量标志分组的目的,就是要区分各组在数量上的差别( ) 11、总体单位总量和总体标志总量是固定不变的,不能互相变换。() 12、相对指标都是用无名数形式表现出来的。() 13、众数是总体中出现最多的次数。() 14、国民收入中积累额与消费额之比为1:3,这是一个比较相对指标。() 15、总量指标和平均指标反映了现象总体的规模和一般水平。但掩盖了总体各单位的差异情况,因此通过这两个指标不能全面认识总体的特征。() 16、抽样推断是利用样本资料对总体的数量特征进行估计的一种统计分析方法,因此不可避免的会产生误差,这种误差的大小是不能进行控制的。() 17、从全部总体单位中按照随机原则抽取部分单位组成样本,只可能组成一个样本。() 18、在抽样推断中,作为推断的总体和作为观察对象的样本都是确定的、唯一的。() 19、抽样估计置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。() 20、在其它条件不变的情况下,提高抽样估计的可靠程度,可以提高抽样估计的精确度。() 21、抽样平均均误差反映抽样的可能误差范围,实际上每次的抽样误差可能大于抽样平均误差,也可能小于抽样平均误差。() 22、施肥量与收获率是正相关关系。() 23、计算相关系数的两个变量都是随机变量() 24、利用一个回归方程,两个变量可以互相推算()

统计学测试题及答案

统计学 1.总体与总体单位之间的关系是( B ) A.在同一研究目的下,两者可以相互变换 B.在不同研究目的下,两者可以相互变换 C.两者都可以随时变换 D.总体可变换成总体单位,而总体单位不能变换成总体 2. 下列标志哪一个是品质标志( C ) A. 产品成本 B. 企业增加值 C. 企业经济类型 D. 企业职工人数 3. 构成统计总体的总体单位( D ) A. 只能有一个指标 B. 只能有一个标志 C. 可以有多个指标 D. 可以有多个标志 4. 某连续变量数列,其末组为开口组,下限有500,相邻组的组中值为480,则末组的组中值为( A ) A.520 B.510 C.500 D.540 5. 社会经济现象构成统计总体的必要条件是总体单位之间必须存在( B ) A. 差异性 B. 同质性 C. 社会性 D. 综合性 6. 研究某市工业企业生产设备的使用情况,则总体单位是( C ) A. 该市全部工业企业 B. 该市每一个工业企业 C. 该市工业企业的每一台生产设备 D. 该市工业企业的全部生产设备 7.对某市占成交额比重大的7个大型集市贸易市场的成交额进行调查,这种调查的组织方式是( C ) A.普查 B.抽样调查C.重点调查 D.典型调查 8.某一学生的统计学成绩为85分,则85分是( D ) A. 品质标志 B. 数量标志 C. 数量指标 D. 标志值 9.下列变量中属于连续变量的是( C ) A. 职工人数 B. 设备台数 C. 学生体重 D. 工业企业数 10. 某企业1994年计划规定劳动生产率提高8%,实际提高6%,则计划完成程度为( B ) A.75% B.98.15% C.133.33% D.101.89% 11. 假设计划任务数是五年计划中规定最后一年应达到的水平,计算计划完成程度相对指标可采用( B ) 累计法 B.水平法 C.简单平均法 D.加权平均法 12.“平均每个人占有钢产量”这个指标是( D ) A.总量指标 B.平均指标C.比较相对指标 D.强度相对指标 13. 对于不同水平的总体不能直接用标准差比较其标志变动度,这时需要分别计算其( A )来比较 A.标准差系数 B.平均差C.极差 D.均方差 14.产品单位成本、产品合格率、劳动生产率、利润总额这四个指标中有几个属于质量指标?( C ) A. 一个 B. 两个 C. 三个 D. 四个 15.在校学生数和毕业生人数这两个指标( A ) A. 前者为时点指标,后者为时期指标 B. 均为时期指标 C. 前者为时期指标,后者为时点指标 D. 均为时点指标 1、构成统计总体的个别事物称为( D ) A、调查单位 B、标志值 C、品质标志 D、总体单位 2、对一批商品进行质量检验,最适宜采用的方法是( B ) 。

最新医学统计学问答题(含答案)

简答题 0. 算术均数、几何均数和中位数各有什么适用条件? 答:(1)算术均数:适用对称分布,特别是正态或近似正态分布的数值变量资料。 (2)几何均数:适用于频数分布呈正偏态的资料,或者经对数变换后服从正态分布(对数正态分布)的资料,以及等比数列资料。 (3)中位数:适用各种类型的资料,尤其以下情况: A 资料分布呈明显偏态; B 资料一端或两端存在不确定数值(开口资料或无界资料); C 资料分布不明。 1.对于一组近似正态分布的资料,除样本含量n 外,还可计算 S X ,和S X 96.1±,问各说明什么? (1)X 为算数均数,说明正态分布或近似正态分布资料的集中趋势 (2)S 为标准差,说明正态分布或近似正态分布的离散趋势 (3)S X 96.1±可估计正态指标的95%的医学参考值范围,即此范围在理论上应包含95%的个体值。 2.试述正态分布、标准正态分布的联系和区别。 正态分布 标准正态分布 原始值X 无需转换 作u=(X-μ)/σ转换 分布类型 对称 对称 集中趋势 μ μ=0 均数与中位数的关系 μ=M μ=M 参考:标准正态分布的均数为0,标准差为1;正态分布的均数则为μ,标准差为σ(μ为任意数,而σ为大于0的任意数)。标准正态分布的曲线只有一条,而正态分布曲线是一簇。任何正态分布都可以通过标准正态变换转换成标准正态分布。标准正态分布是正态分布的特例。 3.说明频数分布表的用途。 1)描述频数分布的类型 2)描述频数分布的特征 3)便于发现一些特大或特小的可疑值 4)便于进一步做统计分析和处理 4.变异系数的用途是什么? 多用于观察指标单位不同时,如身高与体重的变异程度的比较;或均数相差较大时,如儿童身高与成人身高变异程度的比较。 5.试述正态分布的面积分布规律。 (1)X 轴与正态曲线所夹的面积恒等于1或100%; (2)区间μ±σ的面积为68.27%,区间μ±1.96σ的面积为95.00%,区间μ±2.58σ的面积为99.00%。 6.试举例说明均数的标准差与标准误的区别与联系。 7.标准正态分布(u 分布)与t 分布有何不同?

相关文档