各章练习题答案
第1章统计和统计数据
1.1 (1)数值变量。(2)分类变量。(3)数值变量。(4)顺序变量。(5)分
类变量。
1.2 (1)总体是“所有IT从业者”,样本是“所抽取的1000名IT从业者”,样本量
是1000。(2)数值变量。(3)分类变量。
1.3 (1)总体是“所有的网上购物者”。(2)分类变量。
第2章数据的图表展示
2.1 (1)属于顺序数据。数分布表如下:
(2)频数分布表如下:
服务质量等级评价的频数分布
服务质量等级家庭数(频率)频率%
A1414
B2121
C3232
D1818
E1515
合计100100
(3)条形图如下:
(4)帕累托图如下:
2.2 (1)频数分布表如下:
(2) 某管理局下属40个企分组表
按销售收入分组(万元) 企业数(个)
频率(%)
先进企业 良好企业 一般企业 落后企业 11 11 9 9 27.5 27.5 22.5 22.5 合计
40
100.0
2.3 频数分布表如下:
某百货公司日商品销售额分组表
按销售额分组(万元)
频数(天)
频率(%)
25~30 30~35 35~40 40~45 45~50 4 6 15 9 6 10.0 15.0 37.5 22.5 15.0 合计
40
100.0
直方图如下:
2.4 (1)频数分布表如下:
100只灯泡使用寿命非频数分布
按使用寿命分组(小时)灯泡个数(只)频率(%)650~660 2 2
660~670 5 5
670~680 6 6
680~690 14 14
690~700 26 26
700~710 18 18
710~720 13 13
720~730 10 10
730~740 3 3
740~750 3 3
合计100 100 (2)直方图如下:
从直方图可以看出,灯泡使用寿命的分布基本上是对称的。
茎叶图与直方图所反映的数据分布是一致的,不同的是茎叶图中保留了原始数据。
2.5
(2)食品重量的频数分布的直方图如下:
(3)从直方图可以看出,食品重量的分布基本上是对称分布。
2.6
(2)直方图如下:
从直方图可以看出,零件重量误差的分布基本上是对称的。
2.7 (1)属于数值型数据。
(2)为绘制直方图,首先对数据进行分组,将数据用5作为组距进行分组,得到
(3)根据分组数据绘制的直方图如下:
从直方图可以看出,该城市1~2月份气温的分布基本上是对称的,温度在-10~-5度之间的天数最多。
2.8 (1)成人自学考试年龄分布的直方图如下:
(2)从直方图可以清楚地看出,成人自学考试人员年龄的分布为右偏,也就是年龄在21岁~24岁的人占绝大比例,而年龄在40岁以上的人所占的比例很小。
(2)中茎叶图可以看出,A班考试成绩的分布比较集中,且平均分数较高;B 班考试成绩的分布比A班分散,且平均成绩较A班低。
2.10 散点图如下:
2.11 (1)对比条形图如下:
环形图如下(内环为甲班的成绩):
(2)从对比条形图可以看出,甲班考试成绩在中等水平的人数较多,而优秀和良好的人数则较少,不及格的人数也比乙班要多。乙班则不同,考试成绩为优秀和良好的人数较多,而中等以下的人数则较少。这说明乙班学生的平均成绩比甲班要好。从环形图的百分比中也可以清楚地看出这一点。
(3)两个班考试成绩的雷达图如下:
从雷达图的形状可以看出,两个班考试成绩没有相似性。
2.12 (1)国产车和进口车销售量的对比条形图如下:
(2)国产车和进口车销售量的环形图如下:
2.13 (1)国内生产总值的线图如下:
(2)第一、二、三产业国内生产总值的线图如下:
2004年国内生产总值构成的饼图如下:
2.14 各城市各月份的平均相对湿度的箱线图如下:
从箱线图可以看出,各城市的月平均相对湿度有较大差异。离散程度较大的城市主要是北京和长春(箱子较大);离散程度较小的是成都、广州和武汉(箱子较小);相对湿度最大的城市主要有成都、广州、南京和武汉(中位数较大);相对湿度最小的城市是兰州(中位数较小);相对湿度分布比较对称的城市主要是北京、武汉、广州和兰州等(中位数大体上在箱子中间,最大值和最小值与箱子的距离大体相等);相对湿度不对称的城市主要有南京、郑州等。相对湿度存在极值的城市主要是长春和西安。
第3章 数据的概括性度量
3.1 (1)众数:100
=M 。
中位数:5.52
1102
1=+=+=n 中位数位置
,102
1010=+=
e
M
。
平均数:6.91096
10
1514421
==
++++=
=
∑= n
x
x n
i i
。 (2)5.24
10
4===n Q L 位置 ,5.5274=+=L
Q 。 5.74
10
343=?==n Q U 位置,1221212=+=
U Q 。 (3)
2
.49
4.1561
10)
6.915()6.914()6.94()6.92(1
)(2
2221
2
==
--+-++-+-=
--=
∑
= n x x s n
i i
(4)由于平均数小于中位数和众数,所以汽车销售量为左偏分布。
3.2 (1)从表中数据可以看出,年龄出现频数最多的是19和23,所以有两个众
数,即
19
=M
和
23
=M
。
将原始数据排序后,计算的中位数的位置为:13
2
1252
1=+=+=n 中位数位置,第
13个位置上的数值为23,所以中位数23=e M 。 (2)25.64
254===
n Q L 位置,19)1919(25.019=-?+=L Q 。
75.184
253=?=
位置U Q ,56.252-7257.052=?+=)(U Q 。
(3)平均数2425
60025
23
1715191
==
++++=
=
∑= n
x
x n
i i
。
65
.61
2510621
25)
2423()2417()2415()2419(1)
(2
22
2
1
2
=-=
--+-++-+-=
--=
∑= n x x
s n
i i
(4)偏态系数:()
08.165
.6)225)(125(24253
3
=?---=
∑i x SK 。
峰态系数:[]
77.065
.6)325)(225)(125()
125()
24(3
)24()125(254
224
=?-------+=
∑∑i
i x
x K 。
(5)分析:从众数、中位数和平均数来看,网民年龄在23~24岁的人数占多数。
由于标准差较大,说明网民年龄之间有较大差异。从偏态系数来看,年龄分布为
右偏,由于偏态系数大于1,所以偏斜程度很大。由于峰态系数为正值,所以为尖峰分布。
(2)79639
8
.78.76.65.5==++++=
x 。
714.08
08.41
9)
78.7()78.7()76.6()75.5(2
2
2
2
==
--+-++-+-=
s 。
(3)由于两种排队方式的平均数不同,所以用离散系数进行比较。 第一种排队方式:274.02
.797.11==
v ;102.07
714.02==
v 。由于21v v >,表明
第一种排队方式的离散程度大于第二种排队方式。
(4)选方法二,因为第二种排队方式的平均等待时间较短,且离散程度小于第一种排队方式。
3.4 (1)1.27430
82231
==
=
∑=n
x
x n
i i
。 5.152
1
30=+=
中位数位置
,5.2722
273272=+=
e
M
。
(2)5.74
30==
位置L Q ,5.2592261
258=+=
L Q 。 5.224
303=?=
位置U Q ,5.2872
291
284=+=
U Q 。
(3)17.211
307.130021
)
(1
2
=-=
--=
∑=n x x
s n
i i
。
3.5 (1)41.19340
660030
150020
300015
2100150030002100==
++++=
=
总产量
总成本甲企业的平均成本
。
92.18342
556230
150020
005115
2553150000515523==
++++=
=
总产量
总成本乙企业的平均成本.
原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。
3.6 (1)平均数计算过程见下表:
按利润额分组 组中值 i M 企业数 i f i i f M
200~300 250 19 4750 300~400 350 30 10500 400~500 450 42 18900 500~600 550 18 9900 600以上 650 11 7150 合计
—
120
51200
67.426120
512001
==
=
∑=n
f M
x k
i i
i
。
偏态系数:203.048
.1161204.38534964)(3
3
1
3
=?=
-=
∑=ns
f x M
SK k
i i
i
。
峰态系数:688.0348
.1161204
.851087441643)(4
4
1
4
-=-?=
--=
∑=ns
f x M
K k i i
i
。
3.7 (1)两位调查人员所得到的平均身高应该差不多相同,因为均值的大小基本
上不受样本大小的影响。
(2)两位调查人员所得到的身高的标准差应该差不多相同,因为标准差的大小基本上不受样本大小的影响。
(3)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化的范围就可能越大。
3.8 (1)要比较男女学生体重的离散程度应该采用离散系数。女生体重的离散系
数为1.050
5==
女v ,男生体重的离散系数为08.060
5==
男v ,所以女生的体
重差异大。
(2)男生:1322.260=?=x (磅),112.25=?=s (磅); 女生:1102.250=?=x (磅),112.25=?=s (磅);
(3)假定体重为对称分布,根据经验法则,在平均数加减1个标准差范围内的数据个数大约为68%。因此,男生中大约有68%的人体重在55kg 到65kg 之间。 (4)假定体重为对称分布,根据经验法则,在平均数加减2个标准差范围内的数据个数大约为95%。因此,女生中大约有95%的人体重在40kg 到60kg 之间。
3.9 通过计算标准分数来判断:
115
100
115=-=
-=
A
A
A A s x x z ;5.050
400
425=-=
-=
B
B
B B s x x z 。
该测试者在A 项测试中比平均分数高出1个标准差,而在B 项测试中只高出平均分数0.5个标准差,由于A 项测试的标准分数高于B 项测试,所以A 项测试比较理想。
3.10 通过标准分数来判断,各天的标准分数如下表:
日期 周一 周二
周三 周四 周五 周六 周日 标准分数Z 3 -0.6 -0.2
0.4
-1.8
-2.2
周一和周六两天失去了控制。
3.11 (1)应该采用离散系数,因为它消除了不同组数据水平高低的影
响。
(2)成年组身高的离散系数:024.01.1722
.4==
s v ; 幼儿组身高的离散系数:035.03
.715
.2==
s v ; 由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。
3.12 (1)应该从平均数和标准差两个方面进行评价。在对各种方法的离散程度进
行比较时,应该采用离散系数。
(2
从三种方法的集中趋势来看,方法A 的平均产量最高,中位数和众数也都高于其他两种方法。从离散程度来看,三种方法的离散系数分别为:
013.06
.16513.2==
A v ,014.073
.12875.1==
B v ,022.053
.12577.2==
C v 。方法
A 的离散程度最小。因此应选择方法A 。
3.13 (1)用方差或标准差来评价投资的风险。
(2)从直方图可以看出,商业类股票收益率的离散程度较小,说明投资风险也就较小。
(3)从投资风险角度看,应该选择风险较小的商业类股票。当然,选择哪类股票还与投资者的主观判断有很大关系。
第4章 抽样与参数估计
4.1 (1)已知:5=σ,40=n ,25=x ,0
5.0=α,9
6.12
05.0=z 。
样本均值的抽样标准差79.040
5==
=
n
x
σσ。
(2)估计误差55.140
5
96.12
=?
==n
z E σ
α
。
4.2 (1)已知:15=σ,49=n ,120=x ,0
5.0=α,9
6.12
05.0=z 。
样本均值的抽样标准差14.249
15==
=
n
x
σσ。
(2)估计误差20.449
15
96.1=?
==n
z E σ
α
。
(3)由于总体标准差已知,所以总体均值μ的95%的置信区间为: 20.412049
1596.1120±=?
±=±n
z x σ
α
,即(115.8,124.2)。
4.3 已知:100=n ,85414=σ,104560=x ,0
5.0=α,9
6.12
05.0=z 。
由于总体标准差已知,所以总体均值μ的95%的置信区间为:
144.16741104560100
8541496.1104560±=?
±=±n
z x σ
α
,即(87818.856,
121301.144)。
4.4 (1)已知:100=n ,81=x ,12=s ,1.0=α,64
5.121.0=z 。 由于100=n 为大样本,所以总体均值μ的90%的置信区间为: 974.181100
12645.1812
±=?
±=±n
s
z x α
,即(79.026,82.974)。
(2)已知:05.0=α,96.12
05
.0=z 。
由于100=n 为大样本,所以总体均值μ的95%的置信区间为: 352.281100
1296.1812
±=?
±=±n
s
z x α
,即(78.648,83.352)。
(3)已知:01.0=α,58.22
01
.0=z 。
由于100=n 为大样本,所以总体均值μ的99%的置信区间为: 096.381100
1258.2812
±=?
±=±n
s
z x α
,即(77.940,84.096)。
4.5 (1)已知:25=x ,
5.3=σ,60=n ,05.0=α,9
6.12
05.0=z 。
由于总体标准差已知,所以总体均值μ的95%的置信区间为: 89.02560
5
.396.1252
±=?
±=±n
z x σ
α
,即(24.11,25.89)。
(2)已知:6.119=x ,89.23=s ,75=n ,02.0=α,33.22
02.0=z 。
由于75=n 为大样本,所以总体均值μ的98%的置信区间为:
43.66.11975
89
.2333.26.119±=?
±=±n
s
z x α
,即(113.17,126.03)。
(3)已知:419.3=x ,974.0=s ,32=n ,1.0=α,645.121.0=z 。 由于32=n 为大样本,所以总体均值μ的90%的置信区间为: 283.0419.332
974.0645.1419.32
±=?
±=±n
s
z x α
,即(3.136,3.702)。
4.6 (1)已知:总体服从正态分布,500=σ,15=n ,8900=x ,0
5.0=α,