文档库 最新最全的文档下载
当前位置:文档库 › 应用统计期末考试试题

应用统计期末考试试题

应用统计期末考试试题
应用统计期末考试试题

一、数据见参考书1第160页习题3.1

1、计算该数据的均值、方差、标准差、极差、标准误、变异系数、偏度、峰度、25%和75%分位数,并给出这些量的含义。

解:R语言求解结果如下:

a=c(74.3 ,78.8, 68.8, 78.0, 70.4, 80.5, 80.5, 69.7, 71.2, 73.5,

+ 79.5, 75.6, 75.0, 78.8 ,72.0, 72.0, 72.0 ,74.3, 71.2, 72.0,

+ 75.0 ,73.5, 78.8 ,74.3 ,75.8 ,65.0 ,74.3, 71.2 ,69.7 ,68.0,

+ 73.5 ,75.0, 72.0, 64.3, 75.8, 80.3 ,69.7 ,74.3 ,73.5 ,73.5,

+ 75.8, 75.8 ,68.8 ,76.5 ,70.4 ,71.2 ,81.2, 75.0, 70.4, 68.0,

+ 70.4, 72.0 ,76.5, 74.3 ,76.5, 77.6, 67.3 ,72.0, 75.0 ,74.3,

+ 73.5, 79.5, 73.5, 74.7 ,65.0 ,76.5, 81.6 ,75.4, 72.7, 72.7,

+ 67.2, 76.5, 72.7, 70.4, 77.2, 68.8, 67.3 ,67.3, 67.3 ,72.7,

+ 75.8 ,73.5 ,75.0, 73.5 ,73.5 ,73.5, 72.7, 81.6, 70.3, 74.3,

+ 73.5 ,79.5, 70.4, 76.5 ,72.7, 77.2 ,84.3, 75.0 ,76.5 ,70.4);

> mean(a)

[1] 73.668

> var(a)

[1] 15.51513

> sd(a)

[1] 3.938925

> range(a)

[1] 64.3 84.3

> sd(a)/sqrt(length(a))

[1] 0.3938925

> sd(a)/mean(a)

[1] 0.0534686

> n=length(a);

> s=sd(a);

> a.mean=mean(a);

> g1=n/((n-1)*(n-3))*sum((a-a.mean)^3)/(s^3)

> g1

[1] 0.05461661

> g2=n*(n+1)/((n-1)*(n-2)*(n-3))*sum((a-a.mean)^4)/(s^4)-3*((n-1)^2)/((n-2)*(n-3));

> g2

[1] 0.03702249

> quantile(a)

0% 25% 50% 75% 100%

64.3 71.2 73.5 75.8 84.3

> fivenum(a)

[1] 64.3 71.2 73.5 75.8 84.3

将结果总结成下表:

到异常数据的影响,如果样本量较小,出现了异常值,则样本均值就会因异常值的存在受到很大的影响,此时的样本均值往往不能够代表整体的信息。

方差反映的样本数据的波动情况,描述的是数据的分散性,方差越大,说明数据的波动就也大。

标准差是方差的开方,与方差一样,也是反映数据波动情况的统计量。

极差可以反映数据的离散程度,一般说来,极差越小,说明数据的离散程度就越小。 标准误是

m s =

用于比较两个不同样本的离散程度特征。

变异系数是数据相对分散性的一种度量,不受数值变量单位的影响,常用于比较不同来源的观测样本数据的离散程度。

偏度描述的是随机变量取值分布对称性的统计量,偏度为0,说明随机变量密度函数具有对称性,与正态分布的偏度相同;偏度值大于0,值越大时,说明密度函数是右偏越大,密度函数的长尾巴拖在右边;偏度值小于0,绝对值越大,说明密度函数是左偏越大,密度函数的长尾巴拖在左边。

峰度描述的是随机变量密度函数取值布陡峭程度的统计量,峰度为0,说明随机变量密度函数与正态分布密度函数的陡峭程度相同;峰度值大于0,比正态分布陡峭程度更大,为尖顶峰;峰度值小于0,说明比正态分布的陡峭程度小,为平顶峰。

25%分位数,75%分位数也是重要的统计量,分别记为13,Q Q ,记四分位间距为31d Q Q Q =-,常用闭区间13[ 1.5, 1.5]d d Q Q Q Q -+来反映数据的离群数据,若数据位于

13[ 1.5, 1.5]d d Q Q Q Q -+外,则认为该数据为离群数据。四分位间距31d Q Q Q =-也是度量

数据离散程度的一种指标,越小表明数据越集中于中位数。

样本中位数是样本数据取值的为中间位置的数据,相对均值来说,是比较稳定的统计量,一般不会受到异常值的影响。

众数是样本中某一值出现的次数最多的数,有些数据反映的是属性,这时无法用均值以及众数来描述,此时用众数便可分类变量的“中心”。

2、绘出该数据的直方图、密度估计曲线、经验分布图、茎叶图、箱线图,并解释通过这些图得到的统计信息或统计特征。

解:用R 软件求解:

> a=c(74.3 ,78.8, 68.8, 78.0, 70.4, 80.5, 80.5, 69.7, 71.2, 73.5, + 79.5, 75.6, 75.0, 78.8 ,72.0, 72.0, 72.0 ,74.3, 71.2, 72.0, + 75.0 ,73.5, 78.8 ,74.3 ,75.8 ,65.0 ,74.3, 71.2 ,69.7 ,68.0, + 73.5 ,75.0, 72.0, 64.3, 75.8, 80.3 ,69.7 ,74.3 ,73.5 ,73.5, + 75.8, 75.8 ,68.8 ,76.5 ,70.4 ,71.2 ,81.2, 75.0, 70.4, 68.0, + 70.4, 72.0 ,76.5, 74.3 ,76.5, 77.6, 67.3 ,72.0, 75.0 ,74.3, + 73.5, 79.5, 73.5, 74.7 ,65.0 ,76.5, 81.6 ,75.4, 72.7, 72.7, + 67.2, 76.5, 72.7, 70.4, 77.2, 68.8, 67.3 ,67.3, 67.3 ,72.7,

+ 75.8 ,73.5 ,75.0, 73.5 ,73.5 ,73.5, 72.7, 81.6, 70.3, 74.3,

+ 73.5 ,79.5, 70.4, 76.5 ,72.7, 77.2 ,84.3, 75.0 ,76.5 ,70.4);

> hist(a,freq=FALSE)

> lines(density(a),col="blue")

> x=64.3:84.3

> lines(x,dnorm(x,mean(a),sd(a)),col="red")

> stem(a)

> boxplot(a)

plot(ecdf(a),verticals=TRUE,do.p=FALSE)

> x=64.3:84.3

> lines(x,pnorm(x,mean(a),sd(a)))

> lines(x,pnorm(x,mean(a),sd(a)),col="red")

下面是样本数据的直方图:

直方图可以较直观的看出样本数据在各个不同区间的分布情况,从图中可以看出,样本数据[70,76.25]的较多,而在其他区间中的值就较少。

落在

上图蓝线是核密度估计图,根据强大数定律,可以用频率近似概率,样本充分大时,可以用样本密度分布去近似总体的密度分布。

上图我们以样本数据的均值和方差作为正态分布的均值和方差,画出对应的正态分布的密度函数,对比核密度估计图和相应的正态分布的密度函数我们可以看出密度估计曲线与正态分布的概率密度曲线有一定的差别,但是差别不是很大,在不太严格的条件下,可以认为样本数据服从正态分布。

下面给出样本数据的经验分布函数,红线表示的以样本均值和方差分别作为正态分布的均值和方差的分布函数图。经验分布函数可以大致反映出总体的分布函数,是总体分布函数的一个近似,根据强大数定律,样本充分大时,样本的分布函数趋于总体的分布函数。

下面是样本数据的茎叶图:

The decimal point is at the |

64 | 300

66 | 23333

68 | 00888777

70 | 344444442222

72 | 0000000777777555555555555

74 | 33333333700000004688888

76 | 5555555226

78 | 0888555

80 | 355266

82 |

84 | 3

茎叶图可以直观反映样本数据落在不同区间上的疏密程度,制作方便,不损失样本数据的任何信息。但当样本容量较大时,就不宜使用茎叶图了。

上图是样本数据的箱线图,包含样本五数概括的信息。可以直接观测出样本是否存在离群值。从图中可以看出,64.3,84.3为异常值,说明数据很可能是统计数据时出现了错误。离群值对样本的均值和方差的影响都很大,离群值通常不能代表总体的信息,在考虑样本时应该将其去掉。

3、检验该数据是否服从正态分布。

首先我们可以画出QQ图,看样本数据是否服从正态分布。然后再用shapiro方法与之进行比较。

> a=c(74.3 ,78.8, 68.8, 78.0, 70.4, 80.5, 80.5, 69.7, 71.2, 73.5,

+ 79.5, 75.6, 75.0, 78.8 ,72.0, 72.0, 72.0 ,74.3, 71.2, 72.0,

+ 75.0 ,73.5, 78.8 ,74.3 ,75.8 ,65.0 ,74.3, 71.2 ,69.7 ,68.0,

+ 73.5 ,75.0, 72.0, 64.3, 75.8, 80.3 ,69.7 ,74.3 ,73.5 ,73.5,

+ 75.8, 75.8 ,68.8 ,76.5 ,70.4 ,71.2 ,81.2, 75.0, 70.4, 68.0,

+ 70.4, 72.0 ,76.5, 74.3 ,76.5, 77.6, 67.3 ,72.0, 75.0 ,74.3,

+ 73.5, 79.5, 73.5, 74.7 ,65.0 ,76.5, 81.6 ,75.4, 72.7, 72.7,

+ 67.2, 76.5, 72.7, 70.4, 77.2, 68.8, 67.3 ,67.3, 67.3 ,72.7,

+ 75.8 ,73.5 ,75.0, 73.5 ,73.5 ,73.5, 72.7, 81.6, 70.3, 74.3,

+ 73.5 ,79.5, 70.4, 76.5 ,72.7, 77.2 ,84.3, 75.0 ,76.5 ,70.4);

> qqnorm(a)

> qqline(a)

得到的QQ图为:

从图中可以看出,样本的数据近似地可以看成是服从正态分布。。

采用shapiro-Wilk检验来检验是否服从正态分布。

> shapiro.test(a)

Shapiro-Wilk normality test

data: a

W = 0.9901, p-value = 0.6708

求得p值为0.6708,在显著性水平为5%时应该接受原假设。

说明了样本数据可以接近地认为其服从正态分布,这与上面通过比较核密度曲线和正态分布曲线有一定的结论是一致的。

4、给出该数据这100女生血清总蛋白含量平均值的一个点估计和置信度95%的区间估计,解释置信度95%的含义。

解:可以用样本均值73.688作为总蛋白含量的平均值的一个点估计,根据强大数定律,用样本均值73.688作为总蛋白含量的平均值的点估计为无偏估计。

由于总体的方差2

σ是未知的,我们便可以构造T检验统计量:

~(1)

T t n

==-因此可以得到置信度为1α

-的区间估计,置信区间为:

22

[(1),(1)]

X n X n

αα

--

利用R求得:

mean df a b 1 73.668 99 72.88643 74.44957

由上面的程序就可以知道,在置信度为95%下得到的区间估计为[72.88643,74.44957]。置信区间为随机区间,两个端点为随机变量,置信度95%的表示的是做100次的区间估计中约有95次使得总体均值u 落在置信区间中。

5、如果又得到另一个单位120名女生的血清总蛋白含量,把第一组数据记为A 单位,这组数据记为B 单位,如何判断这两个单位女生的血清总蛋白含量的均值是否相同,请解释你使用的方法和可能得到的结论。

设A 服从211(,)N u σ,B 服从2

22(,)N u σ,12,σσ未知,一般情况下,我们只能认为12σσ≠

的条件下作假设检验,便可以用t 检验来比较两个样本的均值是否相等。 构造检验统计量: 双侧检验: 构造检验统计量:

222222

2

121222121122~()

()()()/()

(1)(1)

T t v S S S S v n n n n n n =

=++--

当检验统计量

2

(),T t v αα≥为显著性水平

则认为012:;H μμ=不成立,接受备择假设。 当检验统计量

2

(),T t v αα<为显著性水平

则无法拒绝原假设012:;H μμ=,我们接受原假设。

二、数据见参考书1第473页习题9.2

1、建立销售量Y 与这4个协变量的回归方程。

解:由于事先我们不知道销售量与居民收入分配,平均价格指数等的关系,为简便起见,我们首先做出线性回归模型,看Y 是否1234,,,X X X X 有线性的关系。 > consumer<-data.frame(

+ X1=c(82.9,88.0,99.9,105.3,117.7,131.0,148.2,161.8,174.2,184.7), + X2=c(92,93,96,94,100,101,105,112,112,112),

+ X3=c(17.1,21.3,25.1,29.0,34.0,40.0,44.0,49.0,51.0,53.0), + X4=c(94,96,97,97,100,101,104,109,111,111),

+ Y=c(8.4,9.6,10.4,11.4,12.2,14.2,15.8,17.9,19.6,20.8) + )

> lm.sol<-lm(Y~X1+X2+X3+X4,data=consumer)

012112:;:H H μμμμ=≠

> summary(lm.sol) Call:

lm(formula = Y ~ X1 + X2 + X3 + X4, data = consumer)

Residuals:

1 2 3 4 5 6 7 0.024803 0.079476 0.012381 -0.007025 -0.288345 0.216090 -0.142085 8 9 10 0.158360 -0.135964 0.082310

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -17.66768 5.94360 -2.973 0.03107 * X1 0.09006 0.02095 4.298 0.00773 ** X2 -0.23132 0.07132 -3.243 0.02287 * X3 0.01806 0.03907 0.462 0.66328 X4 0.42075 0.11847 3.552 0.01636 * ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2037 on 5 degrees of freedom

Multiple R-squared: 0.9988, Adjusted R-squared: 0.9978 F-statistic: 1021 on 4 and 5 DF, p-value: 1.827e-07

求得回归模型为123417.667680.090.231320.0180.421Y X X X X ∧

=-+-++

由P 值可以知道,在显著性水平为5%的条件下,回归方程不能通过显著性检验,因此我们Y 与1234,,,X X X X 的线性回归不合适。

因此,我们首先分别画出变量Y 与每个变量散点图,粗略地看变量Y 是否每个变量有线性关系:

X的散点图绘制Y与

2

X的散点图绘制Y与

3

X的散点图绘制Y与

4

从图中可以大概地判断出变量Y 并不是与每个变量都是线性关系。同时我们仔细分析前面得到的线性回归方程123417.667680.090.231320.0180.421Y X X X X ∧

=-+-++,从实际情况中看,发现可能并不合理,因为当社会其它消费品的平均价格指数增加时,说明消费者在消费总量一定的前提下,因为会花较多的钱去购买其它的商品,导致其该买该类消费品的量也会下降,当然实际中也有可能是其它商品价格上涨,则出现该商品的消费量增加。 总之,得出上述回归方程不合理的原因,可能是变量之间有多重共线性,或者Y 与自变量之间并不是线性的关系,有可能是非线性的关系。为此,我们考虑利用主成分分析来减少变量的个数。

2、利用主成分回归方法建立销售量Y 与这4个协变量的回归方程。

由上面我们用线性回归模型求得的结果并不合理,因此我们需要变量做主成分回归,先做主成分分析。

> consumer<-data.frame(

X1=c(82.9,88.0,99.9,105.3,117.7,131.0,148.2,161.8,174.2,184.7), X2=c(92,93,96,94,100,101,105,112,112,112),

X3=c(17.1,21.3,25.1,29.0,34.0,40.0,44.0,49.0,51.0,53.0), X4=c(94,96,97,97,100,101,104,109,111,111),

Y=c(8.4,9.6,10.4,11.4,12.2,14.2,15.8,17.9,19.6,20.8) )

> consumer.pr=princomp(~X1+X2+X3+X4,data=consumer,cor=T) > summary(consumer.pr,loadings=TRUE) Importance of components:

Comp.1 Comp.2 Comp.3 Comp.4

Standard deviation 1.9859037 0.199906992 0.11218966 0.0603085506 Proportion of Variance 0.9859534 0.009990701 0.00314663 0.0009092803 Cumulative Proportion 0.9859534 0.995944090 0.99909072 1.0000000000

Loadings:

Comp.1 Comp.2 Comp.3 Comp.4 X1 -0.502 -0.237 0.579 0.598 X2 -0.500 0.493 -0.610 0.367 X3 -0.498 -0.707 -0.368 -0.342 X4 -0.501 0.449 0.396 -0.626

112340.5020.50.4980.501Z X X X X *****

=---- 21234

0.2370.4930.7070.449Z X X X X *****

=-+-+ 注意220.19990.04

λ==,

所以可以认为变量之间存在多重共线性。

下面作主成分回归: Call:

lm(formula = y ~ z1, data = consumer) Residuals:

Min 1Q Median 3Q Max -0.72237 -0.20946 0.05154 0.21032 0.81856

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 14.03000 0.16615 84.44 4.32e-13 *** z1 -2.06119 0.08367 -24.64 7.87e-09 *** ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.5254 on 8 degrees of freedom

Multiple R-squared: 0.987, Adjusted R-squared: 0.9854

得到回归方程为:114.03 2.06119Y Z *

=-

由求得的结果可以看出,回归方程和回归系数在显著性水平为0.05α=时,均通过了检验。上述方程为相应变量与主成分的关系,不容易看出与原来变量之间的关系。 beta<-coef(lm.sol);A<-loadings(consume.pr)

> x.bar<-consume.pr$center;x.sd<-consume.pr$scale > coef<-beta[2]*A[,1]/x.sd

> beta0<-beta[1]-sum(x.bar*coef) > c(beta0,coef)

(Intercept) X1 X2 X3 X4

-23.77771861 0.02992643 0.13365158 0.08361156 0.16965187

进一步我们可以求得:123423.7780.030.1340.0840.17Y X X X X =-++++

3、请解释你所得到的结论。

对比通过多元线性回归得到123417.667680.090.231320.0180.421Y X X X X ∧

=-+-++和主成分回归得到1234

23.7780.030.1340.0840.17Y X X X X =-++++。

我们发现主成分分析虽然可以消除因素的多重共线性,但是我们分析分析主成分回归的得到的表达式,虽然回归方程通过了显著性检验,但表达式存在明显的不合理。按照经济学对商品的划分,除了吉芬商品随着价格的上升,消费量增加外,其它商品的消费量随价格的增加均减少,而吉芬商品是很少见的,这里我们可以认为该类消费品不是吉芬商品,那么该回归方程就存在明显的不合理。出现这种情况的原因可能是样本的数据量太少,也有可能是自变量之间有较强的相关性,相互之间有较大的影响等,这些会导致得到的表达式中X2前面的系数是负的。

三、数据见参考书1第421页习题8.4

1、分别用最短距离法、最长距离法、均值法、重心法和Ward法作聚类分析,并画出相应的谱系图。

利用R的程序为:(由于数据太多,将其省略掉了)

names=c("FL","APP","AA","LA","SC","LC","HON","SMS","EXP","DRV","AMB","GSP","POT","KJ","S UIT")

r=matrix(x,nrow=15,dimnames=list(names,names))

d=as.dist(1-r);

hc1=hclust(d,"single")

hc2=hclust(d,"complete")

hc3=hclust(d,"average")

hc4=hclust(d,"centroid")

hc5=hclust(d,"ward")

plclust(hc1,hang=-1);re1<-rect.hclust(hc1,k=5,border="red")

plclust(hc2,hang=-1);re1<-rect.hclust(hc2,k=5,border="red")

plclust(hc3,hang=-1);re1<-rect.hclust(hc3,k=5,border="red")

plclust(hc4,hang=-1);re1<-rect.hclust(hc4,k=5,border="red")

将求得的结果归纳为如下:

动态聚类的结果为:

Clustering vector:

FL APP AA LA SC LC HON SMS EXP DRV AMB GSP POT KJ SUIT

由分类的结果可以知道

AA(专业能力)在所有分类中均未单独一类,APP(外貌)也是,有相关系数表可以知道,这两个变量与其它变量的相关系数均较小。

四、数据见参考书1第474页习题9.4,题图与习题9.4相同

x1=c(99,99,100,93,100,90,75,93,87,95,76,85);

x2=c(94,88,98,88,91,78,73,84,73,82,72,75);

x3=c(93,96,81,88,72,82,88,83,60,90,43,50);

x4=c(100,99,96,99,96,75,97,68,76,62,67,34);

x5=c(100,97,100,96,78,97,89,88,84,39,78,37);

x=c(x1,x2,x3,x4,x5);

X=matrix(x,nrow=12);

y=cor(X)

names=c("x1","x2","x3","x4","x5");

R=matrix(0,nrow=5,ncol=5,dimnames=list(names,names))

for(i in 1:5){

for(j in 1:5){

R[i,j]=y[i,j]

}

}

factor=factanal(factors=2,covmat=R);

factor

程序运行结果为:

Call:

factanal(factors = 2, covmat = R)

Uniquenesses:

x1 x2 x3 x4 x5

0.005 0.141 0.494 0.005 0.346

Loadings:

Factor1 Factor2

x1 0.992 0.104

x2 0.854 0.360

x3 0.497 0.509

x4 0.284 0.956

x5 0.132 0.798

Factor1 Factor2

SS loadings 2.059 1.950

Proportion Var 0.412 0.390

Cumulative Var 0.412 0.802

The degrees of freedom for the model is 1 and the fit was 0.0387

第一公共因子中,系数绝对值大的变量主要是:语文(x1),政治(x2),主要体现的是一个学生学习文科性的科目的能力,如记忆等能和感性思维。

第二公共因子中,系数绝对值大的变量主要是:数学(x4),物理(x5),主要体现一个学生学习理科的能力,如数理逻辑推理等能力。

beta<-coef(lm.sol);A<-loadings(consume.pr)

> x.bar<-consume.pr$center;x.sd<-consume.pr$scale

> coef<-beta[2]*A[,1]/x.sd

> beta0<-beta[1]-sum(x.bar*coef)

> c(beta0,coef)

(Intercept) X1 X2 X3 X4

-23.77771861 0.02992643 0.13365158 0.08361156 0.16965187

用回归方法求得的第1公共因子,第2 公共因子的得分散点图为

c=data.frame(X)

> fa=factanal(~.,factors=2,data=c,scores="regression");fa$scores Factor1 Factor2

1 0.84656371 0.7229406

2 0.83515550 0.6689879

3 0.9942972

4 0.4816552

4 0.14232467 0.8761425

5 0.97470709 0.4640493

6 -0.0989728

7 -0.2501506

7 -1.96504255 1.3944047

8 0.30581398 -0.7165921

9 -0.46755338 -0.1088155

10 0.57227279 -1.1222450

11 -1.68969752 -0.1927343

12 -0.44986866 -2.2176426

> plot(fa$scores[,1:2],type="n")

> text(fa$scores[,1],fa$scores[,2])

运用Bartlett计算出的因子得分为

c=data.frame(X)

> fa1=factanal(~.,factors=2,data=c,scores="Bartlett");

> fa1$scores

Factor1 Factor2

1 0.84949916 0.7255642

2 0.83814958 0.6713007

3 0.99856099 0.4824476

4 0.14114233 0.8812845

5 0.9789048

6 0.4647756

6 -0.09894822 -0.2514891

7 -1.97867983 1.4074554

8 0.30904581 -0.7217354

9 -0.46981968 -0.1084550

10 0.57783480 -1.1305072

11 -1.69833306 -0.1901825

12 -0.44735673 -2.2304588

> plot(fa1$scores[,1:2],type="n")

> text(fa1$scores[,1],fa1$scores[,2])

得到的散点图为:

对比回归方法和Bartlett方法,得到结果总结成下表:

从结果可以看出,对比两种方法得到的结果是几乎相同的。1,2,3,4,5号学生的文理两种性质的科目学得都比较好,6,8,9,10号学生的文理科学得比较均等,都属中等水平,没有明显的分科,而7,11则有偏科现象,文科性的学习比理科性的学习要差,12则是理科性的学习比文科性的学习差。

五、论述题

使用本课程的统计方法对我国房地产价格的现状做统计分析研究。(采集什么数据,使用什么分析数据的方法等等)。

问题分析:影响房地产价格的因素很多,通过查找文献,我们知道了影响房价的因素主要有GDP,房地产相关环节税收,存贷款利率,房地产相关环节税收,存贷款利率,物价指数,房地产土地供应量,房地产开发成本,人口密度,购房需求者数量,人口结构,购房需求者收入,新增住房套数[1][2][3].同时,我国不同地区的房价又有很大的区域性,为了研究我国

房地产的现状,不仅是为了简便,也是为了使研究的问题更加精确化,我们首先需要将全国的各大城市按照区域和房价的相似性做聚类分析。 下面列出我们在接下来的分析中需要用到的数据,有些数据并没有去查找存在,只是根据经验认为其有,如果有的数据没有,则我们可以想办法通过其他相类似的量来计算出该变量的数据,否则下面的研究就会出现困难。 1.1998年至今的各个城市房价数据

2.1998年至今的全国GDP及各个城市GDP 的数据

3. 1998年至今有购房能力的市民的收入情况

4. 1998年至今每年有购房需求的人均消费总额

5.1998年至今各个城市每年的人口密度

6.1998年至今每年有购房需求的人数

7.1998年至今各城市每年新增住房套数

8.1998年至今各城市每年新增住房的主要价格 9.1998年至今各城市新建住房平均的房价

10.1998年至今各年平均贷款,存款利率,各年人民币汇率

分析一:聚类分析

研究全国各城市的房价现状,由于全国不同地区的房价有较大的差异,我们可以先对全国各大城市进行分类,比如说北京、上海、深圳等价格特高的城市归为一类研究,这样可以使我们的研究更加精确,结果更有说服力,同时也可以是我们不会因为去研究每一个城市的房价现状使得工作量太大。在进行聚类分析时,可以选择每年新建不同档次住房数的加权平均作为该城市概念的房价样本值,为了防止出现特别偏离该城市一般商品房的价格的住房价格数据的现象,也可以选择每年该城市新建住房价的中位数作为概念数据的代表。在做聚类分析时,最好用不同的聚类方法对13年的不同城市房价数据进行聚类,然后结合实际,得出最合理的聚类,总结出每一类中房地产价格的共同点。 分析二:影响因子的相关性判断

通过上述分析,影响房价的因素很多,我们在此可以计算房价与各个因素的相关系数,看相关系数的大小,看一些变量与房价是否有明显的线性相关性,可以与下面线性回归得到的结果进行对比分析。 分析三:多元线性回归

在不同类中,分别选取一个代表性的城市,建立房地产价格Y 与变量,1,2,3...i X i p =的多元线性回归方程1122......p p Y X X X βββε=+++,进行回归检验,看变量间是否有多重共线性,由于涉及有多个变量,用图形不好判断()E Y 是否随,1,2,3...i X i p =线性变化,此时我们需要对回归方程的系数做显著性检验,判断某个变量j X 的系数是否为0;另外需要对回归方程做显著性检验,检验该数据是否适合做线性回归。 分析四:回归诊断

为了对上述建立的回归模型做一些特性的研究,我们需要对回归方程进行回归诊断,判断误差项是否满足独立性、等方差性、正态性,线性模型是否合适,是否存在异常样本,回归方程是否具有稳定性,变量之间是否有多重共线性。 分析五:残差分析

统计学期末考试试题和答案解析

统计学期末综合测试 一、单项选择题(每小题1分,共20分) 1、社会经济统计的数量特点表现在它是( )。 A 一种纯数量的研究 B 从事物量的研究开始来认识事物的质 C 从定性认识开始以定量认识为最终目的 D 在质与量的联系中,观察并研究社会经济现象的数量方面 2、欲使数量指标算术平均法指数的计算结果、经济内容与数量指标综合法指数相同,权数应是( )。 A 00p q B 11p q C 01p q D 10p q 3、如果你的业务是销售运动衫,哪一种运动衫号码的度量对你更为有用( )。 A 均值 B 中位数 C 众数 D 四分位数 4、某年末某地区城市人均居住面积为20平方米,标准差为8.4平方米,乡村人均居住面积为30平方米,标准差为11.6平方米,则该地区城市和乡村居民居住面积的离散程度( )。 A 乡村较大 B 城市较大 C 城市和乡村一样 D 不能比较 5、某厂某种产品生产有很强的季节性,各月计划任务有很大差异,今年1月超额完成计划3%,2月刚好完成计划,3月超额完成12%,则该厂该年一季度超额完成计划( )。 A 3% B 4% C 5% D 无法计算 6、基期甲、乙两组工人的平均日产量分别为70件和50件,若报告期两组工人的平均日产量不变,乙组工人数占两组工人总数的比重上升,则报告期两组工人总平均日产量( )。 A 上升 B 下降 C 不变 D 可能上升也可能下降

7、同一数量货币,报告期只能购买基期商品量的90%,是因为物价( )。 A 上涨10.0% B 上涨11.1% C 下跌11.1% D 下跌10.0% 8、为消除季节变动的影响而计算的发展速度指标为( )。 A 环比发展速度 B 年距发展速度 C 定基发展速度 D 平均发展速度 9、计算无关标志排队等距抽样的抽样误差,一般采用( )。 A 简单随机抽样的误差公式 B 分层抽样的误差公式 C 等距抽样的误差公式 D 整群抽样的误差公式 10、我国统计调查方法体系改革的目标模式是以( )为主体。 A 抽样调查 B 普查 C 统计报表 D 重点调查 11、设总体分布形式和总体方差都未知,对总体均值进行假设检验时,若抽取一个容量为100 的样本,则可采用( )。 A Z 检验法 B t 检验法 C 2χ检验法 D F 检验法 12、要通过移动平均法消除季节变动得到趋势值,则移动平均项数( )。 A 应选择奇数 B 应和季节周期长度一致 C 应选择偶数 D 可取4或12 13、回归估计标准差的值越小,说明( )。 A 平均数的代表性越好 B 平均数的代表性越差 C 回归方程的代表性越好 D 回归方程的代表性越差 14、某企业最近几批同种产品的合格率分别为90%、95.5%、96%,为了对下一批产品的合格率 进行抽样检验,确定抽样数目时P 应选( )。 A 90% B 95.5% C 96% D 3 % 96%5.95%90++ 15、假设检验中,第二类错误的概率β表示( )。 A 0H 为真时拒绝0H 的概率 B 0H 为真时接受0H 的概率

应用统计学期末复习

应用统计学期末复习重点(按题型整理) 一、填空题(10分) 1.统计学的三种含义:统计工作;统计数据或统计信息;统计学 2.统计学的研究对象是群体现象 3.根据统计方法的构成不同,可将统计学分为描述统计学和推断统计学,根据统计方法研究和应用的侧重不同,可将统计学分为理论统计学和应用统计学。 4.统计研究的基本方法:大量观察法,实验设计法,统计描述法和统计推断法 5.标志是说明总体单位特征的,而指标是说明总体特征的, 6.标志按其性质不同分为数量标志和品质标志两种。按其变异情况可以分为不变标志和可变标志,可变标志称为变量。 7.统计总体具有三个基本特征,即同质性、大量性和变异性。 8.统计指标按其作用可分为总量指标、相对指标、平均指标,按所反映总体的内容不同,可以分为数量指标和质量指标。 9.总量指标指在一定时间、地点条件下说明现象总体的规模和水平的指标,其表现形式为绝对数。 10.总量指标按其反映时间状况不同,可以分为时点指标和时期指标,按指标数值采用的计量单位不同可以分为实物指标,价值指标,劳动量指标。总量指标按其说明总体内容不同,可分为总体标志总量和总体单位总量 11.平均指标说明分配数列中各变量值分布的集中趋势,变异指标说明

各变量值分布的离中趋势 12.计量尺度的类型有定类尺度,定序尺度,定距尺度,定比尺度,根据四种计量尺度计量结果,可将统计数据分为三种类型:名义级数据,顺序级数据,刻度级数据。 13.对名义级数据通常是计算众数,对顺序级数据,通常可以计算众数、中位数;对刻度级数据,同样可以计算众数和中位数,还可以计算平均数。 14.全面调查方式有统计报表制度,普查;非全面调查有重点调查、典型调查、抽样调查。 15.常用的抽样调查组织形式有简单随机抽样,类型随机抽样,机械随机抽样,整群随机抽样,阶段随机抽样。 16.统计分组的关键在于正确选择分组标志和合理划分各组界限 17.按分组标志的多少,统计分组可以分为简单分组和复合分组;按分组标志性质不同,统计分组可以分为品质分组和数量分组;按分组作用和任务不同,有类型分组、结构分组和分析分组。 18.离散变量可作单项式分组或组距式分组,连续变量只能做组距式分组。 19.从统计表的内容看:统计表由主词和宾词两部分构成,从统计表的形式看:统计表包括总标题、横行和纵栏标题、数字资料 20.平均指标可分为两类:计算均值和位置均值。 21.根据算术平均数、众数和中位数的关系,次数分布可以分为对称分布,左偏分布,右偏分布。

(完整版)统计学期末考试试卷

2009---2010学年第2学期统计学原理课程考核试卷(B)考核方式: (闭卷)考试时量:120 分钟 一、填空题(每空1分,共15分) 1、按照统计数据的收集方法,可以将其分为和。 2、收集数据的基本方法是、和。 3、在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据:1080,750,780,1080,850,960,2000,1250,1630(单位:元),则人均月收入的平均数是,中位数是。 4、设连续型随机变量X在有限区间(a,b)内取值,且X服从均匀分布,其概率密 度函数为 0 ()1 f x b a ? ? =? ?- ? 则X的期望值为,方差为。 5、设随机变量X、Y的数学期望分别为E(X)=2,E(Y)=3,求E(2X-3Y)= 。 6、概率是___ 到_____ 之间的一个数,用来描述一个事件发生的经常性。 7、对回归方程线性关系的检验,通常采用的是检验。 8、在参数估计时,评价估计量的主要有三个指标是无偏性、和 。 二、判断题,正确打“√”;错误打“×”。(每题1分,共10 分) 1、理论统计学与应用统计学是两类性质不同的统计学() 2、箱线图主要展示分组的数值型数据的分布。() 3、抽样极限误差可以大于、小于或等于抽样平均误差。() 4、在全国人口普查中,全国人口数是总体,每个人是总体单位。() 5、直接对总体的未知分布进行估计的问题称为非参数估计;当总体分布类型已知, 仅需对分布的未知参数进行估计的问题称为参数估计。() 6.当置信水平一定时,置信区间的宽度随着样本量的增大而减少() 7、在单因素方差分析中,SST =SSE+SSA() 8、右侧检验中,如果P值<α,则拒绝H 。() 9、抽样调查中,样本容量的大小取决于很多因素,在其他条件不变时,样本容量 与边际误差成正比。() 10、当原假设为假时接受原假设,称为假设检验的第一类错误。() 三、单项选择题(每小题1分,共 15分) 1、某研究部门准备在全市200万个家庭中抽取2000个家庭,推断该城市所有职 工家庭的年人均收入。这项研究的样本()。 A、2000个家庭 B、200万个家庭 C、2000个家庭的人均收入 D、200个万个家庭的总收入 2、当变量数列中各变量值的频数相等时()。 A、该数列众数等于中位数 B、该数列众数等于均值 C、该数列无众数 D、该众数等于最大的数值 其他 (a

应用数理统计试题库

一 填空题 1 设 6 21,,,X X X 是总体 ) 1,0(~N X 的一个样本, 26542321)()(X X X X X X Y +++++=。当常数C = 1/3 时,CY 服从2χ分布。 2 设统计量)(~n t X ,则~2X F(1,n) , ~1 2 X F(n,1) 。 3 设n X X X ,,,21 是总体),(~2 σu N X 的一个样本,当常数C = 1/2(n-1) 时, ∑-=+-=1 1 212 )(n i i i X X C S 为2σ的无偏估计。 4 设)),0(~(2σεε βαN x y ++=,),,2,1)(,(n i y x i i =为观测数据。对于固定的0x , 则0x βα+~ () 2 0201,x x N x n Lxx αβσ?? ? ?- ???++ ??? ?????? ? 。 5.设总体X 服从参数为λ的泊松分布,,2,2,, 为样本,则λ的矩估计值为?λ = 。 6.设总体2 12~(,),,,...,n X N X X X μσ为样本,μ、σ2 未知,则σ2的置信度为1-α的 置信区间为 ()()()()22 2212211,11n S n S n n ααχχ-??--????--???? 。 7.设X 服从二维正态),(2∑μN 分布,其中??? ? ??=∑??? ? ??=8221, 10μ 令Y =X Y Y ???? ??=???? ??202121,则Y 的分布为 ()12,02T N A A A A μ??= ??? ∑ 。 8.某试验的极差分析结果如下表(设指标越大越好): 表2 极差分析数据表

统计学期末试题 模拟试卷一及答案

模拟试卷一:统计学期末试题 院系________姓名_________成绩________ 一.单项选择题(每小题2分,共20分) 1.对于未分组的原始数据,描述其分布特征的图形主要有() A. 直方图和折线图 B. 直方图和茎叶图 C. 茎叶图和箱线图 D. 茎叶图和雷达图 2.在对几组数据的离散程度进行比较时使用的统计量通常是() A. 异众比率 B. 平均差 C. 标准差 D. 离散系数 3.n?50的简单随机样本,样本均值的的总体中,抽出一个从均值为100、标准差为10数学期 望和方差分别为() A. 100和2 B. 100和0.2 C. 10和1.4 D. 10和2 4.在参数估计中,要求通过样本的统计量来估计总体参数,评价统计量标准之一是使它与总体参数的离差越小越好。这种评价标准称为() A. 无偏性 B. 有效性 C. 一致性 D. 充分性 5.根据一个具体的样本求出的总体均值95%的置信区间() A. 以95%的概率包含总体均值 B. 有5%的可能性包含总体均值 C. 一定包含总体均值 D. 可能包含也可能不包含总体均值 6.在方差分析中,检验统计量F是() A. 组间平方和除以组内平方和 B. 组间均方和除以组内均方 C. 组间平方和除以总平方和 D. 组间均方和除以组内均方 ??????y?x7.反映的是(在回归模型中,)10y x的线性变化部分的变化引起的由于A. y x的线性变化部分的变化引起的由于 B. yy x的影响C.和除的线性关系之外的随机因素对yy x的影响由于D.的线性关系对和8.在多元回归分析中,多重共线性是指模型中() A.两个或两个以上的自变量彼此相关 B.两个或两个以上的自变量彼此无关 C.因变量与一个自变量相关 D.因变量与两个或两个以上的自变量相关 9.为增长极限。描述该K若某一现象在初期增长迅速,随后增长率逐渐降低,最终则以. 类现象所采用的趋势线应为() A. 趋势直线 B. 指数曲线 C. 修正指数曲线 D. Gompertz曲线 10.消费价格指数反映了() A.商品零售价格的变动趋势和程度

应用数理统计试题

应用数理统计复习题 1.设总体~(20,3)X N ,有容量分别为10,15的两个独立样本,求它们的样本均值之差的绝对值小于0.3的概率. 解:设两样本均值分别为,X Y ,则1~(0,)2 X Y N - (||0.3)(0.424)(0.424)0.328P X Y -<=Φ-Φ-= 其中(01)θθ<<为未知参数,已知取得了样本值1231,2,1x x x ===,求θ的矩估计和最大似然估计. 解:(1)矩估计:2 2 22(1)3(1)23EX θθθθθ=+?-+-=-+ 14 (121)33 X =++= 令EX X =,得5?6 θ=. (2)最大似然估计: 2 2 5 6 ()2(1)22L θθθθθθθ=??-=- 45ln() 10120d d θθθθ=-= 得5?6 θ= 3. 设某厂产品的重量服从正态分布,但它的数学期望μ和方差2 σ均未知,抽查10件,测得重量为i X 斤10,,2,1Λ=i 。算出 10 11 5.410i i X X ===∑ 10 21 () 3.6i i X X =-=∑ 给定检验水平0.05 α=,能否认为该厂产品的平均重量为5.0斤? 附:t 1-0.025(9)=2.2622 t 1-0.025(10)=2.2281 t 1-0.05(9)=1.8331 t 1-0.05(10)=1.8125 解: 检验统计量为0 | |/X T S n m -=

将已知数据代入,得2t = = 1/2 0.975(1)(9) 2.26222t n t a - -==> 所以接受0H 。 4. 在单因素方差分析中,因素A 有3个水平,每个水平各做4次重复实验,完成下列方差分析表,在显著水平0.05α=下对因素A 是否显著做检验。 解: 0.95(2,9) 4.26F =,7.5 4.26F =>,认为因素A 是显著的. 5. 现收集了16组合金钢中的碳含量x 及强度y 的数据,求得 0.125,45.7886,0.3024,25.5218xx xy x y L L ====,2432.4566yy L =. (1)建立y 关于x 的一元线性回归方程01 ???y x ββ=+; (2)对回归系数1β做显著性检验(0.05α=). 解:(1)1 25.5218 ?84.39750.3024 xy xx l l β== = 01 ??35.2389y x ββ=-= 所以,?35.238984.3975y x =+ (2)1?2432.456684.397525.5218278.4805e yy xy Q l l β=-=-?= 2 278.4805 ?19.8915214 e Q n σ ===- ? 4.46σ ==

应用统计学期末试卷

南京邮电大学 2010 /2011 学年第 一 学期 《应用统计》期末 试卷(A ) 院(系) 班级 学号 姓名 一、单项选择题(每题2分,共10题,合计20分) (1)一个旅游景点的管理员根据以往的经验,有80%游客照相留念,则接下来的两名游客都照相留念的概率是( )。 A.0.65 B.0.36 C.0.5 D.0.4 (2)从一个装有3个红球2个白球的盒子摸球(不放回),则连续两次摸到红球的概率为( )。 A.0.6 B.0.3 C.0.5 D.0.4 (3)下面属于时期指标的是( )。 A.商品销售额 B.商场数量 C.商品价格 D.营业员人数 (4)平均发展速度是( )。 A. 定基发展速度的算术平均数 B. 环比发展速度的算术平均数 C. 环比发展速度的几何平均数 D. 增长速度加上100% (5)在回归直线Y =a +bx 中,回归系数b 的意义为( )。 A .x =0时,Y 的期望值 B .X 每变动一个单位引起的Y 的平均变动量 C .Y 每变动一个单位引起的X 的平均变动量 D .X 每变动一个单位时Y 的变动总量 (6)设随机变量2~(3,)X N σ,且(36)0.4P X <<=,则( )0P X <=( )。 A .0.1 B .0.4 C .0.6 D .1 (7)某企业生产某种产品,其产量每年增加5万吨,则该产品的产量环比增长速度( )。 A . 年年下降 B . 年年增长 C . 年年保持不变 D . 无法做结论 (8)设()~X P λ,已知()()12P X P X ===,则()3P X =的数值为( )。 装 订 线 内 不 要 答 题 自 觉 遵 守 考 试 规 则,诚 信 考 试,绝 不 作 弊

北航2010应用数理统计考试题及参考解答

北航2010《应用数理统计》考试题及参考解答 09B 一、填空题(每小题3分,共15分) 1,设总体X 服从正态分布(0,4)N ,而12 15(,,)X X X 是来自X 的样本,则22 110 22 11152() X X U X X ++=++服从的分布是_______ . 解:(10,5)F . 2,?n θ是总体未知参数θ的相合估计量的一个充分条件是_______ . 解:??lim (), lim Var()0n n n n E θθθ→∞ →∞ ==. 3,分布拟合检验方法有_______ 与____ ___. 解:2 χ检验、柯尔莫哥洛夫检验. 4,方差分析的目的是_______ . 解:推断各因素对试验结果影响是否显著. 5,多元线性回归模型=+Y βX ε中,β的最小二乘估计?β的协方差矩阵?βCov()=_______ . 解:1?σ-'2Cov(β) =()X X . 二、单项选择题(每小题3分,共15分) 1,设总体~(1,9)X N ,129(,, ,)X X X 是X 的样本,则___B___ . (A ) 1~(0,1)3X N -; (B )1 ~(0,1)1X N -; (C ) 1 ~(0,1) 9X N -; (D ~(0,1)N . 2,若总体2(,)X N μσ,其中2σ已知,当样本容量n 保持不变时,如果置信度1α-减小,则μ的 置信区间____B___ . (A )长度变大; (B )长度变小; (C )长度不变; (D )前述都有可能. 3,在假设检验中,就检验结果而言,以下说法正确的是____B___ . (A )拒绝和接受原假设的理由都是充分的; (B )拒绝原假设的理由是充分的,接受原假设的理由是不充分的; (C )拒绝原假设的理由是不充分的,接受原假设的理由是充分的; (D )拒绝和接受原假设的理由都是不充分的. 4,对于单因素试验方差分析的数学模型,设T S 为总离差平方和,e S 为误差平方和,A S 为效应平方和,则总有___A___ .

《应用统计学》期末考试试题++a+)+卷

一、单项选择题(每题 2分,共30分) △ 1.在编制等距数列时,如果全距等于56,组数为6,为统计运算方便,组距取( B )。 A 、9.3 B 、9 C 、6 D 、10 2.某商业局对其所属商店的销售计划完成百分比采用如下分组, 请指出哪项是正确的( C )。 A 、80—89% 90—99% 100—109% 110%以上 B 、80%以下 80.1—90% 90.1—100% 100.1—110% C 、90%以下 90—100% 100—110% 110%以上 D 、85%以下 85—95% 95—105% 105—115% 3.以下是根据8位销售员一个月销售某产品的数量制作的茎叶图 3 02 6785 5654 则销售的中位数为( C ) 。 A. 5 B. 45 C. 56.5 D. 7.5 4.按使用寿命分组的产品损坏率一般表现为( D )分布。 A 、钟型 B 、对称 C 、J 型 D 、U 型 5.某11位举重运动员体重分别为:101斤、102斤、103斤、108 斤、102斤、105斤、102斤、110斤、105斤、102斤,据此计 算平均数,结果满足( D )。 A 、算术平均数=中位数=众数 B 、众数>中位数>算术平均数 C 、中位数>算术平均数>众数 D 、算术平均数>中位数>众数

6.甲数列的标准差为7.07,平均数为70,乙数列的标准差为3.41, 平均数为7,则( D )。 A 、甲数列平均数代表性高; B 、乙数列平均数代表性高; C 、两数列的平均数代表性相同; D 、甲数列离散程度大; 7.某银行想知道平均每户活期存款余额和估计其总量,根据存折 账号的顺序,每50本存折抽出一本登记其余额。这样的抽样组 织形式是( C ) A 、类型抽样 B 、整群抽样 C 、机械抽样 D 、纯随机抽样 8.在方差分析中,检验统计量F 是( B )。 A 、组间平方和除以组内平方和 B 、组间均方和除以组内均方 C 、组间平方和除以总平方和 D 、组内均方和除以组间均方 9. 回归方程中,若回归系数为正,则( A )。 A 、表明现象正相关 B 、表明现象负相关 C 、表明相关程度很弱 D 、不能说明相关的方向和程度 △10.已知某工厂甲产品产量和生产成本有直线关系,在这条直 线上,当产量为1000时,其生产成本为30000元,其中不随产量 变化的成本为6000元,则成本总额对产量的回归方程是( A ) A 、x y 246000?+= B 、x y 24.06?+= C 、x y 624000?+= D 、x y 600024?+= 11.速度和环比发展速度的关系是( A )。 A 、两个相邻时期的定基发展速度之商等于相应的环比发展速度 B 、两个相邻时期的定基发展速度之差等于相应的环比发展速度

统计学期末考试试题库和答案解析

第一章绪论 一、填空题 1.标志是说明特征的,指标是说明数量特征的。 2.标志可以分为标志和标志。 3.变量按变量值的表现形式不同可分为变量和变量。4.统计学是研究如何、、显示、统计资料的方法论性质的科学。 5.配第在他的代表作《》中,用数字来描述,用数字、重量和尺度来计量,为统计学的创立奠定了方法论基础。 二、判断题 1.企业拥有的设备台数是连续型变量。() 2.学生年龄是离散型变量。() 3.学习成绩是数量标志。() 4.政治算术学派的创始人是比利时的科学家凯特勒,他把概率论正式引进统计学。() 5.指标是说明总体的数量特征的。() 6.对有限总体只能进行全面调查。() 7.总体随着研究目的的改变而变化。() 8.要了解某企业职工的文化水平情况,总体单位是该企业的每一位职工。() 9.数量指标数值大小与总体的范围大小有直接关系。() 10.某班平均成绩是质量指标。()

三、单项选择题 1.考察全国的工业企业的情况时,以下标志中属于数量标志的是( )。 A.产业分类 B.劳动生产率 C.所有制形式 D.企业名称 2.要考察全国居民的人均住房面积,其统计总体是( )。 A.全国所有居民户 B.全国的住宅 C.各省市自治区 D.某一居民户 3.若要了解全国石油企业采油设备情况,则总体单位是( )。 A.全国所有油田 B.每一个油田 C.每一台采油设备 D.所有采油设备 4.关于指标下列说法正确的是( )。 A.指标是说明总体单位数量特征的 B.指标都是用数字表示的 C.数量指标用数字表示,质量指标用文字表示 D.指标都是用文字表示的 5.政治算术学派的代表人物是( )。 A.英国人威廉·配第 B.德国人康令 C.德国人阿亨瓦尔 D.比利时人凯特勒 6.关于总体下列说法正确的是( )。 A.总体中的单位数都是有限的 B.对于无限总体只能进行全面调查 C.对于有限总体只能进行全面调查 D.对于无限总体只能进行非全面调查 7.关于总体和总体单位下列说法不正确的是( )。 A.总体和总体单位在一定条件下可以相互转换 B.总体和总体单位是固定不变的 C.构成总体的个别单位是总体单位 D.构成总体的各个单位至少具有某种相同的性质 8.关于标志下列说法不正确的是( )。

北航数理统计期末考试题

材料学院研究生会 学术部 2011 年12 月 2007-2008学年第一学期期末试卷 一、(6 分,A 班不做)设x1,x2,?,x n是来自正态总体N( , 2) 的样本,令 2(x1 x2) T (x3 x4)2 (x5 x6)2 , 试证明T 服从t-分布t(2) 二、( 6 分, B 班不做 ) 统计量F-F(n,m) 分布,证明 1的 (0< <1)的分位点x 是1。 F F1 (n,m) 。 三、(8分)设总体X 的密度函数为 其中1,是位置参数。x1,x2,?,x n是来自总体X 的简单样本, 试求参数的矩估计和极大似然估计。 四、(12分)设总体X 的密度函数为 1x exp ,x p(x; ) 0 , 其它 其中, 已知,0, 是未知参数。x1,x2,?,x n 是来自总体X 的简单样本。

1)试求参数的一致最小方差无偏估计; 2) 是否为的有效估计?证明你的结论。 五、(6分,A 班不做)设x1,x2,?,x n是来自正态总体N( 1, 12) 的 简单样本,y1,y2,?,y n 是来自正态总体N( 2, 22) 的简单样本,且两样本相互独立,其中1, 12, 2, 22是未知参数,1222。为检验假设H0 : 可令z i x i y i, i 1,2,..., n ,1 2 , 1 2, H1 : 1 2, 则上述假设检验问题等价于H0 : 1 0, H1: 1 0,这样双样本检验问题就变为单检验问题。基于变换后样本z1,z2,?,z n,在显著性水平下,试构造检验上述问题的t-检验统计量及相应的拒绝域。 六、(6 分,B 班不做)设x1,x2,?,x n是来自正态总体N( 0, 2) 的简单样本,0 已知,2未知,试求假设检验问题 H0: 202, H1: 202的水平为的UMPT。 七、(6 分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方面? 八、(6 分)设方差分析模型为 总离差平方和 试求E(S A ) ,并根据直观分析给出检验假设H0 : 1 2 ... P 0的拒绝域形式。 九、(8分)某个四因素二水平试验,除考察因子A、B、C、D 外,还需考察 A B ,B C 。今选用表L8(27 ) ,表头设计及试验数据如表所示。试用极差分析指出因子的主次顺序和较优工艺条件。

应用统计学期末考试试题A卷

一 、单项选择题(每题2分,共30分) △1.在编制等距数列时,如果全距等于56,组数为6,为统计运算方便,组距取( B )。 A 、 B 、9 C 、6 D 、10 2.某商业局对其所属商店的销售计划完成百分比采用如下分组,请指出哪项是正确的 ( C )。 A 、80—89% 90—99% 100—109% 110%以上 B 、80%以下 —90% —100% —110% C 、90%以下 90—100% 100—110% 110%以上 D 、85%以下 85—95% 95—105% 105—115% 3.以下是根据8位销售员一个月销售某产品的数量制作的茎叶图 3 02 6785 5654 则销售的中位数为( C )。 A. 5 B. 45 C. D. 4.按使用寿命分组的产品损坏率一般表现为( D )分布。 A 、钟型 B 、对称 C 、J 型 D 、U 型 5.某11位举重运动员体重分别为:101斤、102斤、103斤、108斤、102斤、105斤、 102斤、110斤、105斤、102斤,据此计算平均数,结果满足( D )。 A 、算术平均数=中位数=众数 B 、众数>中位数>算术平均数 C 、中位数>算术平均数>众数 D 、算术平均数>中位数>众数 6.甲数列的标准差为,平均数为70,乙数列的标准差为,平均数为7,则( D )。 A 、甲数列平均数代表性高; B 、乙数列平均数代表性高; C 、两数列的平均数代表性相同; D 、甲数列离散程度大; 7.某银行想知道平均每户活期存款余额和估计其总量,根据存折账号的顺序,每50本 存折抽出一本登记其余额。这样的抽样组织形式是( C ) A 、类型抽样 B 、整群抽样 C 、机械抽样 D 、纯随机抽样 8.在方差分析中,检验统计量F 是( B )。 A 、组间平方和除以组内平方和 B 、组间均方和除以组内均方 C 、组间平方和除以总平方和 D 、组内均方和除以组间均方 9. 回归方程中,若回归系数为正,则( A )。 A 、表明现象正相关 B 、表明现象负相关

统计学期末考试试题(含答案)

西安交大统计学考试试卷 一、单项选择题(每小题2分,共20分) 1.在企业统计中,下列统计标志中属于数量标志的是(C) A、文化程度 B、职业 C、月工资 D、行业 2.下列属于相对数的综合指标有(B ) A、国民收入 B、人均国民收入 C、国内生产净值 D、设备台数 3.有三个企业的年利润额分别是5000万元、8000万元和3900万元,则这句话中有(B)个变量? A、0个 B、两个 C、1个 D、3个 4.下列变量中属于连续型变量的是(A ) A、身高 B、产品件数 C、企业人数 D、产品品种 5.下列各项中,属于时点指标的有(A ) A、库存额 B、总收入 C、平均收入 D、人均收入 6.典型调查是(B )确定调查单位的 A、随机 B、主观 C、随意D盲目 7.总体标准差未知时总体均值的假设检验要用到(A ): A、Z统计量 B、t统计量 C、统计量 D、X统计量 8. 把样本总体中全部单位数的集合称为(A ) A、样本 B、小总体 C、样本容量 D、总体容量 9.概率的取值范围是p(D ) A、大于1 B、大于-1 C、小于1 D、在0与1之间 10. 算术平均数的离差之和等于(A ) A、零 B、1 C、-1 D、2 二、多项选择题(每小题2分,共10分。每题全部答对才给分,否则不计分) 1.数据的计量尺度包括(ABCD ): A、定类尺度 B、定序尺度 C、定距尺度 D、定比尺度 E、测量尺度 2.下列属于连续型变量的有(BE ): A、工人人数 B、商品销售额 C、商品库存额 D、商品库存量 E、总产值 3.测量变量离中趋势的指标有(ABE ) A、极差 B、平均差 C、几何平均数 D、众数 E、标准差 4.在工业企业的设备调查中(BDE ) A、工业企业是调查对象 B、工业企业的所有设备是调查对象 C、每台设备是 填报单位D、每台设备是调查单位E、每个工业企业是填报单位 5.下列平均数中,容易受数列中极端值影响的平均数有(ABC ) A、算术平均数 B、调和平均数 C、几何平均数 D、中位数 E、众数 三、判断题(在正确答案后写“对”,在错误答案后写“错”。每小题1分,共10分) 1、“性别”是品质标志。(对) 2、方差是离差平方和与相应的自由度之比。(错) 3、标准差系数是标准差与均值之比。(对) 4、算术平均数的离差平方和是一个最大值。(错)

应用数理统计试题

应用数理统计复习题 1.设总体,有容量分别为10,15的两个独立样本,求它们的样本均值之差的绝对值小于0.3的概率. 解:设两样本均值分别为,则 2. 设总体具有分布律 1 2 3 其中为未知参数,已知取得了样本值,求的矩估计和最大似然估计. 解:(1)矩估计: 令,得. (2)最大似然估计: 得 3. 设某厂产品的重量服从正态分布,但它的数学期望和方差均未知,抽查10件,测得重量为斤。算出 给定检验水平,能否认为该厂产品的平均重量为5.0斤? 附:t1-0.025(9)=2.2622 t1-0.025(10)=2.2281 t1- 0.05(9)=1.8331 t1-0.05(10)=1.8125 解: 检验统计量为

将已知数据代入,得 所以接受。 4. 在单因素方差分析中,因素有3个水平,每个水平各做4次重复实验,完成下列方差分析表,在显著水平下对因素是否显著做检验。 来源平方和自由度均方和F比 因素 4.2 误差 2.5 总和 6.7 解: 来源平方和自由度均方和F比 因素 4.2 2 2.1 7.5 误差 2.5 9 0.28 总和 6.7 11 ,,认为因素是显著的. 5. 现收集了16组合金钢中的碳含量及强度的数据,求得 ,. (1)建立关于的一元线性回归方程; (2)对回归系数做显著性检验(). 解:(1) 所以, (2)

拒绝原假设,故回归效果显著. 6.某正交试验结果如下 列号 试验号A B C 1 2 3 结果 1 2 3 4 1 1 1 1 2 2 2 1 2 2 2 1 13.25 16.54 12.11 18.75 (1)找出对结果影响最大的因素; (2)找出“算一算”的较优生产条件;(指标越大越好) (3)写出第4号实验的数据结构模型。 解: 列号 试验号A B C 1 2 3 结果 1 2 3 4 1 1 1 1 2 2 2 1 2 2 2 1 13.25 16.54 12.11 18.75 ⅠⅡR 29.79 25.36 32.0 30.86 35.29 28.65 1.07 9.9 3.35 (1)对结果影响最大的因素是B; (2)“算一算”的较优生产条件为 (3) 4号实验的数据结构模型为 ,

《应用统计学》期末考试试题及答案(第一套)

《应用统计学》期末考试试题(第一套) 参考答案及评分细则 一、单项选择题(在备选答案中只有一个是正确的,将其选出并把它的英文标号写在题后括号内。不答题或者答错题既不得分,也不倒扣分。每题1分,共10分) 1、某城市工业企业未安装设备普查,总体单位是( B)。 A.工业企业全部未安装设备B.工业企业每一台未安装设备 C.每个工业企业的未安装设备D.每一个工业企业 2、属于数量指标的是( A )。 A.粮食总产量 B.粮食平均亩产量 C.人均粮食生产量 D.人均粮食消费量 3、某市工业企业2006年生产经营成果年报呈报时间规定在2007年1月31日, 则调查期限为( B )。 A.一日B.一个月C.一年D.一年零一个月 4、某管理局对其所属企业的生产计划完成百分比采用如下分组,请指出下列哪项 是正确的( C ) A.80-89%B.80%以下C.90%以下D.85%以下 90-99%80.1-90%90-100% 85-95% 100-109% 90.1-100% 100-110% 95-105% 110%以上 100.1-110%110%以上 105-115% 5、某企业2005年职工平均工资为5200元,标准差为110元,2006年职工平均 工资幅长了40%,标准差增大到150元,职工平均工资的相对变异( B )A.增大 B.减小C.不变D.不能比较6、权数对算术平均数的影响作用,实质上取决于( A ) A.作为权数的各组单位数占总体单位数比重的大小 B.各组标志值占总体标志总量比重的大小 C.标志值本身的大小 D.标志值数量的多少 7、已知各期环比增长速度为2%、5%、8%和7%,则相应的定基增长速度的计算方 法为( A )

统计学期末考试试题(含答案)

交大统计学考试试卷 一、单项选择题(每小题2分,共20分) 1.在企业统计中,下列统计标志中属于数量标志的是( C) A、文化程度 B、职业 C、月工资 D、行业 2.下列属于相对数的综合指标有(B ) A、国民收入 B、人均国民收入 C、国生产净值 D、设备台数 3.有三个企业的年利润额分别是5000万元、8000万元和3900万元,则这句话中有( B)个变量? A、0个 B、两个 C、1个 D、3个 4.下列变量中属于连续型变量的是(A ) A、身高 B、产品件数 C、企业人数 D、产品品种 5.下列各项中,属于时点指标的有(A ) A、库存额 B、总收入 C、平均收入 D、人均收入 6.典型调查是(B )确定调查单位的 A、随机 B、主观 C、随意 D盲目 7.总体标准差未知时总体均值的假设检验要用到( A ): A、Z统计量 B、t统计量 C、统计量 D、X统计量 8. 把样本总体中全部单位数的集合称为(A ) A、样本 B、小总体 C、样本容量 D、总体容量 9.概率的取值围是p(D ) A、大于1 B、大于-1 C、小于1 D、在0与1之间 10. 算术平均数的离差之和等于(A ) A、零 B、 1 C、-1 D、2 二、多项选择题(每小题2分,共10分。每题全部答对才给分,否则不计分) 1.数据的计量尺度包括( ABCD ): A、定类尺度 B、定序尺度 C、定距尺度 D、定比尺度 E、测量尺度 2.下列属于连续型变量的有( BE ): A、工人人数 B、商品销售额 C、商品库存额 D、商品库存量 E、总产值 3.测量变量离中趋势的指标有( ABE ) A、极差 B、平均差 C、几何平均数 D、众数 E、标准差 4.在工业企业的设备调查中( BDE ) A、工业企业是调查对象 B、工业企业的所有设备是调查对象 C、每台设备是 填报单位 D、每台设备是调查单位 E、每个工业企业是填报单位 5.下列平均数中,容易受数列中极端值影响的平均数有( ABC ) A、算术平均数 B、调和平均数 C、几何平均数 D、中位数 E、众数 三、判断题(在正确答案后写“对”,在错误答案后写“错”。每小题1分,共10分) 1、“性别”是品质标志。(对) 2、方差是离差平方和与相应的自由度之比。(错) 3、标准差系数是标准差与均值之比。(对)

概率数理统计试题及答案

应用数理统计试题 1.设15,,X X 是独立且服从相同分布的随机变量,且每一个()1,2,,5i X i = 都服从()0,1.N (1)试给出常数c ,使得()22 12c X X +服从2χ公布,并指出它的自由度; (2)试给出常数,d 使得 服从t 分布,并指出它的自由度. 2.设总体X 的密度函数为 ???<<+=其他, 01 0,)1();(x x x f ααα 其中1->α是未知参数, ),,(1n X X 是一样本, 试求: (1) 参数α的矩估计量; (2) 参数α的最大似然估计量. 3.有一种新安眠剂,据说在一定剂量下能比某种旧安眠剂平均增加睡眠时间3小时,为了检验新安眠剂的这种说法是否正确,收集到一组使用新安眠剂的睡眠时间(单位:小时): 26.7, 22.0, 24.1, 21.0, 27.2, 25.0, 23.4. 根据资料用某种旧安眠剂时平均睡眠时间为20.8小时,假设用安眠剂后睡眠时间服从正态分布,试问这组数据能否说明新安眠剂的疗效?()0.05.α= 4.若总体X 服从正态分布() 22.1,1N ,样本n X X X ,,,21 来自总体X ,要使样本均值X 满足不等式{}95.01.19.0≥≤≤X P ,求样本容量n 最少应取多少? 5.在某种产品表明进行腐蚀刻线实验,得到腐蚀深度y 与腐蚀时间x 对应的一

(1)预测腐蚀时间75s 时,腐蚀深度的范围(α-1=95%); (2)若要求腐蚀深度在10~20um 之间,问腐蚀时间应如何控制? 6.简述方差分析,主成分分析的基本思想 附:统计查表数据 0.025(6) 2.447t =,0.025(7) 2.365t =,(1.96)0.975Φ= 参考答案: 1.设15,,X X 是独立且服从相同分布的随机变量,且每一个()1,2,,5i X i = 都服从()0,1.N (1)试给出常数c ,使得() 22 12c X X +服从2χ公布,并指出它的自由度; (2)试给出常数,d 使得服从t 分布,并指出它的自由度. 解 (1)由于()()()22 21212~0,1,~0,1, ~2X N X N X X +χ故 因此1c =,1222 X X +服从自由度为2的2χ分布. (2)由于()()~0,11,2,5i X N i = 且独立,则()12~0,2X X N + ()~0,1N 而 ()22223453X X X ++=χ ()~3,t ()~3t 所以d =自由度为3. 2. 设总体X 的密度函数为 ???<<+=其他, 01 0,)1();(x x x f ααα 其中1->α是未知参数, ),,(1n X X 是一样本, 试求:

《应用统计学》期末考试试题及答案(第二套)

《应用统计学》期末考试试题(第二套) 参考答案及评分细则 一、单项选择题(在备选答案中只有一个是正确的,将其选出并把它的英文标号写在题后括号内。不答题或者答错题既不得分,也不倒扣分。每题1分,共10分) 1、指标是说明总体特征的,标志是说明总体单位特征的,所以( B) A、标志和指标之间的关系是固定不变的 B、标志和指标之间的关系是可以变化的 C、标志和指标都是可以用数值表示的 D、只有指标才可以用数值表示 2、属于质量指标的是( B )。 A、货物周转量 B、单位面积产量 C、年末人口数 D、工业增加值 3、所选择单位的标志总量占全部总体标志总量的绝大比例,这些单位就是( C )。 A、调查单位 B、代表性单位 C、重点单位 D、典型单位 4、划分连续变量的组限时,相邻的组限必须( A ) A、重叠 B、相近 C、不等 D、间断 5、宏发公司2004年计划规定利润应比2003年增长10%,实际执行的结果比2003年增长了12%,则其计划完成程度为( D )。 A、 83% B、 120% C、 98.2% D、 101.8% 6、甲班学生平均成绩80分,标准差8.8分,乙班学生平均成绩70分,标准差 8.4分,因此( A ) A、甲班学生平均成绩代表性好一些 B、乙班学生平均成绩代表性好一些 C、无法比较哪个班学生平均成绩代表性好 D、两个班学生平均成绩代表性一样 7、若各年环比增长速度保持不变,则各年增长量( A ) A、逐年增加 B、逐年减少 C、保持不变 D、无法做结论

8、在物价上涨后,同样多的人民币少购买商品2%,则物价指数为( B ) A 、90.00% B 、102.04% C 、90.91% D 、109.18% 9、在其它条件不变的情况下,提高估计的概率保证程度,其估计的精确程度(B ) A 、随之扩大 B 、随之缩小 C 、保持不变 D 、无法确定 10、下列回归方程中,肯定错误的是( C ) A 、88.0,32?=+=r x y B 、88.0,32?=+-=r x y C 、88.0,32?-=+-=r x y D 、88.0,32?-=-=r x y 二、多项选择题(在备选答案中有二个以上是正确的,将它们全选出并把它们的标号写在题后括号内,每题所有答案选择正确的得分;不答、错答、漏答均不得分。每题2分,共10分) 1、哪些属于离散变量( ABC )。 A 、某企业职工总人数 B 、某行业职工总人数 C 、全国城镇居民家庭总户数 D 、旅客周转量 2、在以下什么条件下,加权算术平均数等于简单算术平均数?( AD ) A 、各组次数相等 B 、各组变量值不等 C 、变量数列为组距数列 D 、各组次数占总次数的比重相等 3、下列指标中属于时点指标的有( ABD ) A 、企业数 B 、在册职工人数 C 、某种商品的销售量 D 、某地区2006年末人口数 4、计算平均发展速度可采用的公式有( ABD )。 A 、n n a a x 0 = B 、n x x π= C 、n x x ∑= D 、n R x = 5、指数的作用是( ABD )。 A 、综合反映复杂现象总体数量上的变动情况 B 、分析现象总体变动中受各个因素变动的影响 C 、现象总体各单位变量分布的集中趋势 D 、利用指数数列分析现象的发展趋势 三、判断题(请判断每题的表述是否正确,将判断结果写在题后括号内,正确填“√”,错误填“×”。不答题或者答错题既不得分,也不倒扣分每小题1分,共10分)

相关文档
相关文档 最新文档