文档库 最新最全的文档下载
当前位置:文档库 › 华理-汪东华-必备-应用统计模拟试卷,周版答案

华理-汪东华-必备-应用统计模拟试卷,周版答案

《应用统计学》模拟试卷

开课学院:商学院专业:考试形式:闭卷,所需时间:120 分钟

考生姓名:学号:班级:任课教师:

注意:①请将答案写在答题纸上,写在试卷上无效。②本试卷计算题均精确到小数点后三位!

一、小麦试验问题(20分)

设有三个品种(用因素A表示)的小麦和两种不同的肥料(用因素B表示),将一定面积的地块分为6个均等的小区,每个小区随机地试验品种和肥料6种组合的一种,在面积相等的四块地上进行重复试验,其小麦的产量(公斤)如下表:

SPSS运算结果附表:

(1) Tests of Between-Subjects Effects

Dependent Variable: Y

a R Squared = 0.857 (Adjusted R Squared =0.817)

(2) Estimated Marginal Means

小麦产量Mean

Dependent Variable: Y

(3)Post Hoc Tests

A Homogeneous Subsets

Student-Newman-Keuls

Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean

Square(Error) = 2.444.

a Uses Harmonic Mean Sample Size = 8.000.

b Alpha = 0.05.

问题:

1、请填写附表(1)里面空白()处,并给出计算公式。

这里复习一下书上多因子方差分析表还有概率论,想看的就看,不看的可以跳过。

由于在多因子方差分析的时候,我们用的是卡方分布,在概率论书上有关于卡方分布的,如果有n 个随机变量,那么卡方分布在计算时就变成X方(n-1),这边的x是希腊字母,打不出来,你们都懂的。这n-1,就是我们所说的自由度

所以在多因子方差分析的时候,我们分析的是A因子r个水平对y值的影响,还有B因子s个水平对y的影响,SPSS书P43。所以根据卡方分布的计算,A因子的自由度就是dfA=r-1,dfB=s-1。那么dfe=(r-1)(s-1)。

本例中品种A有三个水平,即r=3,所以r-1=2。同理可以得出B和A*B的自由度。

我先做的第二大题,下一题中有关于F统计量的简单原理,这题我就直接写计算式,记住怎么算就行了。

F A*B=9.500/2.444=3.887。这里说明一下,精确的计算方法应该是(19/2)/(44/18)=3.886,SPSS用的是精确计算,我们用近似计算方法,应该也对。

2、根据附表(1)方差分析的显著性水平结果,按0.05检验水平,讨论各个因素的显著性。

这里我用两个方法给大家说明。

第一是P值检验,就是表1最后面的Sig,可以看到,A,B的P值都等于0.000,也就是说,在99.9%的可能性下,AB对Y产生高度显著性影响,我们称这种情况为,高度显著,

而A*B的P值为0.04,即在96%的情况下产生显著影响,而我们仅仅要求95%(1-0.05)的情况显著即可,所以我们称在这种处于95%到99%的情况下显著的,为一般显著。

第二种是F比检验,这里我们需要查表(书P285页,F分布表)。在a=0.01的情况下F(2,18)=6.01,而A的F比=38.932,F比>F(2,18),所以为高度显著,用**表示。

同理得B

对于A*B,F比为3.886,a=0.01的情况下,F(2.,18)=6.01,在a=0.05的情况下,F(2,18)=3.55,所以有3.55

3、根据附表(2),说明里面各项指标的意义。

我们称表2为估计边际平均值,这张表用于估计小麦产量的平均值在95%的可能性下在那个范围之内。Mean为平均值,std error为标准差,最后95%xxxxxxx表示在95%的情况下,平均值会在下限为11.663,上为13.004之间。

至于计算方法,用的是t分布,计算上下限就行了,在概率论的书上有,考试100%不会考计算,只

考理解,所以感兴趣有时间的人可以去看

4、 根据附表(3),说明A 因素下各个水平均值多重比较的结果。

品种1和品种2放在subset1中,它们的平均产量与subset2中的品种3有明显差异。但是对于subset1组内来说,均数比较检验的概率,Sig 值为0.127>0.05,即原假设无效,品种1和2不存在明显产量差异。

5、 找出最优生产条件,并说明理由。

这结论得出可以有很多方法,我仅仅说我自己的方法。

从表1的方差分析可得,总方差307.333=190.333+54+19+44,方差很大的部分都是由品种和肥料的差异构成的,即品种和肥料对产量影响很大,至于交互作用,可以忽略。所以我们根据表3选择平均产量最高的品种,品种3。根据原来的表格,我们可知同一种品种,肥料2明显能使得小麦增产,所以我们选择肥料2。

所以最优生产条件,品种3,肥料2

二、销售额问题(20分)

某公司某种商品在15个地区的销售额Y (万元)与各地区的人口1x (万人)及平均每户总收入2x (元)的有关数据如下表。

SPSS 运算结果附表:

(1) Variables Entered/Removed(b)

a All requested variables entered.

b Dependent Variable: Y (2) Model Summary(b)

a Predictors: (Constant), X2, X1

b Dependent Variable: Y (3) ANOVA(b)

a Predictors: (Constant), X2, X1

b Dependent Variable: Y

(4) Coefficients(a)

a Dependent Variable: Y

问题:

1、附表(2)里面,指标R是什么指标,给出它的定义及其解释。P109

模型摘要表,R为相关系数,定义R=根号下(Sr/St),Sr为回归平方和,St为总平方和。根据St=Sr+Se 有:R愈大,代表残差越小,方程回归性越高。本例中计算式子为:根号下(53844.716/53901.6). 2、求出附表(3)里面的F值,给出计算公式,并按0.05检验水平,讨论回归方程的显著性。

构造F统计量,计算公式如下Vr=Sr/fr,Ve=Se/fe,F=Vr/Ve。其中S表示方差,f表示自由度。关于两者的下表,我在表格上用红笔标出来了。小r代表回归regression,e表示残差residual。

本例中,计算Vr=53844.716/2=26922.358,Ve=56.884/12=4.740,所以F=26922.358/4.740=5679.466

Sig=0.000,表示双尾检验P=0.000,方程回归性显著。

3、根据附表(4),给出回归方程的表达式,按0.05检验水平,讨论回归系数的显著性,并估计地区5的销售额的残差,给出计算公式。

解释一下表4的含义。表4为回归系数表,表头B下面的就是表示回归方程的参数,Constant表示的是常数项。所以有Y=3.453+0.496X1+0.008X2+e(e是希腊字幕kec,我打不出来,表示随机误差的意思)。

我们现在看最后一列,X1,X2系数对应的双尾检验P值=0.000,即至少在99.9%的情况下,得出的回归方程有效。而题目要求的是0.05检验水平,95%的情况下有效就行了。所以很明显,通过SPSS 计算出的两个回归系数,都有显著意义。

残差的计算公式在书上第108页,e=Y-Y(小帽子),意思很好理解的。下面是关于本题残差的计算。本题五区的观察值为Y=67,拟合值Y(小帽子)=3.453+0.496*86+0.008*2347=64.885,残差e=2.115。

三、经济发展阶段问题(20分)

为了研究近年来中国经济发展状况,搜集了1989年-2002年中国国内生产总值(GDP)指数(上年=100),列表如下(本表按不变价格计算):

(1) 请将下列直径D(i , j)表中的括号填上,(无计算过程,不给分)。

直径矩阵

为了让大家更快复习,我把数学语言转换成直观语言来和大家说明。

所谓有序聚类法,举个体育课的例子,老师命令学生从左到右由低到高战成一排,假设这坨人的身高从左到右分别为163,166,168,171,175,178,179,180,181,184,188,189。现在要求在不改变他们站位顺序的情况下把他们分成三类,一个自然而然的想法就是,{163,166,168},{171,175,178,179},{180,181,184,188,189}。这就是有序聚类法。

我现在这么分类了,问题是鬼才知道这么分类好不好。所以我们引入一种检测方法:设上面人的身高从左到右分别为x1,x2。。。。。。x12。第一组的起始元素是x1,结束元素是x3,计算组内平方和,这个很好计算,为了简便书写,我们令组内平方和为d,由于第一个元素是1,最后一个元素是3,所以d(1,3)就表示第一组的组内平方和。

更一般的书写方法,就是d(i,j),书上p156有说明,那么何为最优聚类呢?就是所有组的组内平方和加起来为最小的时候,就是最优聚类。

现在我们用实例来学会计算方法:

如果我们把1990年单独分一类,那么很显然,d=0。但是如果我们把1990,和1991聚成一类,那么d(1,2)=(104.1-103.95)2+(103.8-103.95)2=0.045,其中103.95为组内所有元素的平均值。

所以不难计算出d(1,4)等其他数值。当数据很多的时候,我们可以用计算器的统计功能(mode=sd),来帮计算组内平方和。

(2) 请将下列最小目标函数e[P(i , j)]表中的括号填上,( 无计算过程,不给分)。

最小目标函数矩阵

我们由第一题的数据得到了各种d(i,j)的值,现在是把它们求和的时候了,为了偷懒,我们用一个方便表达式子e[P(n,k)]来表达。

比如e[P(2,2)]表示总共2个元素,把分为两类,那么显然是一个元素一组,组内平方和之和一定是鸭蛋。e[P(3,2)]表示总共3个元素,把它们分为两类,求出来的所有组内平方和之和。那么这就有文章可做了。我们可以选择1,2分一类,3单独分一类,也可以选择1单独分一类,2,3分一类。那么第一种选择,我们查表得总和是d(1,2)+d(3,3)=0.045+0=0.045。第二种分法总和是d(1,1)+d(2,3)=0+14.580=14.580.

那么我们该选哪一个呢?运筹学里面我们学过,要想最后的总和为最优,必然每一步都是最优解。那么我们要求所有组内平方和之和最小,显然每次分类,我们都要取最小,也就是e[P(3,2)]=min{0.045,14.580}=0.045,我们选择分类方法便是1,2分一类,3单独分一类。

对于题目中的要求e[(9,2)]=min{d(1,1)+d(2,9),d(1,2)+d(3,9),。。。。。。d(1,8)+d(9,9)}= {0+76.975,0.045+29.06,18.42+24.393。。。。。。。。},不难看出,选择d(1,2)+d(3,9)为最优解,e[(9,2)]=29.105 总共分两组,第二组(即最后一组)的起始元素为第三个,所以我们填入29.105(3)

第二个空,e[(7,3)]=min{e[P(2,2)]+d(3,7),e[P(3,2)]+d(4,7),……e[P(6,2)]+d(7,7)}=min{0+17.54,0.045+7.740,…….14.733+0}=7.785,我们从计算式中不难看出,最优分配,是将前面三个元素分成两组,后面第四到第七个元素分成第三组,由于第三组(最后一组)是从元素4开始起分的,所以我们应当填入的是7.785(4)。

所以e[P(7,3)]的最优聚类法是,1,2分一类,3分一类,4到7分一类,最小组内平方和之和为7.785

(续) 最小目标函数矩阵

(3) 试给出k=5的分类情况。

前面(2)已经给出了详细的选取最优的过程,现在我们来从表中找到最优组。

首先在组内找到e[P(15,5)]=4.966(9),所以第一步就可得,分五组,最后一组为9-15。

我们再看剩下1-8个元素的最优分配,我们找到e[P(8,4)]= 1.737(7),即8组分四组,最优分配时,最后一组

为7-8。

以此类推,我们得到6个元素分3组,最后组,为4-6。 。。。。

结论,最优分配法为1-2,3,4-6,7-8,9-15 四、学生成绩分析问题(20分)

记录10个学生的数学、物理、化学、语文、历史、英语的成绩,分别用123456,,,,,x x x x x x 表示,得数据见下表所示。对其做主成分分析。

SPSS 运算结果附表:

(1) Communalities

Extraction Method: Principal Component Analysis.

这张表表示因子分析后,提取2个公因子(后面表有说明是两个比较合适),原来变量和这两个公因子的变量共同度,即这两个公因子数值发生变化,其实代表了原来x1~x6发生了多少变化,但是我们也看到,压缩成两个公因子后,原来6个因子中,x3的对应变化程度较少,即提取公因子后,x3流失的信息较多,其他的变量还算凑合。

(2)Total Variance Explained

Extraction Method: Principal Component Analysis.

解释一下为什么提出两个公因子,而不是3个,4个。从原始的方差贡献率我们可以得知,分数的变化,有50.820%是由数学引起的,其次是物理,占了27.054%,加起来共有77.874%。其余的单个因子方差贡献率都较小,所以我们压缩原来6个因子,变成两个。

(3)Component Matrix(a)

Extraction Method: Principal Component Analysis.

a 2 components extracted.

这是因子载荷矩阵,第一个因子主要受x2,x4,x5,x6影响较大,第二个因子都差不多,这样的因子分析结果不好解释,所以我们要做旋转,于是就有了表4

(4)Rotated Component Matrix(a)

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

a Rotation converged in 3 iterations.

进过旋转之后,答案变得特别明显,因子1主要受原来因子x4,x5,x6影响较大,因子2主要收x1,x2,x3影响较大。结合x1~到x6的实际意义,我们把因子1命名为文科成绩,因子2为理科成绩。(5)Component Transformation Matrix

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

因子旋转公式,了解就行了

Component Score Coefficient Matrix

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Component Scores.

旋转后的因子载荷矩阵

问题:

特征值为3.049和1.623,贡献率分别为50.820%和27.054%

2、根据附表(3)和(4),比较旋转前和旋转后的因子负荷矩阵,对这两个旋转后的因子的意义作一个合理的解释,尝试给两个因子命名。

表下面的说明即答案

3、请指出这里的因子分析所采用的方法。

这题我不知道他问什么,所以我随便答的

巴特利特球体检验,可以通过p值来测算是否适合因子分析

因子旋转法

4、根据因子得分系数矩阵即附表(6),请写出所提取的两个因子的数学表达式。

因子f1=0.062x1+-0.092x2+。。。。。0.352x6

同理得f2

五、简答题(20分)

1、简述有交互作用的正交试验设计的表头设计原则。

自己动手,丰衣足食,书p69

2、试从定义上讨论判别分析和聚类分析有什么不同

我们已知刘翔和姚明,所以我们把设两个组,一个是跑步组,刘翔入选,还有一个是篮球组,姚明入选。这就是聚类分析。

判别分析就是给你一个史冬鹏,再给你个易建联,你判断前者跑步,后者打球。你把史冬鹏扔到跑步组,易建联扔到篮球组,这就是判别分析。

*****最后想说明的是,求助啊!!!这本书上小错误一大堆,但是有两个地方,我觉得可能是大错误,第一个是P115,最上面他说o=1.24,问题是我怎么算都是1.3907

第二个是p172,最下面,他说w(x)>0的时候,x属于G1,问题是我算出来怎么完全和书相反???G2才对啊

求达人相助!!找到答案麻烦致电我,感激不尽!!!但愿是我错了吧。。

相关文档
相关文档 最新文档