当前位置：文档库 › 华理-汪东华-必备-应用统计模拟试卷,周版答案

华理-汪东华-必备-应用统计模拟试卷,周版答案

《应用统计学》模拟试卷

开课学院：商学院专业：考试形式：闭卷，所需时间：120 分钟

考生姓名：学号：班级：任课教师：

注意：①请将答案写在答题纸上，写在试卷上无效。②本试卷计算题均精确到小数点后三位！

一、小麦试验问题（20分）

设有三个品种（用因素A表示）的小麦和两种不同的肥料（用因素B表示），将一定面积的地块分为6个均等的小区，每个小区随机地试验品种和肥料6种组合的一种，在面积相等的四块地上进行重复试验，其小麦的产量（公斤）如下表：

SPSS运算结果附表：

(1) Tests of Between-Subjects Effects

Dependent Variable: Y

a R Squared = 0.857 (Adjusted R Squared =0.817)

(2) Estimated Marginal Means

小麦产量Mean

Dependent Variable: Y

(3)Post Hoc Tests

A Homogeneous Subsets

Student-Newman-Keuls

Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean

Square(Error) = 2.444.

a Uses Harmonic Mean Sample Size = 8.000.

b Alpha = 0.05.

问题：

1、请填写附表(1)里面空白（）处，并给出计算公式。

这里复习一下书上多因子方差分析表还有概率论，想看的就看，不看的可以跳过。

由于在多因子方差分析的时候，我们用的是卡方分布，在概率论书上有关于卡方分布的，如果有n 个随机变量，那么卡方分布在计算时就变成X方（n-1），这边的x是希腊字母，打不出来，你们都懂的。这n-1，就是我们所说的自由度

所以在多因子方差分析的时候，我们分析的是A因子r个水平对y值的影响，还有B因子s个水平对y的影响，SPSS书P43。所以根据卡方分布的计算，A因子的自由度就是dfA=r-1，dfB=s-1。那么dfe=(r-1)(s-1)。

本例中品种A有三个水平，即r=3，所以r-1=2。同理可以得出B和A*B的自由度。

我先做的第二大题，下一题中有关于F统计量的简单原理，这题我就直接写计算式，记住怎么算就行了。

F A*B=9.500/2.444=3.887。这里说明一下，精确的计算方法应该是(19/2)/(44/18)=3.886,SPSS用的是精确计算，我们用近似计算方法，应该也对。

2、根据附表(1)方差分析的显著性水平结果，按0.05检验水平，讨论各个因素的显著性。

这里我用两个方法给大家说明。

第一是P值检验，就是表1最后面的Sig，可以看到，A，B的P值都等于0.000，也就是说，在99.9%的可能性下，AB对Y产生高度显著性影响，我们称这种情况为，高度显著，

而A*B的P值为0.04，即在96%的情况下产生显著影响，而我们仅仅要求95%（1-0.05）的情况显著即可，所以我们称在这种处于95%到99%的情况下显著的，为一般显著。

第二种是F比检验，这里我们需要查表（书P285页，F分布表）。在a=0.01的情况下F（2,18）=6.01，而A的F比=38.932，F比>F（2,18）,所以为高度显著，用**表示。

同理得B

对于A*B，F比为3.886，a=0.01的情况下,F（2.，18）=6.01，在a=0.05的情况下，F（2,18）=3.55，所以有3.55

3、根据附表(2)，说明里面各项指标的意义。

我们称表2为估计边际平均值，这张表用于估计小麦产量的平均值在95%的可能性下在那个范围之内。Mean为平均值，std error为标准差，最后95%xxxxxxx表示在95%的情况下，平均值会在下限为11.663，上为13.004之间。

至于计算方法，用的是t分布，计算上下限就行了，在概率论的书上有，考试100%不会考计算，只

考理解，所以感兴趣有时间的人可以去看

4、根据附表(3)，说明A 因素下各个水平均值多重比较的结果。

品种1和品种2放在subset1中，它们的平均产量与subset2中的品种3有明显差异。但是对于subset1组内来说，均数比较检验的概率，Sig 值为0.127>0.05，即原假设无效，品种1和2不存在明显产量差异。

5、找出最优生产条件，并说明理由。

这结论得出可以有很多方法，我仅仅说我自己的方法。

从表1的方差分析可得，总方差307.333=190.333+54+19+44，方差很大的部分都是由品种和肥料的差异构成的，即品种和肥料对产量影响很大，至于交互作用，可以忽略。所以我们根据表3选择平均产量最高的品种，品种3。根据原来的表格，我们可知同一种品种，肥料2明显能使得小麦增产，所以我们选择肥料2。

所以最优生产条件，品种3，肥料2

二、销售额问题（20分）

某公司某种商品在15个地区的销售额Y （万元）与各地区的人口1x （万人）及平均每户总收入2x （元）的有关数据如下表。

SPSS 运算结果附表：

(1) Variables Entered/Removed(b)

a All requested variables entered.

b Dependent Variable: Y (2) Model Summary(b)

a Predictors: (Constant), X2, X1

b Dependent Variable: Y (3) ANOVA(b)

a Predictors: (Constant), X2, X1

b Dependent Variable: Y

(4) Coefficients(a)

a Dependent Variable: Y

问题：

1、附表(2)里面，指标R是什么指标，给出它的定义及其解释。P109

模型摘要表，R为相关系数，定义R=根号下（Sr/St）,Sr为回归平方和，St为总平方和。根据St=Sr+Se 有：R愈大，代表残差越小，方程回归性越高。本例中计算式子为：根号下（53844.716/53901.6）. 2、求出附表(3)里面的F值，给出计算公式，并按0.05检验水平，讨论回归方程的显著性。

构造F统计量，计算公式如下Vr=Sr/fr,Ve=Se/fe，F=Vr/Ve。其中S表示方差，f表示自由度。关于两者的下表，我在表格上用红笔标出来了。小r代表回归regression，e表示残差residual。

本例中，计算Vr=53844.716/2=26922.358,Ve=56.884/12=4.740,所以F=26922.358/4.740=5679.466

Sig=0.000，表示双尾检验P=0.000，方程回归性显著。

3、根据附表(4)，给出回归方程的表达式，按0.05检验水平，讨论回归系数的显著性，并估计地区5的销售额的残差，给出计算公式。

解释一下表4的含义。表4为回归系数表，表头B下面的就是表示回归方程的参数，Constant表示的是常数项。所以有Y=3.453+0.496X1+0.008X2+e（e是希腊字幕kec，我打不出来，表示随机误差的意思）。

我们现在看最后一列，X1，X2系数对应的双尾检验P值=0.000，即至少在99.9%的情况下，得出的回归方程有效。而题目要求的是0.05检验水平，95%的情况下有效就行了。所以很明显，通过SPSS 计算出的两个回归系数，都有显著意义。

残差的计算公式在书上第108页，e=Y-Y（小帽子），意思很好理解的。下面是关于本题残差的计算。本题五区的观察值为Y=67，拟合值Y（小帽子）=3.453+0.496*86+0.008*2347=64.885,残差e=2.115。

三、经济发展阶段问题（20分）

为了研究近年来中国经济发展状况，搜集了1989年－2002年中国国内生产总值(GDP)指数(上年=100)，列表如下(本表按不变价格计算)：

(1) 请将下列直径D(i , j)表中的括号填上，(无计算过程,不给分)。

直径矩阵

为了让大家更快复习，我把数学语言转换成直观语言来和大家说明。

所谓有序聚类法，举个体育课的例子，老师命令学生从左到右由低到高战成一排，假设这坨人的身高从左到右分别为163，166,168,171,175,178,179,180,181,184,188,189。现在要求在不改变他们站位顺序的情况下把他们分成三类，一个自然而然的想法就是，{163,166,168}，{171,175,178,179}，{180,181,184,188,189}。这就是有序聚类法。

我现在这么分类了，问题是鬼才知道这么分类好不好。所以我们引入一种检测方法：设上面人的身高从左到右分别为x1，x2。。。。。。x12。第一组的起始元素是x1，结束元素是x3，计算组内平方和，这个很好计算，为了简便书写，我们令组内平方和为d，由于第一个元素是1，最后一个元素是3，所以d（1,3）就表示第一组的组内平方和。

更一般的书写方法，就是d（i，j），书上p156有说明，那么何为最优聚类呢？就是所有组的组内平方和加起来为最小的时候，就是最优聚类。

现在我们用实例来学会计算方法：

如果我们把1990年单独分一类，那么很显然，d=0。但是如果我们把1990,和1991聚成一类，那么d（1,2）=（104.1-103.95）2+（103.8-103.95）2=0.045，其中103.95为组内所有元素的平均值。

所以不难计算出d（1,4）等其他数值。当数据很多的时候，我们可以用计算器的统计功能（mode=sd），来帮计算组内平方和。

(2) 请将下列最小目标函数e［P（i , j）］表中的括号填上，( 无计算过程，不给分)。

最小目标函数矩阵

我们由第一题的数据得到了各种d（i，j）的值，现在是把它们求和的时候了，为了偷懒，我们用一个方便表达式子e[P(n,k)]来表达。

比如e[P(2,2)]表示总共2个元素，把分为两类，那么显然是一个元素一组，组内平方和之和一定是鸭蛋。e[P(3,2)]表示总共3个元素，把它们分为两类，求出来的所有组内平方和之和。那么这就有文章可做了。我们可以选择1,2分一类，3单独分一类，也可以选择1单独分一类，2,3分一类。那么第一种选择，我们查表得总和是d（1,2）+d（3,3）=0.045+0=0.045。第二种分法总和是d（1,1）+d(2,3)=0+14.580=14.580.

那么我们该选哪一个呢？运筹学里面我们学过，要想最后的总和为最优，必然每一步都是最优解。那么我们要求所有组内平方和之和最小，显然每次分类，我们都要取最小，也就是e[P(3,2)]=min{0.045,14.580}=0.045，我们选择分类方法便是1,2分一类，3单独分一类。

对于题目中的要求e[(9,2)]=min{d(1,1)+d(2,9)，d（1,2）+d（3,9），。。。。。。d（1,8）+d（9,9）}= {0+76.975,0.045+29.06,18.42+24.393。。。。。。。。},不难看出，选择d（1,2）+d（3,9）为最优解，e[(9,2)]=29.105 总共分两组，第二组（即最后一组）的起始元素为第三个，所以我们填入29.105（3）

第二个空，e[(7,3)]=min{e[P(2,2)]+d(3,7)，e[P(3,2)]+d(4,7)，……e[P(6,2)]+d（7,7）}=min{0+17.54，0.045+7.740，…….14.733+0}=7.785，我们从计算式中不难看出，最优分配，是将前面三个元素分成两组，后面第四到第七个元素分成第三组，由于第三组（最后一组）是从元素4开始起分的，所以我们应当填入的是7.785（4）。

所以e[P(7,3)]的最优聚类法是，1，2分一类，3分一类，4到7分一类，最小组内平方和之和为7.785

(续) 最小目标函数矩阵

(3) 试给出k=5的分类情况。

前面（2）已经给出了详细的选取最优的过程，现在我们来从表中找到最优组。

首先在组内找到e[P(15,5)]=4.966(9)，所以第一步就可得，分五组，最后一组为9-15。

我们再看剩下1-8个元素的最优分配，我们找到e[P(8,4)]= 1.737(7),即8组分四组，最优分配时，最后一组

为7-8。

以此类推，我们得到6个元素分3组，最后组，为4-6。。。。。

结论，最优分配法为1-2,3,4-6,7-8,9-15 四、学生成绩分析问题（20分）

记录10个学生的数学、物理、化学、语文、历史、英语的成绩，分别用123456,,,,,x x x x x x 表示，得数据见下表所示。对其做主成分分析。

SPSS 运算结果附表：

（1） Communalities

Extraction Method: Principal Component Analysis.

这张表表示因子分析后，提取2个公因子（后面表有说明是两个比较合适），原来变量和这两个公因子的变量共同度，即这两个公因子数值发生变化，其实代表了原来x1~x6发生了多少变化，但是我们也看到，压缩成两个公因子后，原来6个因子中，x3的对应变化程度较少，即提取公因子后，x3流失的信息较多，其他的变量还算凑合。

（2）Total Variance Explained

Extraction Method: Principal Component Analysis.

解释一下为什么提出两个公因子，而不是3个，4个。从原始的方差贡献率我们可以得知，分数的变化，有50.820%是由数学引起的，其次是物理，占了27.054%，加起来共有77.874%。其余的单个因子方差贡献率都较小，所以我们压缩原来6个因子，变成两个。

（3）Component Matrix(a)

Extraction Method: Principal Component Analysis.

a 2 components extracted.

这是因子载荷矩阵，第一个因子主要受x2，x4，x5，x6影响较大，第二个因子都差不多，这样的因子分析结果不好解释，所以我们要做旋转，于是就有了表4

（4）Rotated Component Matrix(a)

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

a Rotation converged in 3 iterations.

进过旋转之后，答案变得特别明显，因子1主要受原来因子x4，x5，x6影响较大，因子2主要收x1，x2，x3影响较大。结合x1~到x6的实际意义，我们把因子1命名为文科成绩，因子2为理科成绩。（5）Component Transformation Matrix

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

因子旋转公式，了解就行了

Component Score Coefficient Matrix

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Component Scores.

旋转后的因子载荷矩阵

问题：

特征值为3.049和1.623，贡献率分别为50.820%和27.054%

2、根据附表（3）和（4），比较旋转前和旋转后的因子负荷矩阵，对这两个旋转后的因子的意义作一个合理的解释，尝试给两个因子命名。

表下面的说明即答案

3、请指出这里的因子分析所采用的方法。

这题我不知道他问什么，所以我随便答的

巴特利特球体检验，可以通过p值来测算是否适合因子分析

因子旋转法

4、根据因子得分系数矩阵即附表（6），请写出所提取的两个因子的数学表达式。

因子f1=0.062x1+-0.092x2+。。。。。0.352x6

同理得f2

五、简答题（20分）

1、简述有交互作用的正交试验设计的表头设计原则。

自己动手，丰衣足食，书p69

2、试从定义上讨论判别分析和聚类分析有什么不同

我们已知刘翔和姚明，所以我们把设两个组，一个是跑步组，刘翔入选，还有一个是篮球组，姚明入选。这就是聚类分析。

判别分析就是给你一个史冬鹏，再给你个易建联，你判断前者跑步，后者打球。你把史冬鹏扔到跑步组，易建联扔到篮球组，这就是判别分析。

*****最后想说明的是，求助啊！！！这本书上小错误一大堆，但是有两个地方，我觉得可能是大错误，第一个是P115，最上面他说o=1.24，问题是我怎么算都是1.3907

第二个是p172，最下面，他说w（x）>0的时候，x属于G1，问题是我算出来怎么完全和书相反？？？G2才对啊

求达人相助！！找到答案麻烦致电我，感激不尽！！！但愿是我错了吧。。