《应用统计学》模拟试卷
开课学院:商学院专业:考试形式:闭卷,所需时间:120 分钟
考生姓名:学号:班级:任课教师:
注意:①请将答案写在答题纸上,写在试卷上无效。②本试卷计算题均精确到小数点后三位!
一、小麦试验问题(20分)
设有三个品种(用因素A表示)的小麦和两种不同的肥料(用因素B表示),将一定面积的地块分为6个均等的小区,每个小区随机地试验品种和肥料6种组合的一种,在面积相等的四块地上进行重复试验,其小麦的产量(公斤)如下表:
SPSS运算结果附表:
(1) Tests of Between-Subjects Effects
Dependent Variable: Y
a R Squared = 0.857 (Adjusted R Squared =0.817)
(2) Estimated Marginal Means
小麦产量Mean
Dependent Variable: Y
(3)Post Hoc Tests
A Homogeneous Subsets
Student-Newman-Keuls
Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean
Square(Error) = 2.444.
a Uses Harmonic Mean Sample Size = 8.000.
b Alpha = 0.05.
问题:
1、请填写附表(1)里面空白()处,并给出计算公式。
这里复习一下书上多因子方差分析表还有概率论,想看的就看,不看的可以跳过。
由于在多因子方差分析的时候,我们用的是卡方分布,在概率论书上有关于卡方分布的,如果有n 个随机变量,那么卡方分布在计算时就变成X方(n-1),这边的x是希腊字母,打不出来,你们都懂的。这n-1,就是我们所说的自由度
所以在多因子方差分析的时候,我们分析的是A因子r个水平对y值的影响,还有B因子s个水平对y的影响,SPSS书P43。所以根据卡方分布的计算,A因子的自由度就是dfA=r-1,dfB=s-1。那么dfe=(r-1)(s-1)。
本例中品种A有三个水平,即r=3,所以r-1=2。同理可以得出B和A*B的自由度。
我先做的第二大题,下一题中有关于F统计量的简单原理,这题我就直接写计算式,记住怎么算就行了。
F A*B=9.500/2.444=3.887。这里说明一下,精确的计算方法应该是(19/2)/(44/18)=3.886,SPSS用的是精确计算,我们用近似计算方法,应该也对。
2、根据附表(1)方差分析的显著性水平结果,按0.05检验水平,讨论各个因素的显著性。
这里我用两个方法给大家说明。
第一是P值检验,就是表1最后面的Sig,可以看到,A,B的P值都等于0.000,也就是说,在99.9%的可能性下,AB对Y产生高度显著性影响,我们称这种情况为,高度显著,
而A*B的P值为0.04,即在96%的情况下产生显著影响,而我们仅仅要求95%(1-0.05)的情况显著即可,所以我们称在这种处于95%到99%的情况下显著的,为一般显著。
第二种是F比检验,这里我们需要查表(书P285页,F分布表)。在a=0.01的情况下F(2,18)=6.01,而A的F比=38.932,F比>F(2,18),所以为高度显著,用**表示。
同理得B
对于A*B,F比为3.886,a=0.01的情况下,F(2.,18)=6.01,在a=0.05的情况下,F(2,18)=3.55,所以有3.55 3、根据附表(2),说明里面各项指标的意义。 我们称表2为估计边际平均值,这张表用于估计小麦产量的平均值在95%的可能性下在那个范围之内。Mean为平均值,std error为标准差,最后95%xxxxxxx表示在95%的情况下,平均值会在下限为11.663,上为13.004之间。 至于计算方法,用的是t分布,计算上下限就行了,在概率论的书上有,考试100%不会考计算,只 考理解,所以感兴趣有时间的人可以去看 4、 根据附表(3),说明A 因素下各个水平均值多重比较的结果。 品种1和品种2放在subset1中,它们的平均产量与subset2中的品种3有明显差异。但是对于subset1组内来说,均数比较检验的概率,Sig 值为0.127>0.05,即原假设无效,品种1和2不存在明显产量差异。 5、 找出最优生产条件,并说明理由。 这结论得出可以有很多方法,我仅仅说我自己的方法。 从表1的方差分析可得,总方差307.333=190.333+54+19+44,方差很大的部分都是由品种和肥料的差异构成的,即品种和肥料对产量影响很大,至于交互作用,可以忽略。所以我们根据表3选择平均产量最高的品种,品种3。根据原来的表格,我们可知同一种品种,肥料2明显能使得小麦增产,所以我们选择肥料2。 所以最优生产条件,品种3,肥料2 二、销售额问题(20分) 某公司某种商品在15个地区的销售额Y (万元)与各地区的人口1x (万人)及平均每户总收入2x (元)的有关数据如下表。 SPSS 运算结果附表: (1) Variables Entered/Removed(b) a All requested variables entered. b Dependent Variable: Y (2) Model Summary(b) a Predictors: (Constant), X2, X1 b Dependent Variable: Y (3) ANOVA(b) a Predictors: (Constant), X2, X1 b Dependent Variable: Y (4) Coefficients(a) a Dependent Variable: Y 问题: 1、附表(2)里面,指标R是什么指标,给出它的定义及其解释。P109 模型摘要表,R为相关系数,定义R=根号下(Sr/St),Sr为回归平方和,St为总平方和。根据St=Sr+Se 有:R愈大,代表残差越小,方程回归性越高。本例中计算式子为:根号下(53844.716/53901.6). 2、求出附表(3)里面的F值,给出计算公式,并按0.05检验水平,讨论回归方程的显著性。 构造F统计量,计算公式如下Vr=Sr/fr,Ve=Se/fe,F=Vr/Ve。其中S表示方差,f表示自由度。关于两者的下表,我在表格上用红笔标出来了。小r代表回归regression,e表示残差residual。 本例中,计算Vr=53844.716/2=26922.358,Ve=56.884/12=4.740,所以F=26922.358/4.740=5679.466 Sig=0.000,表示双尾检验P=0.000,方程回归性显著。 3、根据附表(4),给出回归方程的表达式,按0.05检验水平,讨论回归系数的显著性,并估计地区5的销售额的残差,给出计算公式。 解释一下表4的含义。表4为回归系数表,表头B下面的就是表示回归方程的参数,Constant表示的是常数项。所以有Y=3.453+0.496X1+0.008X2+e(e是希腊字幕kec,我打不出来,表示随机误差的意思)。 我们现在看最后一列,X1,X2系数对应的双尾检验P值=0.000,即至少在99.9%的情况下,得出的回归方程有效。而题目要求的是0.05检验水平,95%的情况下有效就行了。所以很明显,通过SPSS 计算出的两个回归系数,都有显著意义。 残差的计算公式在书上第108页,e=Y-Y(小帽子),意思很好理解的。下面是关于本题残差的计算。本题五区的观察值为Y=67,拟合值Y(小帽子)=3.453+0.496*86+0.008*2347=64.885,残差e=2.115。 三、经济发展阶段问题(20分) 为了研究近年来中国经济发展状况,搜集了1989年-2002年中国国内生产总值(GDP)指数(上年=100),列表如下(本表按不变价格计算): (1) 请将下列直径D(i , j)表中的括号填上,(无计算过程,不给分)。 直径矩阵 为了让大家更快复习,我把数学语言转换成直观语言来和大家说明。 所谓有序聚类法,举个体育课的例子,老师命令学生从左到右由低到高战成一排,假设这坨人的身高从左到右分别为163,166,168,171,175,178,179,180,181,184,188,189。现在要求在不改变他们站位顺序的情况下把他们分成三类,一个自然而然的想法就是,{163,166,168},{171,175,178,179},{180,181,184,188,189}。这就是有序聚类法。 我现在这么分类了,问题是鬼才知道这么分类好不好。所以我们引入一种检测方法:设上面人的身高从左到右分别为x1,x2。。。。。。x12。第一组的起始元素是x1,结束元素是x3,计算组内平方和,这个很好计算,为了简便书写,我们令组内平方和为d,由于第一个元素是1,最后一个元素是3,所以d(1,3)就表示第一组的组内平方和。 更一般的书写方法,就是d(i,j),书上p156有说明,那么何为最优聚类呢?就是所有组的组内平方和加起来为最小的时候,就是最优聚类。 现在我们用实例来学会计算方法: 如果我们把1990年单独分一类,那么很显然,d=0。但是如果我们把1990,和1991聚成一类,那么d(1,2)=(104.1-103.95)2+(103.8-103.95)2=0.045,其中103.95为组内所有元素的平均值。 所以不难计算出d(1,4)等其他数值。当数据很多的时候,我们可以用计算器的统计功能(mode=sd),来帮计算组内平方和。 (2) 请将下列最小目标函数e[P(i , j)]表中的括号填上,( 无计算过程,不给分)。 最小目标函数矩阵 我们由第一题的数据得到了各种d(i,j)的值,现在是把它们求和的时候了,为了偷懒,我们用一个方便表达式子e[P(n,k)]来表达。 比如e[P(2,2)]表示总共2个元素,把分为两类,那么显然是一个元素一组,组内平方和之和一定是鸭蛋。e[P(3,2)]表示总共3个元素,把它们分为两类,求出来的所有组内平方和之和。那么这就有文章可做了。我们可以选择1,2分一类,3单独分一类,也可以选择1单独分一类,2,3分一类。那么第一种选择,我们查表得总和是d(1,2)+d(3,3)=0.045+0=0.045。第二种分法总和是d(1,1)+d(2,3)=0+14.580=14.580. 那么我们该选哪一个呢?运筹学里面我们学过,要想最后的总和为最优,必然每一步都是最优解。那么我们要求所有组内平方和之和最小,显然每次分类,我们都要取最小,也就是e[P(3,2)]=min{0.045,14.580}=0.045,我们选择分类方法便是1,2分一类,3单独分一类。 对于题目中的要求e[(9,2)]=min{d(1,1)+d(2,9),d(1,2)+d(3,9),。。。。。。d(1,8)+d(9,9)}= {0+76.975,0.045+29.06,18.42+24.393。。。。。。。。},不难看出,选择d(1,2)+d(3,9)为最优解,e[(9,2)]=29.105 总共分两组,第二组(即最后一组)的起始元素为第三个,所以我们填入29.105(3) 第二个空,e[(7,3)]=min{e[P(2,2)]+d(3,7),e[P(3,2)]+d(4,7),……e[P(6,2)]+d(7,7)}=min{0+17.54,0.045+7.740,…….14.733+0}=7.785,我们从计算式中不难看出,最优分配,是将前面三个元素分成两组,后面第四到第七个元素分成第三组,由于第三组(最后一组)是从元素4开始起分的,所以我们应当填入的是7.785(4)。 所以e[P(7,3)]的最优聚类法是,1,2分一类,3分一类,4到7分一类,最小组内平方和之和为7.785 (续) 最小目标函数矩阵 (3) 试给出k=5的分类情况。 前面(2)已经给出了详细的选取最优的过程,现在我们来从表中找到最优组。 首先在组内找到e[P(15,5)]=4.966(9),所以第一步就可得,分五组,最后一组为9-15。 我们再看剩下1-8个元素的最优分配,我们找到e[P(8,4)]= 1.737(7),即8组分四组,最优分配时,最后一组 为7-8。 以此类推,我们得到6个元素分3组,最后组,为4-6。 。。。。 结论,最优分配法为1-2,3,4-6,7-8,9-15 四、学生成绩分析问题(20分) 记录10个学生的数学、物理、化学、语文、历史、英语的成绩,分别用123456,,,,,x x x x x x 表示,得数据见下表所示。对其做主成分分析。 SPSS 运算结果附表: (1) Communalities Extraction Method: Principal Component Analysis. 这张表表示因子分析后,提取2个公因子(后面表有说明是两个比较合适),原来变量和这两个公因子的变量共同度,即这两个公因子数值发生变化,其实代表了原来x1~x6发生了多少变化,但是我们也看到,压缩成两个公因子后,原来6个因子中,x3的对应变化程度较少,即提取公因子后,x3流失的信息较多,其他的变量还算凑合。 (2)Total Variance Explained Extraction Method: Principal Component Analysis. 解释一下为什么提出两个公因子,而不是3个,4个。从原始的方差贡献率我们可以得知,分数的变化,有50.820%是由数学引起的,其次是物理,占了27.054%,加起来共有77.874%。其余的单个因子方差贡献率都较小,所以我们压缩原来6个因子,变成两个。 (3)Component Matrix(a) Extraction Method: Principal Component Analysis. a 2 components extracted. 这是因子载荷矩阵,第一个因子主要受x2,x4,x5,x6影响较大,第二个因子都差不多,这样的因子分析结果不好解释,所以我们要做旋转,于是就有了表4 (4)Rotated Component Matrix(a) Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a Rotation converged in 3 iterations. 进过旋转之后,答案变得特别明显,因子1主要受原来因子x4,x5,x6影响较大,因子2主要收x1,x2,x3影响较大。结合x1~到x6的实际意义,我们把因子1命名为文科成绩,因子2为理科成绩。(5)Component Transformation Matrix Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. 因子旋转公式,了解就行了 Component Score Coefficient Matrix Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Component Scores. 旋转后的因子载荷矩阵 问题: 特征值为3.049和1.623,贡献率分别为50.820%和27.054% 2、根据附表(3)和(4),比较旋转前和旋转后的因子负荷矩阵,对这两个旋转后的因子的意义作一个合理的解释,尝试给两个因子命名。 表下面的说明即答案 3、请指出这里的因子分析所采用的方法。 这题我不知道他问什么,所以我随便答的 巴特利特球体检验,可以通过p值来测算是否适合因子分析 因子旋转法 4、根据因子得分系数矩阵即附表(6),请写出所提取的两个因子的数学表达式。 因子f1=0.062x1+-0.092x2+。。。。。0.352x6 同理得f2 五、简答题(20分) 1、简述有交互作用的正交试验设计的表头设计原则。 自己动手,丰衣足食,书p69 2、试从定义上讨论判别分析和聚类分析有什么不同 我们已知刘翔和姚明,所以我们把设两个组,一个是跑步组,刘翔入选,还有一个是篮球组,姚明入选。这就是聚类分析。 判别分析就是给你一个史冬鹏,再给你个易建联,你判断前者跑步,后者打球。你把史冬鹏扔到跑步组,易建联扔到篮球组,这就是判别分析。 *****最后想说明的是,求助啊!!!这本书上小错误一大堆,但是有两个地方,我觉得可能是大错误,第一个是P115,最上面他说o=1.24,问题是我怎么算都是1.3907 第二个是p172,最下面,他说w(x)>0的时候,x属于G1,问题是我算出来怎么完全和书相反???G2才对啊 求达人相助!!找到答案麻烦致电我,感激不尽!!!但愿是我错了吧。。