当前位置：文档库 › 数理统计B班_大作业

数理统计B班_大作业

逐步回归法建立纳斯达克股市指数回归模型

数理统计 B班

学号：SY1003132

姓名：刘翔宇

专业：控制科学与工程

学院：自动化科学与电气工程学院

一问题描述

为了研究纳斯达克股市的变化规律，建立回归方程，分析影响股票价格趋势变动的因素。这里我们选了3个影响股票价格指数的经济变量：x1是成交额(万$)，x2是国际贸易金额（100万$），x3是美元汇率。本例选择成交额x1来反映市场状况。Y 为股票指数。本例采集了以上变量1996---2007年12年的数据资料，如表1所示。

二异方差问题分析

1.异方差模型

经典线性回归模型可以表示为u

x b x b x b b y

k k +++++= 33221，假设有n 组观察值

),,2,1(),,,,,(32n i x x x y ik i i i =，则原模型方程可表示为：i ik k i i i u x b x b x b b y +++++= 33221。

在经典线性回归模型中，假设随机误差项u 是一个随机变量，且服从数学期望为零，方差为一常数的正态分布，即2~(0,)

N σ

，这一假设称为随机误差项u 的同方差性假设。另外

还假设不同观察值的随机误差项之间是不相关的，而且随机误差项与x 项不趋于共同变化。但在实际的经济问题中，上述假设不一定满足。比如，当自变量x 变化较大时（如在一些横

截面数据中），u 的方差可能随x 的变化而变化；而当i

u 和1

i u

+之间存在一定的顺序关系时（如

在时间序列中），i

u 可能与j

u 并不独立（j ≠i ）。

当同方差（homosce dasticity ）或等方差（equal variance ）性假定不满足，也就是说，随机误差项i u 的方差不等于一个常数，即）常数（

）（）（n i u E u Var

i i ,,2,122

=≠==σ

则称随机

误差项u 具有异方差（heteroscedasticity ）或非同方差（unequal variance ）性。在模型（1-3）中，除随机误差项具有异方差性外，其它基本假设都能满足，则称这种模型为异方差的线性回归模型，简称异方差模型。 2 异方差性的后果

变量的显著性检验失去意义，在多元线性回归模型的显著性检验中,构造了t 统计量,在该统计量中包含有随机误差项共同的方差2u σ,并且有t 统计量服从自由度为( n - k - 1) 的t 分布. 如果出现了异方差性, t 检验就失去意义. 采用其它检验也是如此.

模型的预测失效，一方面,由于上述后果,使得模型不具有良好的统计性质;另一方面,在预测值的置信区间中也包含有随机误差项共同的方差2u σ，所以当模型出现异方差性时,它的预测功能失效.

3异方差性检验 (1)残差图分析法

残差图分析法是一种直观、方便的分析法，它以残差e 为纵坐标，以任何其他的量为横坐标画散点图。常用的横坐标有有三种选择：以拟合值为横坐标；以Xi 为横坐标，i=1,2………p;以观察时间或序号为横坐标。一般情况下，当回归模型满足所有假设时，残差图上的n 个点的散布会应是随机的，无任何规律的。如果回归模型存在异方差，残差图上的点的散步会呈现相应的趋势。

（2）等级相关系数法

等级相关系数检验法又称斯皮尔曼（spearman ）

检验，是一种应用较广泛的方法。这种检验法既可用于大样本，又可用于小样本。（3）格莱斯尔（Glejser ）检验

格莱斯尔检验的中心思想是随机项的估计值e 与自变量是有关系的，是自变量的函数，它随J 值的增减而变化。进行格莱斯尔检验主要有两个步骤：

1）以所有解释变量Xi 来解释被解释量y ，估计其参数，计算出随机项的估计值e 。 2）以e 为被解释变量，以某个解释变量Xi 为解释变量，建立如下方程：

1||()o i e f ααχε

=++

以Xi 的不同幂次的形式f(Xi),分别估计两个参数1,o αα，选择最佳的拟合形式，并对它们的显著性进行检验。如果它们显著性不为0，则认为异方差性存在，因为随机项与Xi 存在相关性。否则就具有同方差性。

4 异方差性问题的处理方法

当研究的问题存在异方差性时，就违背了线性回归模型的假设。此时，就不能用普通最小二乘法进行参数估计，必须寻求适当的补救方法，对原来的模型进行变换，使变换后的模型满足同方差性假设，然后进行模型参数的估计，就可到理想的回归模型。消除异方差性的方法通常有加权最小二乘法（Weighted Least Square ）、BOX-COX 变换法、方差稳定性变换法。在SPSS 软件中提供了加权最小二乘法。

三多重共线性分析

在多元线性回归模型的基本假设中，假定解释变量之间不存在密切的线性关系。如果存在，则称它们存在多重共线性（Multi-Collinearity ）。

1多重共线性带来的问题

当回归模型存在多重共线性时，有rk(x)

||0,()

X X

X -=不存在。这样参数

向量的^

()

O L S E

X X Y

β-=也不存在,1

||0,()

X X

X -=对角线元素较大，所以参数向量的

协方差也很大。这样虽然用OLSE 还能得到参数向量的无偏估计，不能正确判断解释变量的影响程度，使估计精度降低，并且估计结果的波动性很大，这严重影响了估计量的经济意义解释。

2 多重共线性的诊断本文介绍三种诊断方法（1）判定系数法

设有p 个自变量的回归模型为：y=f(x1,x2,……..,xp)，为了诊断多重共线性，使模型中每一个解释变量分别为其余解释变量作为解释变量构造p 个回归方程：

X1=f(X2,X3,……Xp); X2=f(X1,X2,…Xp);

……

Xj=f(X1,X2,….Xj-1,Xj+1,…Xp);

……

Xp=f(X1,X1,…..Xp)

对上述p 个方程进行参数估计，并计算样本决定系数。若这些决定系数中的最大者接近1，比如说2j R ，则说明该变量Xj 可以用其他解释变量线性表示，则存在多重共线性。并且还同时找出了多重共线性的表达式。这种方法比较适合于解释变量少的模型。这种方法可以在SPSS 软件上完成。

（2）条件数

12/K λλ=被称为方差T

的条件数（Condition Number ）.利用条件数可以度量T X X

的特征根散布程度，可以用它来判断多重共线性是否存在以及多重共线性的严重程度。通常认为01000,则认为存在严重的多重共线性。在SPSS 软件中没有该方法。

（3）方差扩大因子设1

()(),T

ij j C

c X

X R -==为

Xj 对其余p-1个变量的复相关系数，则

1/(1),1,2,...,,ij j c R j p =-=被称为方差扩大因子（Variance inflation Factor,简记为VIF ）。

如果记~

1,2,(........),v a r(),O L S E p j jj ij j

c c β

ββββσβ

==则即与的方差仅差一个因子，~v a r()

是

由两个因子2

σ和jj c 构成，且jj c 与OLSE ~

j β的方差仅差一个因子。因为2j R 度量了自变量Xj 与其余p-1个自变量的线性依赖度，这种相关程度越强，说明自变量之间的多重共线性越严重，2j R 就越接近1，VIFj 也就越大。反之则相反。由此可见VIF 的大小反映了自变量之间是否存在多重共线性，由此可由它来度量多重共线性的严重程度。经验表明，当VIF>10时，就说明自变量间有严重的多重共线性，且这种共线性可能会过度地影响最小二乘估计值。

以上三种方法都是诊断共线性是否存在的专门方法，相对这几种方法，还有一些在建模过程中能顺便主观判断的非正规方法。

3消除多重共线性的方法

当通过某种检验，发现解释变量中存在严重的多重共线性时，就要设法消除这种共线性。消除这种共线性的方法很多，常用的有下面几种。

（1）剔除一些不重要的解释变量。通常在经济问题的建模中，由于人们认识水平的局限，容易考虑更多的自变量。当涉及自变量较多时，大多数回归方程都受到多重共线性的影响。这时，最常用的办法就是舍去一些与y 相关程度低、而与其他自变量高度相关的变量，

然后重新建立回归方程。

（2）最大样本容量。建立一个实际经济问题的回归模型，如果所收集的样本数据太少，也容易产生多重共线性。这时可以通过增加样本容量来减弱多重共线性的程度。

（3）改变变量定义形式。对于样本数据是时间序列资料时，回归方程存在的多重共线性，我们可以重新定义变量的形式，差分法就是改变变量定义形式的一种方法。

（4）利用已知信息。即利用一些先验信息组合某些变量。例如模型中的两个参数b1和b2满足关系：b1=5b2，这时可将这个等式代入到原模型中，把模型的变量综合到一起，再利用最小二乘法进行估计。

（5）回归系数的有偏估计。这种方法提出以引人偏误为代价来提高估计量稳定性的方差，如岭回法、主成分法、偏最小二乘法等。

（6）将截面数据与时序相结合。

（7）采用新的样本数据。在数据中重新抽取一个样本，有可能会减弱其中变量的多重共线性，因为数据样本的变化，往往会对方程的回归系数及其标准误差产生影响。

这些消除多重共线性的方法都可以在SPSS软件中间接完成。

四数据分析与模型建立

1 对变量引入/剔除方式信息表的分析

通过逐步回归产生的三种模型1、2、3，模型1的自变量只有X3，模型2的自变量有X3和X1，模型3的自变量有X2、X3和X1。表2显示变量的引入和剔除，以及引入或剔除的标准。逐步回归方法最先引入变量X3，建立模型1。接着引入变量X1，没有变量被剔除，建立模型2。最后引入X2，没有变量被剔除，建立模型3。

2 对模型汇总表的分析

表3显示了各模型的拟合情况。模型3的自相关系数（R）为0.999，判断系数为0.997。从统计变量的改变看，模型1的改变值绝对大于其他两个模型，这说明与该模型相关的自变量X3是因变量很好的预测。

表4 显示各模型的方差分析结果。模型3的P值为0.00<0.05，拒绝原假设，认为因变量与其他三变量X2、X3和X1之间有线性关系。

4 对模型回归系数表的分析

表5显示各模型的偏回归系数、标准化的偏回归系数及其对应的检验值；还显示了模型中的各变量与因变量的零阶相关、偏相关和部分相关；还有多重共线性统计量。根据模型3可以建立多元线性回归方程为：^

4.316X 7.223X

0.041X

1507.7

=-+-，这里X3的系数为

负，显然不合理，原因可能是由于自变量之间存在多重共线性。 5对被剔除的变量信息表的分析

b. 模型中的预测变量: (常量), x3成交额, x1美元汇率。

c. 模型中的预测变量: (常量), x3成交额, x1美元汇率, x2国际贸易金额。

d. 因变量: y股票指数

表6显示各模型变量的有关统计量。对模型3来说，它的偏回归系数的P值都大于0.05，接收原假设，不能把这些变量加入方程中

6 对多重共线性的诊断及排除

表7显示多重共线性的诊断表，它包括3项诊断值：特征值、条件数和方差比率。特征值表明在自变量中存在多少截然不同的维数，当几个特征值都接近0是，变量是高度相关的，这样的数据微小改变将导致系数估计值的改变较大。条件数是最大特征值对每一个连续特征值的比率的平方根，若条件数大于15则表明可能存在多重共线问题，若大于30则表明存在严重的多重共线性问题方差比率是能够被每一个主成分解释的估计值方差的比率，这个主成分是与其对应的特征值相关的。当与高条件数相关的成分充分贡献于两个或者更多的变量方差时就产生了多重共线性。表7中变量X2的条件数大于30，说明回归方程存在多重共线性。

6.1 多重共线性的诊断与处理

(一)运用方差扩大因子法。如表5所示,x1、x2的方差扩大因子VIF1=67.916,VIF2=71.164。远超过10,说明回归方程存在严的多重共线性。

(二)剔除一些解释变量。X2的方差扩大因子最大,剔除x2,用SPSS诊断，对数据进行分析可得下列几个表：

R=0.997,决定系数R2=0.997,F=8754,回归系数的显著性检验P值均小于0.05,故可认为方程具较强的拟合性,x1、x3整体上与y高度相关。

7对残差统计表的分析

表10是残差统计结果。主要显示预测值、标准化预测值、残差和标准化残差等统计量的最大值、最小值、均值和标准差。可见标准化残差的最大绝对值为1.542

8迪欧残差分布直方图的分析

图1 回归标准化残差

图1是标准化残差的直方图。正态曲线被加在直方图上，判断标准化残差是否呈正态分布。从图可以看见，它服从近似正态分布。

9对残点图的分析

图2散点图

图2是散点图。选用DEPENDENT（X纵轴变量）与*ZPRED（Y横轴变量）作图，绘制回归残差

项e 的图形，从图中可以看出变量间不存在自相关性。

9.1异方差性消除

若模型存在异方差性，则可以进行如下操作，依次点击Analyze →Regression →Weight —Estima-tion,将人均食品消费支出选为因变量,人均纯收入选为自变量,人均纯收入选为WeightVariable, Power 取值范围从-2到2,每次变化0.5,即可得到结果。

五总结

通过以上分析，可得回归方程为：^

2.328X 0.039X

936.587

=+-

代表纳斯达克指数，1X 表示美元汇率（%）,

代表成交额（100万$）。

从上述回归方程看，影响纳斯达克指数的主要因素为成交额和美元汇率。成交额作为反映市场因素的主要指标对股票价格有主要影响。纳斯达克股市上，成交额每增长100万美元，指数上涨0.039个百分点。美元汇率反映国际金融情况的指标，它代表金融环境对股票价格的影响，美元汇率没增长一个百分点，指数上涨2.328个百分点。

应用数理统计大作业1——逐步回归法分析终教学提纲

应用数理统计大作业1——逐步回归法分析终

应用数理统计多元线性回归分析（第一次作业）学院：机械工程及自动化学院姓名：学号： 2014年12月

逐步回归法在AMHS物流仿真结果中的应用摘要：本文针对自动化物料搬运系统 (Automatic Material Handling System，AMHS)的仿真结果，根据逐步回归法，使用软件IBM SPSS Statistics 20，对仿真数据进行分析处理，得到多元线性回归方程，建立了工件年产量箱数与EMS 数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型，并对影响年产量箱数的显著性因素进行了分析，介绍了基本假设检验的情况。关键词：逐步回归；残差；SPSS；AMHS；物流仿真

目录 1、引言 (1) 2、逐步回归法原理 (4) 3、模型建立 (6) 3.1确定自变量和因变量 (6) 3.2分析数据准备 (6) 3.3逐步回归分析 (7) 4、结果输出及分析 (9) 4.1输入／移去的变量 (9) 4.2模型汇总 (10) 4.3方差分析 (10) 4.4回归系数 (11) 4.5已排除的变量 (12) 4.6残差统计量 (13) 4.7残差分布直方图和观测量累计概率P-P图 (14) 5、异常情况说明 (15) 5.1异方差检验 (15) 5.2残差的独立性检验 (17) 5.3多重共线性检验 (17) 6、结论 (18) 参考文献 (20)

1、引言回归被用于研究可以测量的变量之间的关系，线性回归则被用于研究一类特殊的关系，即可用直线或多维的直线描述的关系。这一技术被用于几乎所有的研究领域，包括社会科学、物理、生物、科技、经济和人文科学。逐步回归是在剔除自变量间相互作用、相互影响的前提下，计算各个自变量x与因变量y之间的相关性，并在此基础上建立对因变量y有最大影响的变量子集的回归方程。 SPSS(Statistical Package for the Social Science社会科学统计软件包)是世界著名的统计软件之一，目前SPSS公司已将它的英文名称更改为Statistical Product and Service Solution，意为“统计产品与服务解决方案”。SPSS软件不仅具有包括数据管理、统计分析、图表分析、输出管理等在内的基本统计功能，而且用它处理正交试验设计中的数据程序简单，分析结果明了。基于以上优点，SPSS已经广泛应用于自然科学、社会科学中，其中涉及的领域包括工程技术、应用数学、经济学、商业、金融等等。本文研究内容主要来源于“庆安集团基于物联网技术的航空柔性精益制造系统”，在庆安集团新建的320厂房建立自动化物料搬运系统（AMHS），使用生产仿真软件EM-Plant对该系统建模并仿真，设计实验因子及各水平如表1-1，则共有3*4*6=72组实验结果，如表所示。为方便描述，将各因子定义为：X1表示AGC物料交换服务水平，X2表示周转箱交换周期，X3表示EMS数量，Y表示因变量年产量箱数。本文目的就是建立年产量箱数与AGC物料交换服务水平、周转箱交换周期和EMS数量之间的关系。

应用数理统计课后习题参考答案

习题五 1 试检验不同日期生产的钢锭的平均重量有无显著差异？（=0.05）解根据问题，因素A 表示日期，试验指标为钢锭重量，水平为5. 假设样本观测值(1,2,3,4)ij y j =来源于正态总体2 ~(,),1,2,...,5i i Y N i μσ= . 检验的问题：01251:,:i H H μμμμ===不全相等 . 计算结果：表5.1 单因素方差分析表 ‘*’ . 查表0.95(4,15) 3.06F =，因为0.953.9496(4,15)F F =>，或p = 0.02199<0.05，所以拒绝0H ，认为不同日期生产的钢锭的平均重量有显著差异. 2 考察四种不同催化剂对某一化工产品的得率的影响，在四种不同催化剂下分别做试验试检验在四种不同催化剂下平均得率有无显著差异？（=0.05）解根据问题，设因素A 表示催化剂，试验指标为化工产品的得率，水平为4 . 假设样本观测值(1,2,...,)ij i y j n =来源于正态总体2 ~(,),1,2,...,5i i Y N i μσ= .其中

样本容量不等，i n 分别取值为6，5，3，4 . 检验的问题：012341:,:i H H μμμμμ===不全相等 . 计算结果：表5.2 单因素方差分析表查表0.95(3,14) 3.34F =，因为0.952.4264(3,14)F F =<，或p = 0.1089 > 0.05，所以接受0H ，认为在四种不同催化剂下平均得率无显著差异 . 3 试验某种钢的冲击值（kg ×m/cm2），影响该指标的因素有两个，一是含铜量A ，试检验含铜量和试验温度是否会对钢的冲击值产生显著差异？（=0.05）解根据问题，这是一个双因素无重复试验的问题，不考虑交互作用. 设因素,A B 分别表示为含铜量和温度，试验指标为钢的冲击力，水平为12. 假设样本观测值(1,2,3,1,2,3,4)ij y i j ==来源于正态总体2 ~(,),1,2,3,ij ij Y N i μσ= 1,2,3,4j = .记i α?为对应于i A 的主效应；记j β?为对应于j B 的主效应；检验的问题：（1）10:i H α?全部等于零，11 :i H α?不全等于零；（2）20:j H β?全部等于零，21:j H β?不全等于零；计算结果：表5.3 双因素无重复试验的方差分析表查表0.95(2,6) 5.143F =，0.95(3,6) 4.757F =，显然计算值,A B F F 分别大于查表值，或p = 0.0005，0.0009 均显著小于0.05，所以拒绝1020,H H ，认为含铜量和试验温度都会对钢的冲击值产生显著影响作用. 4 下面记录了三位操作工分别在四台不同的机器上操作三天的日产量：

《应用数理统计》期末考试-2011

《应用数理统计》期末考试试题（2011-11-26上午8：30—10：30）学院：学号：姓名：注意：所有题目答案均做在答题纸上，该试卷最后随答题纸一同上交，否则成绩无效。 1、（20分）设总体X 服从正态分布(0,1)N ，12,X X 为来自总体X 的简单样本，设112212; Y X X Y X X =+=-。（1）求二维随机变量12(,)Y Y 的联合密度()21,y y f ；（2）分别求12,Y Y 的边缘密度函数()()2121,y f y f Y Y ；（3）12,Y Y 是否独立？说明根据。（4）叙述2χ分布的构造性定义。能否通过取适当的常数c ，使得2212()c Y Y +服从2χ分布？若可以，求出c ，并写出所服从的2χ分布的自由度。 2、（20分）设12,,,n X X X 是来自正态总体() 2~0,X N σ的简单样本，记 22221 21111??();1n n i i i i X X X n n σσ===-=-∑∑，其中11n i i X X n ==∑，（1）证明：21?σ是2 σ的渐近有效估计量；（2）证明：22?σ是2 σ的有效估计量；（3）试分别以21?σ，22?σ为基础构造2 σ的两种1α-置信区间。你认为你得到的哪个估计区间会更好一些？为什么？ 3、（20分）（1）简述假设检验的一般步骤；（2）某厂生产一批产品，质量检查规定：若次品率0.05p ≤，则这批产品可以出厂，否则不能出厂。现从这批产品中抽查400件产品，发现有30件是次品，问：在显著性水平0.05α=下，这批产品能否出厂？若取显著性水平0.02α=，会得出什么结论？α是越小越好吗？对你的答案说明理由。要求：将此问题转化成统计问题，利用所学知识给出合理的、令人信服的推断，推断过程的每一步要给出理由或公式。分位点定义如下：若随机变量W ，对任意的()1,0∈α，有()α=≤x W P ，称x 为W 的α分位点，记作αx 。

应用数理统计大作业1——逐步回归法分析终

应用数理统计多元线性回归分析（第一次作业）学院：机械工程及自动化学院姓名：学号： 2014年12月

逐步回归法在AMHS物流仿真结果中的应用摘要：本文针对自动化物料搬运系统(Automatic Material Handling System，AMHS)的仿真结果，根据逐步回归法，使用软件IBM SPSS Statistics 20，对仿真数据进行分析处理，得到多元线性回归方程，建立了工件年产量箱数与EMS数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型，并对影响年产量箱数的显著性因素进行了分析，介绍了基本假设检验的情况。关键词：逐步回归；残差；SPSS；AMHS；物流仿真

目录 1、引言 (1) 2、逐步回归法原理 (4) 3、模型建立 (5) 3.1确定自变量和因变量 (5) 3.2分析数据准备 (6) 3.3逐步回归分析 (7) 4、结果输出及分析 (8) 4.1输入／移去的变量 (8) 4.2模型汇总 (9) 4.3方差分析 (9) 4.4回归系数 (10) 4.5已排除的变量 (11) 4.6残差统计量 (11) 4.7残差分布直方图和观测量累计概率P-P图 (12) 5、异常情况说明 (13) 5.1异方差检验 (13) 5.2残差的独立性检验 (14) 5.3多重共线性检验 (15) 6、结论 (15) 参考文献 (17)

应用数理统计作业题及参考答案(第二章)(2)

第二章参数估计（续） P68 2.13 设总体X 服从几何分布：{}()1 1k P X k p p -==-，12k = ，，，01p <<，证明样本均值1 1 n i i X X n == ∑是()E X 的相合、无偏和有效估计量。证明：总体X 服从几何分布， ∴()1= E X p ，()2 1-= p D X p . 1 () ()1 11 11 11==????===??== ? ????? ∑ ∑ n n i i i i E X E X E X n E X n n n p p . ∴样本均值11n i i X X n == ∑ 是()E X 的无偏估计量。 2 () 2222 1 11 1111==--???? ===??= ? ?????∑ ∑n n i i i i p p D X D X D X n n n n p np . ()()()()11 11 ln ln 1ln 1ln 1-??=-=+--??；X f X p p p p X p . () 111ln 111111f X p X X p p p p p ?--= - =+?--；. () () 2 11 2 2 2 ln 11 1f X p X p p p ?-=- + ?-；. ()()()()21112 2 2 22ln 11 1111f X p X X I p E E E p p p p p ???? ?? ?--=-=--+=+???????--?????? ? ?? ? ； () ()() ()12 2 2 2 2 211 11 111111111??-= + -= + ?-=+? ?---?? p E X p p p p p p p p ()()() () 2 2 2 111 1 111-+= + = = ---p p p p p p p p p .

北航数理统计回归分析大作业

应用数理统计第一次大作业学号：姓名：班级： 2013年12月

国家财政收入的多元线性回归模型摘要本文以多元线性回归为出发点，选取我国自1990至2008年连续19年的财政收入为因变量，初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选，最终确定了能反映财政收入与各因素之间关系的“最优”回归方程： 46?578.4790.1990.733y x x =++ 从而得出了结论，最后我们用2009年的数据进行了验证，得出的结果在误差范围内，表明这个模型可以正确反映影响财政收入的各因素的情况。关键词：多元线性回归，逐步回归法，财政收入，SPSS 0符号说明变量符号财政收入 Y 工业 X 1 农业 X 2 受灾面积 X 3 建筑业 X 4 人口 X 5 商品销售额 X 6

进出口总额X7

1 引言中国作为世界第一大发展中国家，要实现中华民族的伟大复兴，必须把发展放在第一位。近年来，随着国家经济水平的飞速进步，人民生活水平日益提高，综合国力日渐强大。经济上的飞速发展并带动了国家财政收入的飞速增加，国家财政的状况对整个社会的发展影响巨大。政府有了强有力的财政保证才能够对全局进行把握和调控，对于整个国家和社会的健康快速发展有着重要的意义。所以对国家财政的收入状况进行研究是十分必要的。国家财政收入的增长，宏观上必然与整个国家的经济有着必然的关系，但是具体到各个方面的影响因素又有着十分复杂的相关原因。为了研究影响国家财政收入的因素，我们就很有必要对其财政收入和影响财政收入的因素作必要的认识，如果能对他们之间的关系作一下回归，并利用我们所知道的数据建立起回归模型这对我们很有作用。而影响财政收入的因素有很多，如人口状况、引进的外资总额，第一产业的发展情况，第二产业的发展情况，第三产业的发展情况等等。本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据，包括工业，农业，建筑业，批发和零售贸易餐饮业，人口总数等。文中主要应用逐步回归的统计方法，对数据进行分析处理，最终得出能够反映各个因素对财政收入影响的最“优”模型。 2解决问题的方法和计算结果 2.1 样本数据的选取与整理本文在进行统计时，查阅《中国统计年鉴2010》中收录的1990年至2009年连续20年的全国财政收入为因变量，考虑一些与能源消耗关系密切并且直观上

应用数理统计试题库

一填空题 1 设 6 21,,,X X X 是总体 ) 1,0(~N X 的一个样本， 26542321)()(X X X X X X Y +++++=。当常数C = 1/3 时，CY 服从2χ分布。 2 设统计量)(~n t X ，则~2X F(1,n) ， ~1 2 X F(n,1) 。 3 设n X X X ,,,21 是总体),(~2 σu N X 的一个样本，当常数C = 1/2（n-1）时， ∑-=+-=1 1 212 )(n i i i X X C S 为2σ的无偏估计。 4 设)),0(~(2σεε βαN x y ++=，),,2,1)(,(n i y x i i =为观测数据。对于固定的0x ，则0x βα+~ () 2 0201,x x N x n Lxx αβσ?? ? ?- ???++ ??? ?????? ? 。 5．设总体X 服从参数为λ的泊松分布，，2，2，，为样本，则λ的矩估计值为?λ ＝。 6．设总体2 12~(,),,,...,n X N X X X μσ为样本，μ、σ2 未知，则σ2的置信度为1－α的置信区间为 ()()()()22 2212211,11n S n S n n ααχχ-??--????--???? 。 7．设X 服从二维正态),(2∑μN 分布，其中??? ? ??=∑??? ? ??=8221, 10μ 令Y ＝X Y Y ???? ??=???? ??202121，则Y 的分布为 ()12,02T N A A A A μ??= ??? ∑ 。 8．某试验的极差分析结果如下表（设指标越大越好）：表2 极差分析数据表

应用数理统计大作业1——逐步回归法分析终

应用数理统计大作业1——逐步回归法分析终 -标准化文件发布号：（9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

应用数理统计多元线性回归分析（第一次作业）学院：机械工程及自动化学院姓名：学号： 2014年12月

逐步回归法在AMHS物流仿真结果中的应用摘要：本文针对自动化物料搬运系统 (Automatic Material Handling System，AMHS)的仿真结果，根据逐步回归法，使用软件IBM SPSS Statistics 20，对仿真数据进行分析处理，得到多元线性回归方程，建立了工件年产量箱数与EMS数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型，并对影响年产量箱数的显著性因素进行了分析，介绍了基本假设检验的情况。关键词：逐步回归；残差；SPSS；AMHS；物流仿真

重庆大学研究生数理统计大作业

NBA球员科比单场总得分与上场时间的线性回归分析摘要篮球运动中，球员的上场时间与球员的场上得分的数学关系将影响到教练对每位球员上场时间的把握，若能得到某位球员的上场时间与场上得分的数据关系，将能更好的把握该名球员的场上时间分配。本次作业将针对现役NBA球员中影响力最大的球员科比布莱恩特进行研究，对其2012-2013年赛季常规赛的每场得分与出场时间进行线性回归，得到得分与出场时间的一元线性回归直线，并对显著性进行评估和进行区间预测。正文一、问题描述随着2002年姚明加入NBA，越来越多的中国人开始关注篮球这一项体育运动，并使得篮球运动大范围的普及开来，尤其是青年学生。本着学以致用的原则，希望将所学理论知识与现实生活与个人兴趣相结合，若能通过建立相应的数理统计模型来做相应的分析，并且从另外一个角度解析篮球，并用以指导篮球这一项运动的更好发展，这也将是一项不同寻常的探索。篮球运动中，得分是取胜的决定因素，若要赢得比赛，必须将得分超出对手，而影响一位球员的得分的因素是多样的，例如：情绪，状态，体力，伤病，上场时间，防守队员等诸多因素，而上场时间作为最直接最关键的因素，其对球员总得分的影响方式有着重要的研究意义。倘若知道了其分布规律，则可从数量上掌握得分与上场时间复杂关系的大趋势，就可以利用这种趋势研究球员效率最优化与上场时间的控制问题。因此，本文针对湖人当家球星科比布莱恩特在2012-2013年赛季常规赛的每场得分与上场时间进行线性回归分析，并对显著性进行评估，以巩固所学知识，并发现自己的不足。二、数据描述抽出科比布莱恩特2012-2013年常规赛所有82场的数据记录（原始数据见附录），剔除掉其中没有上场的部分数据，得到有参考实用价值的数据如表2.1所示：

2018年数理统计大作业题目和答案--0348

1、设总体X 服从正态分布),(2 σμN ，其中μ已知，2 σ 未知，n X X X ,,,2 1 为其样本，2≥n ,则下列说法中正确的是（）。（A ）∑=-n i i X n 1 2 2 ) (μσ是统计量（B ）∑=n i i X n 1 22 σ是统计量（C ）∑=--n i i X n 1 2 2 ) (1μσ是统计量（D ）∑=n i i X n 1 2μ 是统计量 2、设两独立随机变量)1,0(~N X ，) 9(~2 χY ，则Y X 3服从（）。 )(A ) 1,0(N )(B ) 3(t )(C ) 9(t )(D ) 9,1(F 3、设两独立随机变量)1,0(~N X ，2 ~(16) Y χ，则Y 服从（）。 )(A )1,0(N )(B (4) t )(C (16) t )(D (1,4) F 4、设n X X ,,1 是来自总体X 的样本，且μ=EX ，则下列是μ的无偏估计的是（）. ) (A ∑-=-1 1 1 1 n i i X n )(B ∑=-n i i X n 1 11 )(C ∑=n i i X n 2 1 )(D ∑-=1 1 1n i i X n 5、设4 3 2 1 ,,,X X X X 是总体2 (0,)N σ的样本，2 σ未知，则下列随机变量是统计量的是（）.

() (1) D t n- 10、设 1,, n X X ???为来自正态总体2 (,) Nμσ的一个样本，μ，2σ未知。则2σ的置信度为1α-的区间估计的枢轴量为（）。 (A) ()2 1 2 n i i Xμ σ = - ∑ (B) ()2 1 2 n i i Xμ σ = - ∑ (C) () ∑ = - n i i X X 1 2 2 1 σ (D) ()2 1 2 n i i X X σ = -∑ 11、在假设检验中，下列说法正确的是（）。 (A) 如果原假设是正确的，但作出的决策是接受备择假设，则犯了第一类错误； (B) 如果备择假设是正确的，但作出的决策是拒绝备择假设，则犯了第一类错误； (C) 第一类错误和第二类错误同时都要犯； (D) 如果原假设是错误的，但作出的决策是接受备择假设，则犯了第二类错误。 12、对总体2 ~(,) X Nμσ的均值μ和作区间估计，得到置信度为95%的置信区间，意义是指这个区间（）。 (A)平均含总体95%的值(B)平均含样本95%的值

应用数理统计(武汉大学研究生)2009-2010试题

武汉大学2009－2010年度上学期研究生公共课《应用数理统计》期末考试试题（每题25分，共计100分）（请将答案写在答题纸上） 1设X 服从),0(θ上的均匀分布，其密度函数为 ?????<<=其它0 01)(θθx x f n X X X ,,,21" 为样本，（1）求θ的矩估计量1?θ和最大似然估计量2 ?θ；（2）讨论1?θ、2?θ的无偏性，1?θ、2?θ是否为θ的无偏估计量？若不是，求使得i c ?i i c θ为θ的无偏估计量，； 1,2i =（3）讨论1?θ、2 ?θ的相合性；（4）比较11?c θ和22?c θ的有效性. 2. 假设某种产品来自甲、乙两个厂家，为考查产品性能的差异，现从甲乙两厂产品中分别抽取了8件和9件产品，测其性能指标X 得到两组数据，经对其作相应运算得 2110.190,0.006,x s == 2220.238,0.008x s == 假设测定结果服从正态分布()()2~,1,2i i X i μσ=，（1）．在显著性水平0.10α=下，能否认为2212σσ=？（2）．求12μμ?的置信度为90%的置信区间，并从置信区间和假设检验的关系角度分析甲乙两厂生产产品的性能指标有无显著差异。 3.设是来自正态总体的样本, 总体均值n X X X ,,,21"),(2 σμN μ和方差未知，样本均值和方差分别记为2σ2211 11,(1n n i i i i )X X S X X n n ====?∑∑?

（1）求2211 (n i i X )μσ=?∑的分布；（2）若0μ=，求212212()() X X X X +?的分布；（3）方差的置信度为12σα?的置信区间的长度记为L ，求()E L ；（4）1n X + 的分布。 4.为进行病虫害预报, 考察一只红铃虫一代产卵量Y (单位：粒)与温度x （单位：）的关系, 得到资料如下： C 0x 18 20 24 26 30 32 35 Y 7 11 21 24 66 115 325 假设Y 与x 之间有关系 bx Y ae ε+=, . ),0(~2σεN 经计算：26.43x =，ln 3.612y =，，， 7215125i i x ==∑721(ln )102.43i i y ==∑7 1ln 718.64i i i x y ==∑（1）求Y 对x 的曲线回归方程； x b e a y ???=（2）求的无偏估计； 2σ2?σ （3）对回归方程的显著性进行检验（05.0=α）；（4）求当温度0x =33时,产卵量的点估计。 0Y 可能用到的数据： 0.02282z =，()()0.050.057,8 3.50,8,7 3.73F F ==，()0.0515 1.7531t =，，，，0.025(5) 2.5706t =0.05(5) 2.015t =0.025(7) 2.3646t =0.05(7) 1.8946t =，0.05(1,5) 6.61F =， 0.05(1,7) 5.59F =

应用数理统计吴翊李永乐第三章假设检验课后作业参考答案

第三章假设检验课后作业参考答案某电器元件平均电阻值一直保持Ω，今测得采用新工艺生产36个元件的平均电阻值为Ω。假设在正常条件下，电阻值服从正态分布，而且新工艺不改变电阻值的标准偏差。已知改变工艺前的标准差为Ω，问新工艺对产品的电阻值是否有显着影响(01.0=α) 解：(1)提出假设64.2:64.2:10≠=μμH H ， (2)构造统计量36 /06.064 .261.2/u 00 -=-= -= n X σμ (3)否定域???? ??>=???? ??>?? ??? ??<=--21212 αααu u u u u u V (4)给定显着性水平01.0=α时，临界值575.2575.22 12 =-=- α αu u ， (5) 2 αu u <，落入否定域，故拒绝原假设，认为新工艺对电阻值有显着性影响。一种元件,要求其使用寿命不低于1000（小时）,现在从一批这种元件中随机抽取25件,测得其寿命平均值为950（小时）。已知这种元件寿命服从标准差100σ=（小时）的正态分布，试在显着水平下确定这批元件是否合格。解： {}01001:1000, H :1000 X 950 100 n=25 10002.5 V=u 0.05H x u αμμσμα-≥<====->=提出假设：构造统计量：此问题情形属于u 检验，故用统计量：此题中：代入上式得：拒绝域：本题中：0.950.950 u 1.64u 0.0u H =>∴即，拒绝原假设认为在置信水平5下这批元件不合格。某厂生产的某种钢索的断裂强度服从正态分布( )2 ,σ μN ，其中()2 /40cm kg =σ。现从一

北航应用数理统计考试题及参考解答

北航2010《应用数理统计》考试题及参考解答 09B 一、填空题（每小题3分，共15分） 1，设总体X 服从正态分布(0,4)N ，而12 15(,,)X X X 是来自X 的样本，则22 110 22 11152() X X U X X ++=++服从的分布是_______ . 解：(10,5)F ． 2，?n θ是总体未知参数θ的相合估计量的一个充分条件是_______ . 解：??lim (), lim Var()0n n n n E θθθ→∞ →∞ ==． 3，分布拟合检验方法有_______ 与____ ___. 解：2 χ检验、柯尔莫哥洛夫检验． 4，方差分析的目的是_______ . 解：推断各因素对试验结果影响是否显著． 5，多元线性回归模型=+Y βX ε中，β的最小二乘估计?β 的协方差矩阵?βCov()=_______ . 解：1?σ-'2Cov(β) =()X X ．二、单项选择题（每小题3分，共15分） 1，设总体~(1,9)X N ，129(,, ,)X X X 是X 的样本，则___B___ . （A ） 1~(0,1)3X N -；（B ）1 ~(0,1)1X N -；（C ） 1 ~(0,1) 9X N -；（D ~(0,1)N ． 2，若总体2(,)X N μσ，其中2σ已知，当样本容量n 保持不变时，如果置信度1α-减小，则μ的置信区间____B___ . （A ）长度变大；（B ）长度变小；（C ）长度不变；（D ）前述都有可能. 3，在假设检验中，就检验结果而言，以下说法正确的是____B___ . （A ）拒绝和接受原假设的理由都是充分的；（B ）拒绝原假设的理由是充分的，接受原假设的理由是不充分的；（C ）拒绝原假设的理由是不充分的，接受原假设的理由是充分的；（D ）拒绝和接受原假设的理由都是不充分的. 4，对于单因素试验方差分析的数学模型，设T S 为总离差平方和，e S 为误差平方和，A S 为效应平方和，则总有___A___ .

重大数理统计大作业

研究生“数理统计”课程课外作业姓名：学号：学院：光电工程学院专业：测控技术与仪器类别：上课时间：成绩：城镇居民家庭食品总支出与肉类食品支出关系研究分析

摘要: 近些年,我国经济高速增长,居民的家庭收入大幅提高,同时居民的生活水平和质量也有了很大的提高,以前只有在过节或者有贵客时才能在餐桌上见到的各种食品现在已经平常化日常化。肉类做为日常家庭食品的一个重要组成部分,也快速的增长着.上世纪80年代以来,城市居民家庭人均肉类消费增长了1倍。从表面看来家庭食品支出越高肉类消费越多。但是我们将城镇居民按家庭收入分成5等份，发现收入最低的吃肉最少，随着收入的增加，肉类消费数量同步增加，收入越高吃肉越多。但是也有部分高收入家庭的肉类消费量开始下降。因为这部分群体对于健康饮食的关注远远高于其他人群。所以从总体上看来，家庭食品总支出与肉类食品支出之间存在着一定的相互关联。在此文中我们以回归分析方法分析检验了家庭肉类食品消费支出与家庭食品总支出是否存在线性相关关系。关键词：家庭肉类食品支出与食品总支出，回归分析方法正文随着我国经济的快速发展，居民的生活水平也有了显著的提高。同时城市居民家庭在食品方面的开支始终占据着很大的份额，其中肉类的开支也有着显著的提高。故提出在我国居民生活水平日益提高的情况下肉类食品的消费水平是否与家庭总的食品消费水平存在线性相关性？数据描述: 表一:家庭食品支出与各种肉类支出分布家庭食品支出与肉类支出关系（元/月）品名按人平月可支配收入比例分组最低收入户低收入户中等收入户高收入户最高收入户猪肉187.44 233.16 248.88 269.4 236.04 牛肉9.36 18.84 26.76 24.48 28.44

北航应用数理统计大作业多元线性回归

多元线性回归分析摘要：本文查找2011年《中国统计年鉴》，取我国31个省市自治区直辖市2010年的数据，利用SPSS软件对影响居民消费的因素进行讨论构造线性回归模型。并对模型的回归显著性、拟合度、正态分布等分别进行检验，最终得到最优线性回归模型，寻找影响居民消费的各个因素。关键字：回归分析；线性；相关系数；正态分布 1. 引言变量与变量之间的关系分为确定性关系和非确定性关系，函数表达确定性关系。研究变量间的非确定性关系，构造变量间经验公式的数理统计方法称为回归分析。回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程，这一数学表达式通常称为经验公式。一方面，研究者可以利用概率统计知识，对这个经验公式的有效性进行判定；另一方面，研究者可以利用经验公式，根据自变量的取值预测因变量的取值。如果是多个因素作为自变量的时候，还可以通过因素分析，找出哪些自变量对因变量的影响是显著的，哪些是不显著的。回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。通过对训练数据进行回归分析得出经验公式，利用经验公式就可以在已知自变量的情况下预测因变量的取值。实际问题的控制中往往是根据预测结果来进行的，如在商品流通领域，通常用回归分析商品价和与商品需求之间的关系，以便对商品的价格和需求量进行控制。本文查找2011年《中国统计年鉴》，取我国31个省市自治区直辖市2010年的数据，利用SPSS软件对影响居民消费的因素进行讨论构造多元线性线性回归模型。以探求影响居民消费水平的各个因素，得到最优线性回归模型。随后，我们对模型的回归显著性、拟合度、正态分布等分别进行检验，以考察线性回归模型的可信度。本文将分为5章进行论述。在第2章，我们介绍多元线性回归模型的概念。第3章，我们进行模型的建立与数据的收集和整理。我们在第4章对数据进行处理，得出多元线性回归模型，并对其进行检验。在第5章，我们进行总结。2.预备知识 2.1 回归分析回归分析研究的主要对象是客观事物变量间的统计关系，它是建立在对客观事物进行大量试验和观察的基础上，用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态及进行模型预测的一种有效的工具。

数理统计大作业知识分享

数理统计大作业

数理统计学大作业学院航空航天工程学部专业飞行器设计班级航宇二班学号142103130228 姓名张立指导教师姜永负责教师沈阳航空航天大学 2014年12月目录

目录 (2) 前言 (3) 一、采集样本数据整理及SPSS统计软件的实现 (5) 1.1、数据的收集方法及说明 (5) 1.2、数据整理：给出频数、频率分布表及偏度和峰度 (5) 1.3、画出直方图和折线图 (7) 1.4、经验分布函数和图形 (8) 1.5、各种概率分布 (8) 二、给出总体分布的参数估计 (13) 2.1、矩估计法 (13) 2.2、最大似然估计 (14) 2.3、参数区间估计 (15) 三、参数的假设检验 (18) 3.1. 样本统计数据的t检验 (18) 3.2样本统计数据的2χ检验 (19) 四、非参数假设检验（ 2 χ拟合优度检验） (20) 4.1、2χ拟合优度检验 (20) 五、结论 (22) 参考文献 (23) 前言数理统计学是研究有效地运用数据收集与数据处理、多种模型与技术分析、

社会调查与统计分析等，对科技前沿和国民经济重大问题和复杂问题，以及社会和政府中的大量问题，如何对数据进行推理，以便对问题进行推断或预测，从而对决策和行动提供依据和建议的应用广泛的基础性学科。随着科学技术的发展，数理统计的作用在国民生活中越来越重要，特别是现在随着大数据的时代来临，迫切的需要我们对大量数据的处理能力，当然这些大量的数据不可能用人工计算，有很多可以实际应用的数理统计软件，这次大作业我使用的是SPSS软件。由于数理统计是一门实用性极强的学科，在学习中要紧扣它的实际背景，理解统计方法的直观含义。了解数理统计能解决那些实际问题。对如何处理抽样数据，并根据处理的结果作出合理的统计推断，该结论的可靠性有多少要有一个总体的思维框架，这样，学起来就不会枯燥而且容易记忆。例如估计未知分布的数学期望，就要考虑到：1.如何寻求合适的估计量的途径，2.如何比较多个估计量的优劣。这样，针对1按不同的统计思想可推出矩估计和极大似然估计，而针对2又可分为无偏估计、有效估计、相合估计，因为不同的估计名称有着不同的含义，一个具体估计量可以满足上面的每一个，也可能不满足。掌握了寻求估计的统计思想，具体寻求估计的步骤往往是“套路子”的，并不困难，然而如果没有从根本上理解，仅死背套路子往往会出现各种错误.

北航-数理统计大作业

对中国各地财政收入情况的聚类分析和判别分析应用数理统计第二次大作业学院名称学号学生姓名摘要我国幅员辽阔，由于人才、地理位置、自然资源等条件的不同，各地区的财政收入类型各自呈现出不一样的发展趋势，通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。本文以中国各地财政收入情况为研究对象，从《中国统计年鉴》中选取2011年期间中国各地财政收入情况为因

变量，选取国内增值税、营业税、企业所得税、个人所得税、城市维护建设税、土地增值税、契税、专项收入、行政事业性收费收入、国有资本经营收入和国有资源（资产）有偿使用收入11个可能影响中国各地财政收入的因素为自变量，利用统计软件SPSS，对27个地区的财政收入进行了聚类分析，并对另外4个地区的财政收入进行了判别分析，并最终确定了中国各地区根据财政收入类型的分类情况。关键词：聚类分析，判别分析，SPSS，中国各地财政收入类型 1、引言财政收入，是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内（一般为一个财政年度）所取得的货币收入。财政收入是衡量一国政府财力的重要指标，政府在社会经济活动中提供公共物品和服务的范围和数量，在很大程度上决定于财政收入的充裕状况。通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。本文利用统计软件SPSS，根据各地区的财政收入情况，对北京、天津、河北等27个地区进行聚类分析，并对青海、重庆、四川、贵州4个省市进行判别分析，判断属于聚类分析结果中的哪种财政收入类型。 1.1 聚类分析聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称，它直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归入不同的类。本文采用的是系统聚类分析，它又称集群分析，是聚类分析中应用最广的一种方法，其基本思想是：首先将每个聚类对象看作一类，然后根据对象间的相似程度，将相似程度最高的两类进行合并，并计算合并后的类与其他类之间的距离，再选择相近者进行合并，每合并一次减少一类，直至所有的对象都并为一类为止。系统聚类分为Q型聚类和R型聚类两种：Q型聚类是对样本进行聚类，它使具有相似特征的样本聚集在一起，使差异性大的样本分离开来；R型聚类是对变量进行聚类，它使差异性大的变量分离开来，相似的变量聚集在一起，这样就

数理统计B班_大作业

应用数理统计大作业1——逐步回归法分析终教学提纲

应用数理统计课后习题参考答案

《应用数理统计》期末考试-2011

应用数理统计大作业1——逐步回归法分析终

应用数理统计作业题及参考答案(第二章)(2)

北航数理统计回归分析大作业

应用数理统计试题库

应用数理统计大作业1——逐步回归法分析终

重庆大学研究生数理统计大作业

2018年数理统计大作业题目和答案--0348

应用数理统计(武汉大学研究生)2009-2010试题

最新北航数理统计大作业-多元线性回归

应用数理统计吴翊李永乐第三章假设检验课后作业参考答案

最新数理统计大作业

北航应用数理统计考试题及参考解答

重大数理统计大作业

北航应用数理统计大作业多元线性回归

数理统计大作业知识分享

北航-数理统计大作业