文档库 最新最全的文档下载
当前位置:文档库 › 北航数理统计期末考试题

北航数理统计期末考试题

北航数理统计期末考试题
北航数理统计期末考试题

材料学院研究生会

学术部

2011年12月

2007-2008学年第一学期期末试卷

一、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体2(,)N μσ的样本,令

1222

34562()()()x x T x x x x -=

-+-,

试证明T 服从t -分布t (2)

二、(6分,B 班不做)统计量F-F(n,m)分布,证明

111(,)F F n m αααα-的(0<<1)的分位点x 是。

三、(8分)设总体X 的密度函数为

(1),01(;) 0 , x x p x ααα?+<<=??

其他

其中1α>-,是位置参数。x 1,x 2,…,x n 是来自总体X 的简单样本,试求参数α的矩估计和极大似然估计。

四、(12分)设总体X 的密度函数为

1x exp x (;) 0 , p x μμσσσ??-?-≥???

=?????

,其它,

其中,0,μμσσ-∞<<+∞>已知,是未知参数。x 1,x 2,…,x n 是来自总

体X 的简单样本。

(1)试求参数σ的一致最小方差无偏估计σ∧

; (2)σ∧

是否为σ的有效估计?证明你的结论。

五、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体211(,)N μσ的简单样本,y 1,y 2,…,y n 是来自正态总体222(,)N μσ的简单样本,且两样本相互独立,其中221122,,,μσμσ是未知参数,2212σσ≠。为检验假设012112:, :,H H μμμμ=≠可令12, 1,2,..., , ,i i i z x y i n μμμ=-==-则上述假设检验问题等价于0111:0, :0,H H μμ=≠这样双样本检验问题就变为单检验问题。基于变换后样本z 1,z 2,…,z n ,在显著性水平α下,试构造检验上述问题的t-检验统计量及相应的拒绝域。

六、(6分,B 班不做)设x 1,x 2,…,x n 是来自正态总体20(,)N μσ的简单样本,0μ已知,2σ未知,试求假设检验问题

22220010:, :H H σσσσ≥<的水平为α

的UMPT 。

七、(6分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方面?

八、(6分)设方差分析模型为

2

11N(0,)1,2,...,;1,...,0,0.

ij i j ij ij ij p q

i j i j

i j x i p j q

μαβεεσεαβαβ===+++????

?==??==??

∑∑服从正态总体分布且相互独立和满足 总离差平方和

1112E 1

1(),,1,E(S )=(p-1)(q-1).

p

p q i T A B E A ij i i j q

i ij j S S S S S q x x x x pq x x q σ=====++=-==∑∑∑∑中且

试求A E(S ),并根据直观分析给出检验假设012:...0P H ααα====的拒绝域形式。

九、(8分)某个四因素二水平试验,除考察因子A 、B 、C 、D 外,还需考察A B ?,B C ?。今选用表78(2)L ,表头设计及试验数据如表所示。试用极差分析指出因子的主次顺序和较优工艺条件。 列号 试验号 A B A B ?

C B C ?

D 实验数据

1 2

3 4

5

6

7

1 1 1 1 1 1 1 1 12.8

2 1 1 1 2 2 2 2 28.2

3 1 2 2 1 1 2 2 26.1

4 1 2 2 2 2 1 1 35.3 5

2

1

2

1

2

1

2

30.5

6 2 1 2 2 1 2 1 4.3

7 2 2 1 1 2 2 1 33.3

8 2

2

1

2

1

1

2

4.0

十、(8分)对某中学初中12岁的女生进行体检,测量四个变量,身高x 1,体重x 2,胸围x 3,坐高x 4。现测得58个女生,得样本数据(略),经计算指标1234(x ,x ,x ,x )T X =的协方差阵V 的极大似然估计为

19.94 10.50 6.59 8.6310.50 23.56 19.71 7.976.59 19.71 20.95 3.93 8.63 7.97 3.93 7.55V ∧??

?

?= ? ??? 且其特征根为1

23450.4616.65 3.38 1.00λλλλ∧

∧∧∧

====,,,。

(1)试根据主成分85%的选择标准,应选取几个主要成分? (2)试求第一主成分。

2006级硕士研究生《应用数理统计》试题

一、 选择题(每小题3分,共12分)

1. 统计量T~t (n )分布,则统计量T2的α(0<α<1)分位点x α (P{T2≤x α}=α)是( )

A. 2

12()t n α-????

?? B. 12()t n α+ C.12()t n α- D

2

12()t n α+??

????

2.设随机变量X ~N(0,1),Y ~N(0,1),则( )

A.

2X

Y 服从t-分布 B.X2+Y2服从2

χ-分布

C. X2和Y2都服从2

χ-分布 D. X2/Y2服从F-分布

3.某四因素二水平实验,选择正交表L8(27),已填好A ,B ,C 三个因子,分别在第一,第四,第七列,若要避免“混杂”,应安排因子D 在第( )列.A.5 B.2 C.3 D.6

1 2 3 4 5 6 7 (1)

3 (2)

2 1 (3)

5 6 7 (4)

4 7 6 1 (5)

7 4 5 2 3 (6)

6 5 4 3 2 1

(7)

4.假设总体X 服从两点分布,分布率为P{X=x}=p x(1-p)1-x ,其中x=0或1,p 为未知参数,X1,X2,…,Xn 是来自总体的简单样本,则下面统计量中不是充分统计量的是( )

A. 1i n

i X =∑ B. 11i n i X n =∑ C. 111i n i X n =-∑ D. 11i n

i X p n =-∑

二.填空题(每小题3分,共12分)

1. 设X1,X2,…,Xn 是来自总体N(0,2

σ)的简单样本,则常数

c=_________时统计量12

1

m

i

i n

i i m c X X ==+∑∑

服从t-分布(1m n ≤<),其自由度为

____________

2. 设X1,X2,…,Xn 是来自总体N(μ,2

σ)的简单样本,其中2

σ已知。

则在满足P{X a X b μ-≤≤+}=1-a 的均值μ的置信度为1-α的置信区间类{[,X a X b -+]:a ,b 常数}中区间长度最短的置信区间为( )

3. 设X1,X2,…,Xn 是来自总体N(μ,2σ)的简单样本, μ已知,则2

σ

的无偏估计2

21

1

1()1n k k S X X n ==--∑,2

2211()n k k S X n μ==-∑中较优的是

( )

4.在双因素实验的方差分析中,总方差T S 的分解中包含误差平方和

2

.111()p

q

r

E ijk i j i j k S x x ====-∑∑∑,则E S 的自由度为( )

三,(12分)设X1,X2,…,Xn 来自指数分布

10()00

x

e x

f x x θθ

-?>?=??≤? 的简

单样本,试求参数θ的极大似然估计θ∧

,它是否是无偏估计?(2)求样本的Fisher 信息量;(3)求θ的一致最小方差无偏估计;(4)问θ∧

是否是θ的有效估计?

四.(6分,A 班不做)在多元线性回归Y X βε=+中,参数β的最小

二乘估计为1

(')'X X X Y β∧

-=,残差向量为

1

((')')e Y Y I X X X X Y ∧

-=-=-。令11(')'(')'X X X Y Z I X X X X Y e β∧--????

?== ? ? ?-????,当2~(0,)N I εσ时,Z 服从多元正态分布。

试证明β∧

与e 相互独立。

五.(6分,A 班不做)

设某切割机切割金属棒的长度X 服从正态分布,正常工作时,切割每段金属棒的平均长度为10.5cm 。某日为了检验切割机工作是否正常,随机抽取15段进行测量,得平均样本值x =10.48cm ,样本方差s2=0.056cm2。在显著性水平α=0.05下,试问该切割机工作是否正常?

(

0.950.9750.950.9751.64, 1.96,(14) 1.7631,(14) 2.1448

z z t t ====)

六.(6分,B 班不做)设X ~N(θ,2

σ),2σ已知,X1,X2,…,Xn 来自X 的样本,并设θ的先验分布为θ~N(μ,2

τ),μ2

τ已知,则可知均值θ的Bayes 估计为

2

2

22

1

1

n

X n μ

σ

τ

θστ+=+

试通过此例说明Bayes 估计的特点。

七.(B 班不做)设总体X 服从正态总体N(0,2

σ),X1,X2,…,Xn 是来自总体的简单样本,考虑检验问题

2201:1

:2

H H σσ==

在显著水平α=0.05下,求最优检验(MP )的拒绝域。

八.研究小麦品种与施肥的农田实验,考察的因素与水平如下表所示: 水平/因素

A 小麦品种

B.施肥量 C 浇水遍数 D 除草遍数

1 甲 16 1

2 2

12

2

3

据经验需考虑交互作用A ×B ,选用正交表L8(27),数据如表所示。

试验号/列号

A B A ×B C D

1 2 3 4 5

6 7

实验数据

1 2 3 4 5 6 7 8

1 1 1 1 1 1 1 1 1 1

2 2 2 2 1 2 2 1 1 2 2 1 2 2 2 2 1 1 2 1 2 1 2 1 2 2 1 2 2 1 2 1 2 2 1 1 2 2 1 2 2 1 2 1 1 2

115 160 145 155 140 155 100 125

用极差分析确定最优方案(以数据大者为好)

九.(6分)设X= (X1,X2,X3,X4)’的协方差阵为

222222222

2222222V σσρσρσρσρσσρσρσρσρσσρσρσρσρσ??

? ?= ? ? ???

已知V 的特征根是

2

1(31)λρσ=+,

2

234(1)λλλρσ===-,其中ρ=0.83,

试根据85%的选取标准确定确定主成分个数,并求出主成分。

应用数理统计(2000 年)

一、填空

1 、设x1,x2,…x10 来自总体N(0,1) 的样本,若

y=k1(x1+2x2+3x3)2+k2(x4+x5+…+x10)2~x2(2),则

k1=__________ k2=__________

2、设x1,x2,…x2m来自总体N(4,9)的样本,若y=,

且Z=,服从t分布,则c=________ ,z~t(_________ )

3、设x1,x2,…x2m来自总体N(μ,σ2)的样本,已知y=( x2-x1)2+(x3-x4) 2 +…+(x2m-x2m-1)2,且Z=cy为σ2的无偏估计,则c=_________

4、上题中,Dz=_________

5、由总体F(x)与G(x)中依次抽得容量为12 和11 的样本,已计算的游程总个数

U=12,试在水平α=0.05 下检验假设H0:F(x)= G(x),其结论为___________ (U0.05(12,11)=8)

二、设x1,x2,…x61 来自总体N(0,1) 的样本,令y=,

试求P(t0.975(60)=2)

三、设总体x 的密度函数为

而(x1,x2,…xn)为来自x的样本,试求α的极大似然估计量。

四、设x~N(μ1,σ2),y~ N(μ2,σ2),今抽取x的样本x1,x2,...x8;y的样本y1,y2, (8)

计算得

1.试在水平α=0.01 下检验假设H0:μ1=μ2,H1:μ1>μ2

2.试求α=0.02 时,μ2-μ1的估计区间(t0.99(14)=2.6245)

五、欲考察因子A,B,C,D及交互作用A×C,且知B也可能与其它因子存在交互作

用,试在L8(27)上完成下列表头设计。并说明理由。

B A D

C B

1 2 3 4 5 6 7

用L8(27)的交互作用表

六、已知(x1, y1), (x2, y2),…, (x9, y9)为一组实验值,且计算得

,

,

试求线性回归方程y?= a?+ b?x

七、x1,x2,…x100来自总体x~π(λ)的一个样本,试求参数λ的近似(1-α)置信区间,

(Ex=λ,Dx=λ)

八、在一元线性回归中,lyy=Q+U,F=S

Q S

U //~F(s,t),试给出用F 值来判定回归显著性的办法。

应用数理统计(2001 年)

一、填空(每空3 分,共30 分)

1.设x1,x2,……,x10 为来自总体N (0 ,1 )的样本,若y =

k1(2x1+x2-3x3)+k2(x4+x5+……+x10)2,且y~x2(2).则

k1=_______,k2=_______

2.设x1,x2,……,x12为来自总体N(0,A)的样本,若y=

(x12+x22+x32)÷(x12+x22+……+x12)且Z=cy~F分布,则c=__,Z~F( )

3.若x1,x2,……,x20为来自总体N(μ,σ2)的样本,若

y=(x2-x1)2+(x4-x3)2+……+(x20-x19)2,且Z=cy为σ2的无偏估计,则c=__,DZ=__

4.若x1,x2,……,x100为来自总体N(10,σ2)的样本,若

,则Ey=__,Dy__

5.若x1,x2,……,x16为来自总体N(μ,0.012)的样本,其样本平均值x---=2.215,则μ的0.20 置信区间为_________(取三位小数),(已知Ф(1.645)=0.95,Ф(1.282)=0.90)

二(10 分)设总体X 的概率密度函数为

而x1,x2,……,xn为来自X的样本,试求α的矩估计量和极大似然估计量。

三(10 分)设x1,x2,……,x61为来自总体N(0,1)的样本。令y=,且P (x61/y≤k)=0.95,试求k。

四(10 分)设X~N(μ1,σ2),Y~N(μ2,σ2)令抽取A的样本

x1,x2,……,x8,Y的样本y1,y2,……,y8试推导假设H0:μ1=μ2;H1:μ1>μ2的拒绝域,设若

,是否接受H0?

五(10 分)设y~N(Ae-Bx,σ2),试由样本(x1,y1)(x2,y2),……(xn,yn)估计参数A及B(可利用已有的结论或公式些出相应的结果)。

六(10 分)今有正交试验结果列于下表(大者为好)

试用级差分析对结果进行分析判断,若A、B、C 的水平数皆为实际条件数据由小到大排列,试选出最优工艺条件并指出进一步试验的方

向。

七、(10 分)设t~t(n),F~F(n, 1)且p{t≤tα(n)}=α,p{F≤Fα(n,

1)}=α

试证明:

八、(10 分)设X 的概率密度函数为

试求β的极大似然估计量,并由此求一个β的无偏估计量

应用数理统计(2003 年)

1. 设X1, X2, … , X100为来自正态总体N(0,σ2)的样本,若

Y=,求EY,EY2。

2. 设总体X~N(μ,σ2),X1,X2,…,Xn为来自X的样本,记

,,求ES4。

3. 已知随机变量X的分布律为:P{X=k}=qpk-1,k=1,2,…,(q=1- p)

试求X 的特征函数?(t),并由此求EX,DX。

4. 设总体X的概率密度为f(x;θ)= ,其中c>0 为常数,试用来自X的样本构造的θ矩估计量。

5. 设总体X~N(μ,52),其样本为(X1,X2,…,Xn),这时μ的置信区间为1-α,

的置信区间为_____

①当n 固定时,若要提高置信度,置信区间长度会_

②当置信度固定时,增大n,置信区间长度会_

6. 设(X1,X2,…,Xn)为来自正态总体N(0,σ2)的样本,若

T=是σ的无偏估计量,求c。

7. 设总体X的均值为μ,方差为σ2>0,今有来自X的两组样本(X1,X2,…,Xn1),(Y1,Y2,…,Yn2),其样本均值依次为X 和Y ,若T=a X +b Y 为μ的无偏估计量,且方差D(T)达到了最小,试求a 与b。

8. 若回归直线y?= a?+ b?x中,已知

,且Q/(n-2)为的无偏估计,

而~ χ(n-2),又知a?与Q相互独立,试求a的置信区间。

9. 今有正交试验结果列于下表(试验结果大者为好),试用极差分析法对结果进行分析,并选出最优工艺条件,又知A,B,C 的水平数皆为实际数据由小到大排列,试指出进一步实验的方向。

北航考博2011概率论与数理统计真题(回忆版_准确率达90%)

2011年北京航空航天大学博士生入学考试题 概率部分 一、填空题 36分 1、 设每次试验成功的概率是p (00,问k 的值为 3、 一盒内有3个红球,12个白球,从中不放回取6次,每次取一个球,则第6次取球时取 到红球的概率为 4、 设二维随机变量221 (,)~(1,2,1,3;)3 X Y N ,则D(X-2Y+5)= 5、 三门大炮同时炮击一战舰(每炮发一弹),设击中敌舰一、二、三发的概率为0.5,、0.3、 0.2,而敌舰中弹一、二、三发的概率分别为0.3、0.6、0.9,则敌舰被击沉的概率为 6、 设二维随机变量(,)X Y 的概率密度为2 1 (,),01,02 3 f x y x xy x y ?=+ ≤≤≤≤?? (其它条件为0),则(1)P X Y +≤= 7、 考贝叶斯公式的题,比较简单,没记住…… 8、 已知T 分布()t n 的密度函数()n f t ,求lim ()n n f t ->∞ = 9、 设随机变量序列12,,,n X X X 独立同分布,且2 ~(,),(1,2,3,)i X N i μσ= ,记 21 n n i i Y X ==∑ ,***()()n n n Y Y F x P Y x = =≤,则对任意实数X 有*lim ()n Y n F x ->∞ = 二题 16分 设二维随机变量(,)X Y 的概率密度为 2 232 1(,)(1sin sin )2x y f x y e x y π +-=+,,x y -∞<<+∞, (1)求(,)X Y 关于X 的边沿概率密度()X f x ; (2)求(,)X Y 关于Y 的边沿概率密度()Y f y ; (3)X 与Y 是否相互独立? (4)利用本题可以用于说明一个什么样的问题? 三题 8分 设??????,,,,21n X X X 是相互独立的随机变量序列,且i X 的分布律为

北航数理统计回归分析大作业

应用数理统计第一次大作业 学号: 姓名: 班级: 2013年12月

国家财政收入的多元线性回归模型 摘 要 本文以多元线性回归为出发点,选取我国自1990至2008年连续19年的财政收入为因变量,初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选,最终确定了能反映财政收入与各因素之间关系的“最优”回归方程: 46?578.4790.1990.733y x x =++ 从而得出了结论,最后我们用2009年的数据进行了验证,得出的结果在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。 关键词:多元线性回归,逐步回归法,财政收入,SPSS 0符号说明 变 量 符号 财政收入 Y 工 业 X 1 农 业 X 2 受灾面积 X 3 建 筑 业 X 4 人 口 X 5 商品销售额 X 6

进出口总额X7

1 引言 中国作为世界第一大发展中国家,要实现中华民族的伟大复兴,必须把发展放在第一位。近年来,随着国家经济水平的飞速进步,人民生活水平日益提高,综合国力日渐强大。经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。政府有了强有力的财政保证才能够对全局进行把握和调控,对于整个国家和社会的健康快速发展有着重要的意义。所以对国家财政的收入状况进行研究是十分必要的。 国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是具体到各个方面的影响因素又有着十分复杂的相关原因。为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。而影响财政收入的因素有很多,如人口状况、引进的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据,包括工业,农业,建筑业,批发和零售贸易餐饮业,人口总数等。文中主要应用逐步回归的统计方法,对数据进行分析处理,最终得出能够反映各个因素对财政收入影响的最“优”模型。 2解决问题的方法和计算结果 2.1 样本数据的选取与整理 本文在进行统计时,查阅《中国统计年鉴2010》中收录的1990年至2009年连续20年的全国财政收入为因变量,考虑一些与能源消耗关系密切并且直观上

北航数理统计大作业-多元线性回归

应用数理统计多元线性回归分析 (第一次作业) 学院: 姓名: 学号: 2013年12月

交通运输业产值的多元线性回归分析 摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找影响交通运输业发展的因素,包括工农业发展水平、能源生产水平、进出口贸易交流以及居民消费水平等,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,最后可以利用有效的最优回归模型对将来进行预测。 关键字:多元线性回归,逐步回归,交通运输产值,工业产值,进出口总额1,引言 交通运输业指国民经济中专门从事运送货物和旅客的社会生产部门,包括铁路、公路、水运、航空等运输部门。它是国民经济的重要组成部分,是保证人们在政治、经济、文化、军事等方面联系交往的手段,也是衔接生产和消费的一个重要环节。交通运输业在现代社会的各个方面起着十分重要的作用,因此研究交通运输业发展水平与各个影响因素间的关系显得十分重要,建立有效的数学相关模型对于预测交通运输业的发展,制定相关政策方案提供依据。根据经验交通运输业的发展受到工农业发展、能源生产、进出口贸易以及居民消费水平等众因素的影响,故建立一个完整精确的数学模型在理论上基本无法实现,并且在实际运用中也没有必要,一种简单有效的方式就是寻找主要影响因素,分析其与指标变量的相关性,建立多元线性回归模型就是一种有效的方式。 变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。 回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。通过对训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。实际问题的控制中往往是根据预测结果来进

北航2015级硕士研究生数理统计参考答案(B层)

2015-2016 学年 第一学期期末试卷 参考答案 学号 姓名 成绩 考试日期: 2016年1月15日 考试科目:《数理统计》(B 层) 一、填空题(本题共16分,每小题4分) 1.设12,,n x x x ,是来自正态总体2(0,)N σ的简单样本,则当c = 时,统计量2 21 () n k k x c x x η==-∑服从F -分布,其中1 1n k k x x n ==∑。((1)n n -) 2. 设12,,n x x x ,是来自两点分布(1,)B p 的简单样本,其中01p <<,2n ≥,则 当c = 时,统计量2?(1)cx x σ =-是参数()(1)q p p p =-的无偏估计,其中1 1n k k x x n ==∑。(1n n -) 3.设总体X 的密度函数为22 ,[0,] (;)0,[0,]x x p x x θθθθ?∈?=????,其中0θ>,12,,,n x x x 是 来自总体X 简单样本,则θ的充分统计量是 。(()n x ) 4.设12,,n x x x ,是来自正态总体2(,)N μσ的简单样本,已知样本均值 4.25x =, μ的置信度为0.95的双侧置信区间下限为3.1,则μ的置信度为0.95的双侧置信区间为(,)。((3.1,5.4))

二、(本题12分)设12,,,n x x x 是来自正态总体2(1,2)N σ的简单样本。(1)求2σ的极大似然估计2σ;(2)求2σ的一致最小方差无偏估计;(3)问2σ的一致最小方差无偏估计是否为有效估计?证明你的结论。 解(1)似然函数为 2 2 2 1 1()exp{(1)}4n n i i L x σσ ==- -∑ 对数似然函数为 2 2 221 1ln ()(ln(4)ln )(1)24n i i n L x σπσσ==-+--∑ 求导,有 22 224 1 ln ()1(1)24n i i L n x σσσσ=?=-+-?∑ 令22 ln ()0L σσ?=?,可得θ的极大似然估计为2 21 1?(1)2n i i x n σ==-∑。 (2)因为 2 2 122 1 1(,,,;)exp{(1)}4n n n i i f x x x x σσ ==- -∑ 令2()n c σ=,()1h x =,22 1()4w σσ =- ,,由于2()w σ的值域(,0)-∞有内 点,由定理2.2.4知21(1)n i i T x ==-∑是完全充分统计量。而 2 221 1 ((1))(1)2n n i i i i E x E x n σ==-=-=∑∑ 因而2 2 11?(1)2n i i x n σ==-∑既是完全充分统计量21 (1)n i i T x ==-∑的函数,又是2σ的无偏估计,由定理2.2.5知2 21 1?(1)2n i i x n σ==-∑是2σ一致最小方差无偏估计。 (3)224112 ?()((1))4Var Var x n n σ σ=-=。因为

数理统计期末考试试卷

四川理工学院试卷(2014至2015学年第1学期) 课程名称:数理统计(A 卷) 命题教师: 适用班级:统计系2013级1、2班 注意事项: 1、满分100分。要求卷面整洁、字迹工整、无错别字。 2、考生必须将姓名、班级、学号完整、准确、清楚地填写在试卷规定的地方,否则视为废卷。 3、考生必须在签到单上签到,若出现遗漏,后果自负。 4、如有答题纸,答案请全部写在答题纸上,否则不给分;考完请将试卷和答题卷分别一同交回,否则不给分。 试 题 一、填空题(每空3分,共 24 分) 1. 设1621,,,X X X 是来自总体X ),4(~2σN 的简单随机样本, 2σ已知,令∑==16 1161i i X X ,统计量σ -164X 服从分布为 (写出分布的参数)。 2. 设),(~2σμN X ,而1.70,1.75,1.70,1.65,1.75是从总体X 中抽取的样本,则μ的矩估计值为 __________ 。 3. 设12,, ,n X X X 是来自总体X ~(1,1)U -的样本, 则()E X =___________, ()Var X =__________________。 4.已知~(,)F F m n ,则 1 ~F

5. ?θ和?β 都是参数a 的无偏估计,如果有_________________成立 ,则称?θ是比 ?β 有效的估计。 6.设()2,0.3X N μ~,容量9n =,均值5X =,则未知参数μ的置信度为0.95 的置信区间是___________________ (查表0.975 1.96U =) 7. 设123456,,,,,X X X X X X 是来自正态总体2(0,2)N 的样本,令 22123456()()Y X X X X X X =+++-- 则当C = 时CY ~2(2)χ。 二、选择题(每小题3分,共 24分 ) 1. 已知n X X X ,,,21 是来自总体2(,)N μσ的样本,μ已知,2σ未知,则下列是统计量的是( ) (A )2 1()n i i X X =-∑ (B ) 22 1 1 ()n i i X X σ =-∑ (C) 2 211 ()n i i X μσ=-∑ (D) 2 21 ()11n i i X n μσ=--∑ 2.设),,,(21n X X X 为总体),(2σμN 的一个样本,X 为样本均值,则在总体方差2σ的下列估计量中,为无偏估计量的是( ). (A )221 11?()n i i X X n σ==-∑ (B )2221 1?()1n i i X X n σ==--∑ (C)223 11?()n i i X n σμ==-∑ (D)2 241 1?()1n i i X n σμ==--∑ 3. 设81,,X X 和101,,Y Y 是分别来自相互独立的正态总体)2,1(2-N 和)5,2(N 的 样本, 21S 和2 2S 分别是其样本方差,则下列服从)9,7(F 的统计量是( ) )(A 222152S S )(B 22 2 145S S )(C 2 22154S S )(D 222125S S

北航数理统计第二次大作业-数据分析模板

数理统计第二次大作业材料行业股票的聚类分析与判别分析 2015年12月26日

材料行业股票的聚类分析与判别分析摘要

1 引言 2 数据采集及标准化处理 2.1 数据采集 本文选取的数据来自大智慧软件的股票基本资料分析数据,从材料行业的股票中选取了30支股票2015年1月至9月的7项财务指标作为分类的自变量,分别是每股收益(单位:元)、净资产收益率(单位:%)、每股经营现金流(单位:元)、主营业务收入同比增长率(单位:%)、净利润同比增长率(单位:%)、流通股本(单位:万股)、每股净资产(单位:元)。各变量的符号说明见表2.1,整理后的数据如表2.2。 表2.1 各变量的符号说明 自变量符号 每股收益(单位:元)X1 净资产收益率(单位:%)X2 每股经营现金流(单位:元)X3 主营业务收入同比增长率(单位:%)X4 净利润同比增长率(单位:%)X5 流通股本(单位:万股)X6 每股净资产(单位:元)X7 表2.2 30支股票的财务指标 股票代码X1 X2 X3 X4 X5 X6 X7 武钢股份600005-0.0990-2.81-0.0237-35.21-200.231009377.98 3.4444宝钢股份6000190.1400 1.980.9351-14.90-55.011642427.88 6.9197山东钢铁600022-0.11650.060.0938-20.5421.76643629.58 1.8734北方稀土6001110.0830 3.640.652218.33-24.02221920.48 2.2856

杭钢股份600126-0.4900-13.190.4184-36.59-8191.0283893.88 3.4497抚顺特钢6003990.219310.080.1703-14.26714.18112962.28 1.4667盛和资源6003920.0247 1.84-0.2141-5.96-19.3739150.00 1.2796宁夏建材6004490.04000.510.3795-22.15-92.3447818.108.7321宝钛股份600456-0.2090-2.53-0.3313-14.81-6070.2043026.578.1497山东药玻6005290.4404 5.26 1.2013 6.5016.7825738.018.5230国睿科技6005620.410011.53-0.2949 3.3018.9416817.86 3.6765海螺水泥600585 1.15169.05 1.1960-13.06-25.33399970.2612.9100华建集团6006290.224012.75-0.57877.90-6.4034799.98 1.8421福耀玻璃6006600.790014.250.9015 3.6017.27200298.63 6.2419宁波富邦600768-0.2200-35.02-0.5129 3.1217.8813374.720.5188马钢股份600808-0.3344-11.710.3939-21.85-689.22596775.12 2.6854亚泰集团6008810.02000.600.1400-23.63-68.16189473.21 4.5127博闻科技6008830.503516.71-0.1010-10.992612.8023608.80 3.0126新疆众和6008880.0523 1.04-0.910662.64162.0464122.59 5.0385西部黄金6010690.0969 3.940.115115.5125.5712600.00 2.4965中国铝业601600-0.0700-2.920.2066-9.0882.79958052.19 2.3811明泰铝业6016770.2688 4.66-1.09040.8227.8640770.247.4850金隅股份6019920.1989 3.390.3310-10.05-39.01311140.26 6.7772松发股份6032680.35007.00-0.3195-4.43-9.622200.00 6.0244方大集团0000550.0950 5.66-0.480939.2920.6742017.94 1.6961铜陵有色0006300.0200 1.220.6132 3.23-30.74956045.21 1.5443鞍钢股份000898-0.1230-1.870.7067-27.32-196.21614893.17 6.4932中钢国际0009280.572714.45-0.4048-14.33410.2441286.57 4.2449中材科技0020800.684610.27 1.219547.69282.1740000.00 6.8936中南重工0024450.1100 4.300.340518.8445.0950155.00 2.7030 2.2 数据的标准化处理 由于不同的变量之间存在着较大的数量级的差别,因此要对数据变量进行标准化处理。本文采用Z得分值法标准化的方法进行标准化,用x的值减去x的均值再除以样本的方差。也就是把个案转换为样本均值为0、标准差为1的样本。如果不同变量的变量值数值相差太大,会导致计算个案间距离时,由于绝对值较小的数值权数较小,个案距离的大小几乎由大数值决定,标准化过程可以解决此类问题,使不同变量的数值具有同等的重要性。经Z标准化输出结果见表 2.2。 表2.2 经Z标准化后的数据 ZX1ZX2ZX3ZX4ZX5ZX6ZX7

北航数理统计期末考试题

材料学院研究生会 学术部 2011年12月 2007-2008学年第一学期期末试卷 一、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体2(,)N μσ的样本,令 )x x T -= , 试证明T 服从t -分布t (2) 二、(6分,B 班不做)统计量F-F(n,m)分布,证明 111(,)F F n m αααα-的(0<<1)的分位点x 是。 三、(8分)设总体X 的密度函数为 其中1α>-,是位置参数。x 1,x 2,…,x n 是来自总体X 的简单样本,试求参数α的矩估计和极大似然估计。 四、(12分)设总体X 的密度函数为 1x exp x (;) 0 , p x μμσσσ??-? -≥??? =????? ,其它, 其中,0,μμσσ-∞<<+∞>已知,是未知参数。x 1,x 2,…,x n 是来自总体X 的简单样本。 (1)试求参数σ的一致最小方差无偏估计σ∧ ; (2)σ∧ 是否为σ的有效估计?证明你的结论。

五、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体211(,)N μσ的简单样本,y 1,y 2,…,y n 是来自正态总体222(,)N μσ的简单样本,且两样本相互独立,其中221122,,,μσμσ是未知参数,2212σσ≠。为检验假设012112:, :,H H μμμμ=≠可令12, 1,2,..., , ,i i i z x y i n μμμ=-==-则上述假设检验问题等价于0111:0, :0,H H μμ=≠这样双样本检验问题就变为单检验问题。基于变换后样本z 1,z 2,…,z n ,在显著性水平α下,试构造检验上述问题的t-检验统计量及相应的拒绝域。 六、(6分,B 班不做)设x 1,x 2,…,x n 是来自正态总体20(,)N μσ的简单样本,0μ已知,2σ未知,试求假设检验问题 22220010:, :H H σσσσ≥<的水平为α 的UMPT 。 七、(6分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方面? 八、(6分)设方差分析模型为 总离差平方和 试求A E(S ),并根据直观分析给出检验假设012:...0P H ααα====的拒绝域形式。 九、(8分)某个四因素二水平试验,除考察因子A 、B 、C 、D 外,还需考察A B ?,B C ?。今选用表78(2)L ,表头设计及试验数据如表所示。试用极差分析指出因子的主次顺序和较优工艺条件。

北航应用数理统计考试题及参考解答

北航2010《应用数理统计》考试题及参考解答 09B 一、填空题(每小题3分,共15分) 1,设总体X 服从正态分布(0,4)N ,而12 15(,,)X X X 是来自X 的样本,则22 110 22 11152() X X U X X ++=++服从的分布是_______ . 解:(10,5)F . 2,?n θ是总体未知参数θ的相合估计量的一个充分条件是_______ . 解:??lim (), lim Var()0n n n n E θθθ→∞ →∞ ==. 3,分布拟合检验方法有_______ 与____ ___. 解:2 χ检验、柯尔莫哥洛夫检验. 4,方差分析的目的是_______ . 解:推断各因素对试验结果影响是否显著. 5,多元线性回归模型=+Y βX ε中,β的最小二乘估计?β 的协方差矩阵?βCov()=_______ . 解:1?σ-'2Cov(β) =()X X . 二、单项选择题(每小题3分,共15分) 1,设总体~(1,9)X N ,129(,, ,)X X X 是X 的样本,则___B___ . (A ) 1~(0,1)3X N -; (B )1 ~(0,1)1X N -; (C ) 1 ~(0,1) 9X N -; (D ~(0,1)N . 2,若总体2(,)X N μσ,其中2σ已知,当样本容量n 保持不变时,如果置信度1α-减小,则μ的 置信区间____B___ . (A )长度变大; (B )长度变小; (C )长度不变; (D )前述都有可能. 3,在假设检验中,就检验结果而言,以下说法正确的是____B___ . (A )拒绝和接受原假设的理由都是充分的; (B )拒绝原假设的理由是充分的,接受原假设的理由是不充分的; (C )拒绝原假设的理由是不充分的,接受原假设的理由是充分的; (D )拒绝和接受原假设的理由都是不充分的. 4,对于单因素试验方差分析的数学模型,设T S 为总离差平方和,e S 为误差平方和,A S 为效应平方和,则总有___A___ .

北航数理统计第一次大作业

数理统计 第一次课程论文 广州恒大队在2015赛季亚冠的进球数的多 元线性回归模型 学号: SY1527205 姓名:郭谢有

摘要 本赛季亚洲冠军联赛,来自中国的球队广州恒大淘宝队最终在决赛中力克阿联酋的迪拜阿赫利队,三年之内第二次夺得亚冠冠军。为了研究恒大的夺冠过程,本文选取了恒大该赛季亚冠总共15场比赛中的进球数为因变量,对可能影响进球数的射门数、射正数等7个自变量进行统计,并进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。最终确定了进球数与各因素之间关系的“最优”回归方程。 关键词:多元线性回归,逐步回归法,广州恒大,SPSS

目录 摘要 (11) 1.引言 (33) 2.符号说明 (33) 3.数据的采集和整理 (33) 3.1数据的采集 (33) 3.2建模 (44) 4.数据分析及计算 (44) 4.结论 (99) 参考文献 (1010) 致谢 (1010)

1.引言 一场足球比赛的进球数说明了一支球队攻击力的强弱,也是决定比赛胜负的至关因素,综合反映出这支球队的实际水平。 而作为竞技体育,足球场上影响进球数的因素很多,为了研究本赛季恒大在亚冠夺冠过程中的14场比赛中进球数与其他一些因素的关系,本论文从搜达足球和新浪体育数据库中查找了进球数和其他7个主要影响因素的数据,包括射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数。并进一步采用多元逐步回归分析方法对以上因素进行了显著性分析,从而确定了关于恒大在本赛季亚冠中进球数的最优多元线型回归方程。 2.符号说明 变量符号 进球数y 射门次数X1 射正次数X2 传球次数X3 传中次数X4 角球次数X5 抢断次数X6 3.数据的采集和整理 3.1数据的采集 本文统计数据时,查阅了搜达足球数据库,确定恒大在亚冠14场比赛中的进球数为因变量,并初步选取这14场比赛中的射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数7因素为自变量,具体数据见下表1。

北航数理统计回归分析大作业

数理统计(课程大作业1) 逐步回归分析 学院:机械工程学院 专业:材料加工工程 日期:2014年12月7日

摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国1995-2012年的财政收入为因变量,选取了8个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。 关键字:多元线性回归 逐步回归法 财政收入 SPSS 1 引言 自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。 本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。 2 多元线性回归 2.1 多元线性回归简介 在实际问题中,某一因素的变化往往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。对多元线性回归模型简要介绍如下: 如果随机变量y 与m )2(≥m 个普通变量m x x x 21,有关,且满足关系式: εββββ++++=m m x x x y 22110 2,0σεε==D E (2.1) 其中,2210,,,σββββm 是与m x x x 21,无关的未知参数,ε是不可观测的随机变量,),0(~2N I N σε。

北航数理统计期末考试题

北航数理统计期末考试题 2011年2007-2008学年第一学期期末试卷一、(6分,A班不做)设x1,x2,…,xn是来自正态总体的样本,令,试证明T服从t-分布t(2) 二、(6分,B班不做)统计量F-F(n,m)分布,证明。 三、(8分)设总体X的密度函数为其中,是位置参数。x1,x2,…,xn是来自总体X的简单 样本,试求参数的矩估计和极大似然估计。 四、(12分)设总体X的密度函数为,其中是未知参数。x1,x2,…,xn是来自总体X的简 单样本。 (1)试求参数的一致最小方差无偏估计; (2)是否为的有效估计证明你的结论。 五、(6分,A班不做)设x1,x2,…,xn是来自正态总体的简单样本,y1,y2,…,yn是 来自正态总体的简单样本,且两样本相互独立,其中是未知参数,。为检验假设可令则上述假设检验问题等价于这样双样本检验问题就变为单检验问题。基于变换后样本z1,z2,…,zn,在显著性水平下,试构造检验上述问题的t-检验统计量及相应的拒绝域。 六、(6分,B班不做)设x1,x2,…,xn是来自正态总体的简单样本,已知,未知,试求假 设检验问题的水平为的UMPT。 七、(6分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方 面八、(6分)设方差分析模型为总离差平方和试求,并根据直观分析给出检验假设的拒绝域形式。 九、(8分)某个四因素二水平试验,除考察因子A、B、C、D外,还需考察,。今选用表,表 头设计及试验数据如表所示。试用极差分析指出因子的主次顺序和较优工艺条件。 列号试验号ABCD实验数据 12345671111111112.82111222228.23122112226.14122221135.35212121230.5621221214 .37221122133.3822121124.0十、(8分)对某中学初中12岁的女生进行体检,测量四个变量,身高x1,体重x2,胸围x3,坐高x4。现测得58个女生,得样本数据(略),经计算指标的协方差阵V的极大似然估计为且其特征根为。 (1)试根据主成分85%的选择标准,应选取几个主要成分(2)试求第一主成分。 2006级硕士研究生《应用数理统计》试题一、选择题(每小题3分,共12分) 1.统计量T~t(n)分布,则统计量T2的α(0α1)分位点xα(P{T2≤xα}=α)是()

北航-数理统计大作业

对中国各地财政收入情况的聚类分析和判 别分析 应用数理统计第二次大作业 学院名称 学号 学生姓名 摘要 我国幅员辽阔,由于人才、地理位置、自然资源等条件的不同,各地区的财政收入类型各自呈现出不一样的发展趋势,通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。本文以中国各地财政收入情况为研究对象,从《中国统计年鉴》中选取2011年期间中国各地财政收入情况为因

变量,选取国内增值税、营业税、企业所得税、个人所得税、城市维护建设税、土地增值税、契税、专项收入、行政事业性收费收入、国有资本经营收入和国有资源(资产)有偿使用收入11个可能影响中国各地财政收入的因素为自变量,利用统计软件SPSS,对27个地区的财政收入进行了聚类分析,并对另外4个地区的财政收入进行了判别分析,并最终确定了中国各地区根据财政收入类型的分类情况。 关键词:聚类分析,判别分析,SPSS,中国各地财政收入类型 1、引言 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。 本文利用统计软件SPSS,根据各地区的财政收入情况,对北京、天津、河北等27个地区进行聚类分析,并对青海、重庆、四川、贵州4个省市进行判别分析,判断属于聚类分析结果中的哪种财政收入类型。 1.1 聚类分析 聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称,它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。本文采用的是系统聚类分析,它又称集群分析,是聚类分析中应用最广的一种方法,其基本思想是:首先将每个聚类对象看作一类,然后根据对象间的相似程度,将相似程度最高的两类进行合并,并计算合并后的类与其他类之间的距离,再选择相近者进行合并,每合并一次减少一类,直至所有的对象都并为一类为止。 系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就

北航数理统计第二次大作业

数理统计大作业(二) 全国各省、直辖市经济类型 聚类和判别分析 指导老师:冯伟 院系名称:航空科学与工程学院 学号: 姓名:

2014年12月25日 摘要 本文利用SPSS统计软件,选取了7个主要经济指标,利用聚类分析方法对我国26个省、直辖市的经济类型进行了分类,结果表明可以分为三类,并根据各省市当前的发展情况和经济水平对分类结果进行了评价分析,得出该分类结果是合理的。并采用判别分析的方法对剩下的5个省的经济类型进行了判别分类,结果表明各如分类正确率为100%,证明了分类结果的合理性。 关键词:聚类分析,系统聚类,判别分析,Fisher判别

目录 1 引言 (1) 2 聚类分析 (1) 2.1 基本概念 (1) 2.2 数据采集和整理 (2) 2.3 聚类分析过程 (3) 2.4 结果分析 (5) 3 判别分析 (6) 3.1 基本概念 (6) 3.2 判别分析过程 (6) 3.3 结果分析 (8) 4结论 (8) 5 参考文献 (8)

1 引言 进入21世纪后,中国经济迅速发展,财政收入、国内生产总值(GDP)等稳步增长,世界排名也名列前茅。2013年,我国GDP以90386.6亿美元的总量超过日本,仅次于美国。随着经济的快速发展,中国城市化进程的脚步也在不断加快。2012年8月国家统计局发布报告显示,十六大以来中国城市化水平进一步提高,城镇化率达51.27%,超过一半的人口已经居住在城镇中。 但是中国国土面积辽阔,各地区的地理位置、自然环境、资源分布、人口构成、开发程度等都存在较大的差异,因此各地区的经济发展状况也存在不同程度的差异,依照各省、市、区经济社会发展水平,可把全国大致分成东部、中部、西部三个经济地带。而这只是一个在较大区域内大划分,没有对各省市的经济水平做出更进一步的划分。显然研究各省市的经济水平差异,对于政府合理引导资源向薄弱省市适当倾斜具有一定的指导作用,对于国家制定总体发展计划也有一定的帮助。 考虑到各省市在各方面都存在较大的差异,评价各省市经济水平的指标要选择的合理,既要考察总量,也要将人均水平纳入考核中。从这方面考虑,从《国家统计年鉴2013》[1]上选取了我国26个省和直辖市2012年的7个经济数据来进行评价分类,即城乡居民储蓄存款、地区生产总值、居民消费水平、人均地区生产总值、农村居民纯收入、城镇居民年平均收入和公共财政预算收入。利用SPSS 统计软件进行聚类分析,并对聚类结果进行判别分析来判断聚类分析结果的合理性和正确性。 2 聚类分析 2.1 基本概念 聚类分析是研究对象的特征来对研究对象进行分类的多元分析技术的总称,分类问题在科学研究、生产实践、社会生活中到处可见。人们可以靠相关经验和专业知识对事物实现分类,但当反映事物的性质、特性的指标较多,且对分类要求较高时,仅凭经验和专业知识就不能达到确切的分类目的,于是数学方法就被引进到分类问题中来。 聚类分析的核心思想是,从一批样本的多个观测指标变量中,定义能度量样品间相似程度的统计量,在次基础上求出各样品之间的相似程度度量值,按相似

北航数理统计聚类分析大作业

应用数理统计 地区生产总值及经济发展状况的聚类 和判别分析 摘要:本文选取了06、07年地区生产总值的各项指标数据,运用统计学方法对其经济发展状况进行了分类研究。分析结果显示,北京﹑山东﹑上海﹑广东等东部沿海地区在经济发展中处于领先地位,属于经济较发达地区;辽宁﹑湖南﹑河南等省份处于中游,属于中等发达地区;西藏﹑青海﹑宁夏等中西部省份,经济发展较为缓慢,属于欠发达地区。分析结果与我国目前地区经济发展情况基本相符。通过本次研究揭示了我国的经济优势地区和经济薄弱地区,这对国家进行统筹规划、实现共同富裕具有重要意义。

关键词:生产总值,经济发展, SPSS,聚类分析,判别分析

目录 1 引言 (4) 1.1 源数据的提取 (4) 2 地区经济发展的聚类分析和判别分析 (6) 2.1 相关自变量的选择 (7) 2.2 聚类分析 (7) 2.3 判别分析 (10) 3 总结 (13)

1 引言 国内生产总值(Gross Domestic Product,简称GDP)是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标。它不但可以反映一个国家的经济表现,还可以反映一国的国力与财富。 地区生产总值(Gross Regional Product,简称GRP,或者Gross Regional Domestic Product简称GRDP)为一个特定区域(常为一个国家的行政区域)经济产出的指标,指区域内各个产业增加值的总和。地区生产总值可以较为准确反映地区经济发展状况,通过建立地区生产总值模型,对各地区经济发展状况进行分类,具有一定的准确性和合理性。 本文应用数理统计软件SPSS对各地区生产总值进行聚类分析和判别分析,分析和评定各地区经济发展情况,同时对各地区进行分类,确定经济优势地区和经济薄弱地区。 1.1 源数据的提取 本文所用的数据全来自《中国统计年鉴2007》和《中国统计年鉴2008》,从中提取了有关北京市、河北省等31个省市、自治区、直辖市(不包括港澳台地区)2006、2007年的生产总值的各项指标

北航数理统计判别分析大作业

数理统计(课程大作业2) 聚类和判别分析 学院:机械工程学院 专业:材料加工工程 日期:2014年12月22日

摘要:本文介绍聚类与判别方法,然后结合实际,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5个与经济发展水平相关联的指标,对全国28个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区的经济发展水平进行分类,并对分类的结果进行了分析。 关键字:经济类型 SPSS 聚类分析判别分析 1 引言 中华人民共和国成立后,通过有计划地进行大规模的社会主义建设,中国已成为世界上最具有发展潜力的经济大国之一,人民生活总体上达到小康水平。按预定计划,到2010年,中国将建立起比较完善的社会主义市场经济体制;到2020年,建立起比较成熟的社会主义市场经济体制。 但是,我国的经济发展还不太均衡,地区性差异十分显著,尤其是东西部发展十分不同步。近年来,这种不均衡引起了人们的注意。新中国成立至1978年的30年间,中国政府一直致力于平衡发展战略,各种投资政策和财政支付转移明显地向边远和落后地区倾斜,然而效果不佳,付出的代价非常大。自1978年实行改革开放以后,中国政府在区域经济发展战略上来了一个大转变,从平衡发展战略转向不平衡发展战略,优先发展沿海地区,发展和开放的政策明显向沿海地区倾斜,使得沿海地区得以迅速发展起来,也迅速地拉大了沿海与内地的经济发展差距.从地区生产总值来看,2003年广东省为13626亿元,约相当于3个湖南(4639亿元)或10个贵州(1365亿元)或35个青海(390亿元).从人均地区生产总值来看,2003年浙江为20147亿元,3倍于江西(6678元),4倍于甘肃,5.6倍于贵州。 本文就是在这样的背景下提出来的,使用SPSS Statistics 19.0这一统计软件,利用国家统计局公布的《中国统计年鉴2013》中提供的2012年我国各地区经济发展的数据,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5个与经济发展水平相关联的指标,对全国28个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区的经济发展水平进行分类,并对分类的结果进行了分析。

数理统计大作业(北航)2014版

应用数理统计 大作业一 学院:XXXXXXX 学号:XXXXXXX 姓名:XXX 指导老师:XXX 2014年12月21日

国民生产总值增量的多元线性回归模型 摘要:国民生产总值一直是衡量国家综合经济水平的重要指标,本文要讨论研究的是国民生产总值的增量趋势与各产业增值趋势间的多元线性关系[1]。本论文搜集了我国从1998至2012年15年的国民生产与各产业增量指标,拟定数个自变量,代入统计软件SPSS 19.0[2]对各影响因素进行了统计分析,综合分析结果模拟多元线性回归函数。模型建立之后,又将2013年数据作为测试集测试模型的拟合精确度,得到的结果达到预期值,得出模型建立较为成功。 关键词:逐步回归法,国民生产总值增量,线性拟合 一引言 国民生产总值(Gross Domestic Product)是在一定时期中,一个国家地区经济生产出的全部最终产品和劳务的价值,被公认为衡量国家经济状况的较佳指标。它不仅仅反映了一定的经济表现,还可以反映国家的综合国力与经济发展前景,作为经济政策的制定依据,研究我国的国民生产总值的制约因素成为了学者们的热点问题。下文就以1998年至2012年的统计数据为标准,利用SPSS 软件作出了多元线性回归分析。

二统计分析 2.1变量说明 因变量Y——国民生产总值增值(亿元);自变量x1——第一产业增加值(亿元) 自变量x2——第二产业增加值(亿元) 自变量x3——第三产业增加值(亿元) 自变量x4——工业增加值(亿元) 自变量x5——建筑业增加值(亿元)2.2统计数据 训练组 国民生产总 值增值(亿元) 第一产业增 加值(亿元) 第二产业增 加值(亿元) 第三产业增 加值(亿元) 工业增加值 (亿元) 建筑业增加 值(亿元) 2012年46366.05 52373.63 235161.99 231934.48 199670.66 35491.34 2011年71591.25 47486.21 220412.81 205205.02 188470.15 31942.66 2010年60609.99 40533.6 187383.21 173595.98 160722.23 26660.98 2009年26857.38 35226 157638.78 148038.04 135239.95 22398.83 2008年48235.12 33702 149003.44 131339.99 130260.24 18743.2 2007年49495.88 28627 125831.36 111351.95 110534.88 15296.48 2006年31377.06 24040 103719.54 88554.88 91310.94 12408.61 2005年25059.03 22420 87598.09 74919.28 77230.78 10367.31 2004年24055.58 21412.73 73904.31 64561.29 65210.03 8694.28

相关文档
相关文档 最新文档