文档库 最新最全的文档下载
当前位置:文档库 › 重庆大学研究生数理统计大作业

重庆大学研究生数理统计大作业

重庆大学研究生数理统计大作业
重庆大学研究生数理统计大作业

NBA球员科比单场总得分与上场时间的线性回归分析

摘要

篮球运动中,球员的上场时间与球员的场上得分的数学关系将影响到教练对每位球员上场时间的把握,若能得到某位球员的上场时间与场上得分的数据关系,将能更好的把握该名球员的场上时间分配。本次作业将针对现役NBA球员中影响力最大的球员科比布莱恩特进行研究,对其2012-2013年赛季常规赛的每场得分与出场时间进行线性回归,得到得分与出场时间的一元线性回归直线,并对显著性进行评估和进行区间预测。

正文

一、问题描述

随着2002年姚明加入NBA,越来越多的中国人开始关注篮球这一项体育运动,并使得篮球运动大范围的普及开来,尤其是青年学生。本着学以致用的原则,希望将所学理论知识与现实生活与个人兴趣相结合,若能通过建立相应的数理统计模型来做相应的分析,并且从另外一个角度解析篮球,并用以指导篮球这一项运动的更好发展,这也将是一项不同寻常的探索。篮球运动中,得分是取胜的决定因素,若要赢得比赛,必须将得分超出对手,而影响一位球员的得分的因素是多样的,例如:情绪,状态,体力,伤病,上场时间,防守队员等诸多因素,而上场时间作为最直接最关键的因素,其对球员总得分的影响方式有着重要的研究意义。

倘若知道了其分布规律,则可从数量上掌握得分与上场时间复杂关系的大趋势,就可以利用这种趋势研究球员效率最优化与上场时间的控制问题。

因此,本文针对湖人当家球星科比布莱恩特在2012-2013年赛季常规赛的每场得分与上场时间进行线性回归分析,并对显著性进行评估,以巩固所学知识,并发现自己的不足。

二、数据描述

抽出科比布莱恩特2012-2013年常规赛所有82场的数据记录(原始数据见附录),剔除掉其中没有上场的部分数据,得到有参考实用价值的数据如表2.1所示:

以上数据由腾讯篮球中心提供,特此说明。

三、模型建立

(1)假设条件

假定球员每场的发挥均为独立同分布事件, (2)模型构建

以上场时间为自变量Xi ,单场得分为应变量Yi ,建立正态线性模型式:

()012

,1,2,

,;0,,,,,i i i i

i i i Y x i n N ββεεσεεε=++=?????且相互独立 其中β0、β1为模型参数。 (3)模型求解 由数据记录资料:

()()()112

2,,,,

,

,n

n x y x y x y 用最小二乘法求得

回归方程:01y x ββ∧

∧∧

=+,其中()()

01

112

1

,()

n

i

i

i n

i

i x x y y y x x x βββ∧

∧∧

==--=

=--∑∑

若x0 表示x 某个固定的值,则相应的()2

001~,Y N x ββσ+

由于01,ββ 与22

21

1,(),2n

i i i Y Y n σσ∧∧==--∑是由历史数据得出, 因此2

01,

,,Y

ββσ∧ 相互独立。容易证得:

()

012

02011~,xx

x x x N x n l ββββσ∧

??

??-????+++???????????

?

, 同时可推出0100Y x ββ∧∧

??

-+ ???

服从正态分布,并能求得:

01000E Y x ββ∧

????-+= ??????

?,()

012

020011xx x x D Y x n l ββσ∧

?

?

-??????-+=++ ????????????

?

即:()

012

02001~0,1xx x x Y x N n l ββσ∧∧??

??-???

???-+++

???????

???????

?

, 由于i ε与01ββ∧∧

+均相互独立,故2

σ∧ 与0100Y x ββ∧∧

??

-+ ???

相互独立, 又()()2

22

2~2n n σχσ

∧--

故有:

()

0100~2ββ∧∧

??-+ ?

=

-Y x T t n 。

因此,给定一个X0,再给出一个置信水平1-α,就可以求出相对应Y0的预测区间:

(

)(

)001101012[22ββσββσ∧

∧∧∧

-?-?+--++-x t n x t n 当样本n 比较大时, 由于(

)1212,

1t n u -?-?-≈≈,

于是Y 的置信水平为1-α的预测区间近似为:

0011,σσ∧∧∧∧

-?-???-+????

y u y u 四、计算机设计方法与实现

(1)回归方程求解

数据如表2.1所示,事先去掉因伤病导致的缺席的数据点,经过观察分析,数据近似服从线性分布,求解的详细过程见附表1, 由数据计算得:

2

2

211()2998.286===-=-=∑∑n

n

xx i i i i l x x x nx

2

2

21

1

()6316.952===-=-=∑∑n

n

yy i i i i l y y y ny

1

()()2444.286==--=∑n

xy i i i l x x y y

根据最小二乘法原理得:

1

0.8152

3.6717

ββ∧

=+=-

回归方程为: 3.67170.8512∧

=-+y x 样本点与回归直线的关系如图4.1所示:

图4.1

(2)显著性检验 提出统计假设:

H0:01=β,H1:01≠β

采用r 检验法:

0.5616=

=

=r

取显著水平05.0=α,0.05(2)(82)0.217r n r α-==

则有0.05r r >(82),因此拒绝原假设,接收科比布莱恩特2012-2013赛季单场总

得分与上场时间存在显著的线性关系。 (3)区间预测

以Yo 的区间预测为例: 由以上计算同时可求出:

7.2619σ∧

== 由于:

()

0100~2Y x T t n ββ∧∧

??

-+ ?

=

-

Yo 的置信度为1-α的置信区间为:

(

)(

)001101012[22ββσββσ∧

∧∧∧

-?-?+--++-x t n x t n 由t 分布表,我们可以预测球员科比布莱恩特在相应的上场时间Xi 里其单场得分Yi 的置信度为1-α的置信区间。 例:

当Xi=40,置信水平1-α=1-0.05=0.95时: 查表:由线性内插法得到()0.97582 1.993t =

计算得:

1.0228

==

-+?±??=±

3.67170.851240 1.9937.2619 1.022830.37631

4.8029

因此当Xi=40时,参数Yi置信度为0.95的置信区间为:

[]

15.5739,45.1792

即当球员科比布莱恩特上场时间为40分钟时,其单场总得分落在区间[]

15.5739,45.1792的概率为95%。

五、模型结果分析

基于以上的结果可知,对于湖人队球员科比布莱恩特,其单场总得分与其上场时间有显著的线性关系,可以认为能通过改变其上场时间从而以线性的关系改变其单场总得分。

六、结语

以上方法得出的结果与真实值相比有一定偏差,但由于样本数量较大,因此数据结果也有较大的可信度,当样本数量增加时,用来预测的数据也更多,这样预测的可靠性会增强。

通过以上将所学知识应用于实践的过程,更好的让我理解了学以致用的学习过程,只要我们留心观察,数学模型则无处不在。理论联系实际,学以致用,才是我们学习这门课程的最终目的。

参考资料:

[1] 杨虎,刘琼荪,钟波.应用数理统计.北京:高等教育出版社.2004

附录

原始数据(来自腾讯篮球数据中心):

重庆大学2013-2014学年(秋)数理统计AB试题与答案

重庆大学全日制学术型硕士研究生 《数理统计》(A )课程试卷 2013-2014学年第一学期(秋) 请保留四位小数,部分下侧分位数为:0.95 1.65u =,0.99 2.33u =,2 0.95(1) 3.841χ=, 0.95(3,6)9.78f = 一、(18分)设1X ,2X ,…,64X 是来自总体N (0,2 σ)的样本,X ,2 S 分别是样本 均值和样本方差:(1)求参数c 满足{}0.1P X S c >?=;(2)求概率22 12 22 34 {1}X X P X X +>+;(3)求322321(2)i i i D X X X +=?? +-???? ∑。(请写出计算过程) 解:(1 ) ~(1)t n -{}}0.1P X S c P c ∴>?=>= 得0.95(63)c t = 故 1.650.20638c == (2)2 ~(0,)X N σ22212(/)(/)~(2)X X σσχ∴+ 同理22234(/)(/)~(2)X X σσχ+ 2222223412122234(/)(/)(/)(/)/~(2,2)22X X X X X X F X X σσσσ+++∴=+ 22 122234{1}{(2,2)1}X X P P F X X +>=>+ 且0.50.50.51(2,2)(2,2)1(2,2)F F F =?= 得2222 1212 2222 3434{1}1{1}0.5X X X X P P X X X X ++>=-≤=++ (3)令2 ~(2,2)i i n i Y X X N μσ+=+,112n i i Y Y X n ===∑ 22 1 ()(1)n i Y i T Y Y n S =∴=-=-∑ 3232 223211(2)[()]i i i i i D X X X DT D Y Y +==??+-==-???? ∑∑ 2~(0,2(11/))i Y Y N n σ-+ ~(0,1) Y N =32 22422421 [2(11/) 4(11/)((32))256(11/32)i Y D n n D σσχσ=+=+=+∑ 二、(26分)设1X ,2X ,…,n X 是来自总体2 ~(2,)(0)X N σσ>的样本,

北航数理统计回归分析大作业

应用数理统计第一次大作业 学号: 姓名: 班级: 2013年12月

国家财政收入的多元线性回归模型 摘 要 本文以多元线性回归为出发点,选取我国自1990至2008年连续19年的财政收入为因变量,初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选,最终确定了能反映财政收入与各因素之间关系的“最优”回归方程: 46?578.4790.1990.733y x x =++ 从而得出了结论,最后我们用2009年的数据进行了验证,得出的结果在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。 关键词:多元线性回归,逐步回归法,财政收入,SPSS 0符号说明 变 量 符号 财政收入 Y 工 业 X 1 农 业 X 2 受灾面积 X 3 建 筑 业 X 4 人 口 X 5 商品销售额 X 6

进出口总额X7

1 引言 中国作为世界第一大发展中国家,要实现中华民族的伟大复兴,必须把发展放在第一位。近年来,随着国家经济水平的飞速进步,人民生活水平日益提高,综合国力日渐强大。经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。政府有了强有力的财政保证才能够对全局进行把握和调控,对于整个国家和社会的健康快速发展有着重要的意义。所以对国家财政的收入状况进行研究是十分必要的。 国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是具体到各个方面的影响因素又有着十分复杂的相关原因。为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。而影响财政收入的因素有很多,如人口状况、引进的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据,包括工业,农业,建筑业,批发和零售贸易餐饮业,人口总数等。文中主要应用逐步回归的统计方法,对数据进行分析处理,最终得出能够反映各个因素对财政收入影响的最“优”模型。 2解决问题的方法和计算结果 2.1 样本数据的选取与整理 本文在进行统计时,查阅《中国统计年鉴2010》中收录的1990年至2009年连续20年的全国财政收入为因变量,考虑一些与能源消耗关系密切并且直观上

重庆大学概率与数理统计课后答案第八章

习题八 A 组 1.假设总体X ~)1,(μN ,从中抽取容量为25的样本,对统计假设0:,0:10≠=μμH H ,拒绝域为X 0={} 392.0≥x 。(1)求假设检验推断结果犯第Ⅰ类错误的概率。(2)若 3.0:1=μH ,求假设检验推断结果犯第Ⅱ类错误的概率。 解:(1){}{} 001H H P P α==犯第I 类错误拒绝成立={} 0392.0=>μX P { }{} 96.10392.0>==>=n X P X P μ,所以05.01=α (2){}{} 00H H P P β==犯第II 类错误接受不成立{} 3.0392.0=≤=μX P {} 6769.046.0)3.0(46.3=<-<-=n X P 2.已知某厂生产的电视机显像管寿命(单位:小时)服从正态分布。过去,显像管的平均寿 命是15000小时,标准差为3600小时。为了提高显像管寿命采用了一种新技术,现从新生 产的显像管中任意抽取36只进行测试,其平均寿命为15800=x 小时。若用假设检验方 法推断新技术是否显著提高了显像管的寿命,试指出:(1)假设检验中的总体;(2)统计假设;(3)检验法、检验统计量、拒绝域;(4)推断结果。 解:(1)假设检验中的总体是新生产的显像管的寿命,用X 表示,由题意知:X ~ ),(2σμN )90000,5000(N (2)统计假设: 15000 :0≤μH ,15000:1>μH (3)假设σ与过去一样为3600小时,那么检验方法为U 检验法,检验统计量为: n X U σ 15000 -= 显著水平05.0=α时的拒绝域为:X 0 = {}α->1u u ={}645.1>u (4)推断:因为U 的样本值为不在X 0 内,所以接受原假设,即在显著水平05.0=α 下, 认为新技术没有提高显像管的寿命。 3.某计算机公司使用的现行系统,运行通每个程序的平均时间为45秒。现在使用一个新系

最新重庆大学研究生数理统计期末考试题

涉及到的有关分位数: ()()()()()()()()()()()()2 0.950.950.950.9750.9750.9752222220.9750.0250.0250.9750.950.97520.95 1.645,16 1.746,15 1.753,16 2.12,15 2.131,1628.851527.49,16 6.91,15 6.26,1 5.02,1 3.84,27.382 5.99 u t t t t χχχχχχχχ============= 一、设123,,X X X 是来自总体~(0,3)X N 的样本。记()2 332 i 11 11,32i i i X X S X X ====-∑∑, 试确定下列统计量的分布: (1)3113i i X =∑;(2)2 3119i i X =?? ???∑;(3)() 2 31 13i i X X =-∑;(4 X 解:(1)由抽样分布定理,3 1 1~(0,1)3i i X X N ==∑ (2)因311~(0,1)3i i X N =∑,故2 2 332 1111~(1)39i i i i X X χ==????= ? ????? ∑∑ (3)由抽样分布定理, ()() () 2 2 23 3 21 1 31211~(2)3 323i i i i S X X X X χ==-=?-=-∑∑ (4)因()222~(0,1), ~23 X N S χ,X 与2S ()~2X t 。 二、在某个电视节目的收视率调查中,随机调查了1000人,有633人收看了该节目,试根 据调查结果,解答下列问题: (1)用矩估计法给出该节目收视率的估计量; (2)求出该节目收视率的最大似然估计量,并求出估计值; (3)判断该节目收视率的最大似然估计是否是无偏估计; (4)判断该节目收视率的最大似然估计是否是有效估计。 解:总体X 为调查任一人时是否收看,记为~(1,)X B p ,其中p 为收视率 (1)因EX p =,而^ E X X =,故收视率的矩估计量为^ X p = (2)总体X 的概率分布为() 1()1,0,1x x f x p p x -=-= 11 11 ()(1)(1) (1)ln ()ln (1)ln(1)ln ()(1) 01n n i i i i i i n x n x x x n X n n X i L p p p p p p p L p nX p n X p d L p nX n X dp p p ==- --=∑∑=-=-=-=+---=-=-∏

重庆大学研究生数理统计大作业

NBA球员科比单场总得分与上场时间的线性回归分析 摘要 篮球运动中,球员的上场时间与球员的场上得分的数学关系将影响到教练对每位球员上场时间的把握,若能得到某位球员的上场时间与场上得分的数据关系,将能更好的把握该名球员的场上时间分配。本次作业将针对现役NBA球员中影响力最大的球员科比布莱恩特进行研究,对其2012-2013年赛季常规赛的每场得分与出场时间进行线性回归,得到得分与出场时间的一元线性回归直线,并对显著性进行评估和进行区间预测。 正文 一、问题描述 随着2002年姚明加入NBA,越来越多的中国人开始关注篮球这一项体育运动,并使得篮球运动大范围的普及开来,尤其是青年学生。本着学以致用的原则,希望将所学理论知识与现实生活与个人兴趣相结合,若能通过建立相应的数理统计模型来做相应的分析,并且从另外一个角度解析篮球,并用以指导篮球这一项运动的更好发展,这也将是一项不同寻常的探索。篮球运动中,得分是取胜的决定因素,若要赢得比赛,必须将得分超出对手,而影响一位球员的得分的因素是多样的,例如:情绪,状态,体力,伤病,上场时间,防守队员等诸多因素,而上场时间作为最直接最关键的因素,其对球员总得分的影响方式有着重要的研究意义。 倘若知道了其分布规律,则可从数量上掌握得分与上场时间复杂关系的大趋势,就可以利用这种趋势研究球员效率最优化与上场时间的控制问题。 因此,本文针对湖人当家球星科比布莱恩特在2012-2013年赛季常规赛的每场得分与上场时间进行线性回归分析,并对显著性进行评估,以巩固所学知识,并发现自己的不足。 二、数据描述 抽出科比布莱恩特2012-2013年常规赛所有82场的数据记录(原始数据见附录),剔除掉其中没有上场的部分数据,得到有参考实用价值的数据如表2.1所示:

2018年数理统计大作业题目和答案--0348

2018年数理统计大作业题目和答案--0348

1、设总体X 服从正态分布),(2 σμN ,其中μ已知,2 σ 未知,n X X X ,,,2 1 为其样本,2≥n ,则下列说法中正 确的是( )。 (A )∑=-n i i X n 1 2 2 ) (μσ是统计量 (B )∑=n i i X n 1 22 σ是统计量 (C )∑=--n i i X n 1 2 2 ) (1μσ是统计量 (D )∑=n i i X n 1 2μ 是统计量 2、设两独立随机变量)1,0(~N X ,) 9(~2 χY ,则Y X 3服从 ( )。 )(A ) 1,0(N )(B ) 3(t )(C ) 9(t )(D ) 9,1(F 3、设两独立随机变量)1,0(~N X ,2 ~(16) Y χ,则Y 服 从( )。 )(A )1,0(N )(B (4) t )(C (16) t )(D (1,4) F 4、设n X X ,,1 是来自总体X 的样本,且μ=EX ,则下 列是μ的无偏估计的是( ). ) (A ∑-=-1 1 1 1 n i i X n )(B ∑=-n i i X n 1 11 )(C ∑=n i i X n 2 1 )(D ∑-=1 1 1n i i X n 5、设4 3 2 1 ,,,X X X X 是总体2 (0,)N σ的样本,2 σ未知,则下列随机变量是统计量的是( ).

() (1) D t n- 10、设 1,, n X X ???为来自正态总体2 (,) Nμσ的一个样本,μ,2σ未知。则2σ的置信度为1α-的区间估计的枢轴量为()。 (A) ()2 1 2 n i i Xμ σ = - ∑ (B) ()2 1 2 n i i Xμ σ = - ∑ (C) () ∑ = - n i i X X 1 2 2 1 σ (D) ()2 1 2 n i i X X σ = -∑ 11、在假设检验中,下列说法正确的是()。 (A) 如果原假设是正确的,但作出的决策是接受备择假设,则犯了第一类错误; (B) 如果备择假设是正确的,但作出的决策是拒绝备择假设,则犯了第一类错误; (C) 第一类错误和第二类错误同时都要犯; (D) 如果原假设是错误的,但作出的决策是接受备择假设,则犯了第二类错误。 12、对总体2 ~(,) X Nμσ的均值μ和作区间估计,得到置信度为95%的置信区 间,意义是指这个区间()。 (A)平均含总体95%的值(B)平 均含样本95%的值

重庆大学《概率论与数理统计Ⅰ》课程试卷.

重庆大学《概率论与数理统计Ⅰ》课程试卷 2015—2016学年第一学期 1、填空题(共42分) 1.设P(A)=0.7,P(B)=0.5,P(A-B)=____________,=____________。 2.某学院在2014年招生的三个专业中,学生所占的比例分别为30%, 45%,25%。在2015年评选优异生的过程中,学院决定专业打通按综 合成绩排序进行评选,其评选结果是三个专业占总人数的比例分别 为0.04,0.045,0.031,则该学院评选的优异生的比例(概率)为: ________________。 3.设连续性随机变量的分布函数为则A=____________,X的密度函数 =_________________,。 4.设随机变量X的密度函数,则EX=___________,随机变量Y=2X-1 的密度函数。 5.设则,根据切比雪夫不等式估计概率。 6.设是样本容量为15且来自总体P(3)(泊松分布)的样本均值,则。 7.设是来自总体N(0,4)的样本,则常数C=________,统计量(注:确 定分布),。 二、(10分)设一枚深水炸弹击沉一艘潜艇的概率为,击伤的概率为, 未击中的概率为,并设击伤潜艇两次也可导致其下沉,求施放3枚深水 炸弹能击沉潜艇的概率。 三、(14分)设二维随机变量的联合密度函数为: 求:(1)求随机变量X的边缘分布密度函数;

2)协方差; (3)随机变量的密度函数。 四、(10分)经计算,神州号飞船返回舱将降落到内蒙古草原一个半 径3公里的圆形区域。地面搜索队员在圆心处待命,飞船一旦降落,将 按直线以最快速度到达进行救援。假设飞船着陆点在这个圆形区域内 服从均匀分布,求搜索队到达着陆点所需路程的期望值。 五、(12分)设总体是来自总体X的样本,求 (1)参数的矩估计量和最大似然估计量; (2)判断估计量是否是参数的无偏估计量。

吉林大学2015概率论与数理统计大作业完整版

吉林大学网络教育 大作业 1.仪器中有三个元件,它们损坏的概率都是0.2,并且损坏与否相互独立.当一个元件损坏时, 仪器发生故障的概率为0.25,当两个元件损坏时,仪器发生故障的概率为0.6,当三个元件损坏时,仪器发生故障的概率为0.95, 当三个元件都不损坏时,仪器不发生故障.求:(1)仪器发生故障的概率;(2)仪器发生故障时恰有二个元件损坏的概率. (1)解:设A 表示事件“仪器发生故障”,i=1,2,3 P(A)= )/()(3 1 B B i i i A P P ∑=, P(B1)=3*0.2*0.80.2=0.384,P(B2)=3*0.22*0.8=0.096,P(B3)=0.23=0.008 所以P(A)=0.384*0.25+0.096*0.6+0.008*0.95+0.1612 (2) P(B 2/A)= ) ()(2A P A p B =0.96*0.6/0.1612=0.3573 2.设连续型随机变量X 的分布函数为 0, ,()arcsin ,,(0)1, ,x a x F x A B a x a a a x a ≤-??? =+-<<>?? ≥?? 求:(1)常数A 、B .(2)随机变量X 落在,22a a ?? - ??? 内的概率.(3)X 的概率密度函数. 解:(1)F (a+0)=A-2πB=0,F (a-0) =A+2πB=1 所以A=0.5 B=π 1 (2)P{-2a

最新数理统计大作业

数理统计学大作业 学院航空航天工程学部专业飞行器设计 班级航宇二班 学号142103130228 姓名张立 指导教师姜永 负责教师 沈阳航空航天大学 2014年12月

目录 (2) 前言 (2) 一、采集样本数据整理及SPSS统计软件的实现 (3) 1.1、数据的收集方法及说明 (3) 1.2、数据整理:给出频数、频率分布表及偏度和峰度 (4) 1.3、画出直方图和折线图 (5) 1.4、经验分布函数和图形 (6) 1.5、各种概率分布 (7) 二、给出总体分布的参数估计 (12) 2.1、矩估计法 (12) 2.2、最大似然估计 (12) 2.3、参数区间估计 (13) 三、参数的假设检验 (16) 3.1. 样本统计数据的t检验 (16) 3.2样本统计数据的2χ检验 (17) 四、非参数假设检验( 2 χ拟合优度检验) (18) 4.1、2χ拟合优度检验 (18) 五、结论 (20) 参考文献 (21)

数理统计学是研究有效地运用数据收集与数据处理、多种模型与技术分析、社会调查与统计分析等,对科技前沿和国民经济重大问题和复杂问题,以及社会和政府中的大量问题,如何对数据进行推理,以便对问题进行推断或预测,从而对决策和行动提供依据和建议的应用广泛的基础性学科。随着科学技术的发展,数理统计的作用在国民生活中越来越重要,特别是现在随着大数据的时代来临,迫切的需要我们对大量数据的处理能力,当然这些大量的数据不可能用人工计算,有很多可以实际应用的数理统计软件,这次大作业我使用的是SPSS软件。 由于数理统计是一门实用性极强的学科,在学习中要紧扣它的实际背景,理解统计方法的直观含义。了解数理统计能解决那些实际问题。对如何处理抽样数据,并根据处理的结果作出合理的统计推断,该结论的可靠性有多少要有一个总体的思维框架,这样,学起来就不会枯燥而且容易记忆。例如估计未知分布的数学期望,就要考虑到:1.如何寻求合适的估计量的途径,2.如何比较多个估计量的优劣。这样,针对1按不同的统计思想可推出矩估计和极大似然估计,而针对2又可分为无偏估计、有效估计、相合估计,因为不同的估计名称有着不同的含义,一个具体估计量可以满足上面的每一个,也可能不满足。掌握了寻求估计的统计思想,具体寻求估计的步骤往往是“套路子”的,并不困难,然而如果没有从根本上理解,仅死背套路子往往会出现各种错误.

北航-数理统计大作业

对中国各地财政收入情况的聚类分析和判 别分析 应用数理统计第二次大作业 学院名称 学号 学生姓名 摘要 我国幅员辽阔,由于人才、地理位置、自然资源等条件的不同,各地区的财政收入类型各自呈现出不一样的发展趋势,通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。本文以中国各地财政收入情况为研究对象,从《中国统计年鉴》中选取2011年期间中国各地财政收入情况为因

变量,选取国内增值税、营业税、企业所得税、个人所得税、城市维护建设税、土地增值税、契税、专项收入、行政事业性收费收入、国有资本经营收入和国有资源(资产)有偿使用收入11个可能影响中国各地财政收入的因素为自变量,利用统计软件SPSS,对27个地区的财政收入进行了聚类分析,并对另外4个地区的财政收入进行了判别分析,并最终确定了中国各地区根据财政收入类型的分类情况。 关键词:聚类分析,判别分析,SPSS,中国各地财政收入类型 1、引言 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。 本文利用统计软件SPSS,根据各地区的财政收入情况,对北京、天津、河北等27个地区进行聚类分析,并对青海、重庆、四川、贵州4个省市进行判别分析,判断属于聚类分析结果中的哪种财政收入类型。 1.1 聚类分析 聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称,它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。本文采用的是系统聚类分析,它又称集群分析,是聚类分析中应用最广的一种方法,其基本思想是:首先将每个聚类对象看作一类,然后根据对象间的相似程度,将相似程度最高的两类进行合并,并计算合并后的类与其他类之间的距离,再选择相近者进行合并,每合并一次减少一类,直至所有的对象都并为一类为止。 系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就

重大数理统计大作业

研究生“数理统计”课程课外作业 姓名:学号: 学院:光电工程学院专业:测控技术与仪器 类别:上课时间: 成绩: 城镇居民家庭食品总支出与肉类食品支出关系研究分析

摘要: 近些年,我国经济高速增长,居民的家庭收入大幅提高,同时居民的生活水平和质量也有了很大的提高,以前只有在过节或者有贵客时才能在餐桌上见到的各种食品现在已经平常化日常化。 肉类做为日常家庭食品的一个重要组成部分,也快速的增长着.上世纪80年代以来,城市居民家庭人均肉类消费增长了1倍。从表面看来家庭食品支出越高肉类消费越多。但是我们将城镇居民按家庭收入分成5等份,发现收入最低的吃肉最少,随着收入的增加,肉类消费数量同步增加,收入越高吃肉越多。但是也有部分高收入家庭的肉类消费量开始下降。因为这部分群体对于健康饮食的关注远远高于其他人群。所以从总体上看来,家庭食品总支出与肉类食品支出之间存在着一定的相互关联。在此文中我们以回归分析方法分析检验了家庭肉类食品消费支出与家庭食品总支出是否存在线性相关关系。 关键词:家庭肉类食品支出与食品总支出,回归分析方法 正文 随着我国经济的快速发展,居民的生活水平也有了显著的提高。同时城市居民家庭在食品方面的开支始终占据着很大的份额,其中肉类的开支也有着显著的提高。故提出在我国居民生活水平日益提高的情况下肉类食品的消费水平是否与家庭总的食品消费水平存在线性相关性? 数据描述: 表一:家庭食品支出与各种肉类支出分布 家庭食品支出与肉类支出关系(元/月) 品名 按人平月可支配收入比例分组 最低收入 户低收入户 中等收入 户高收入户 最高收入 户 猪肉187.44 233.16 248.88 269.4 236.04 牛肉9.36 18.84 26.76 24.48 28.44

数理统计大作业知识分享

数理统计大作业

数理统计学大作业 学院航空航天工程学部专业飞行器设计 班级航宇二班 学号142103130228 姓名张立 指导教师姜永 负责教师 沈阳航空航天大学 2014年12月 目录

目录 (2) 前言 (3) 一、采集样本数据整理及SPSS统计软件的实现 (5) 1.1、数据的收集方法及说明 (5) 1.2、数据整理:给出频数、频率分布表及偏度和峰度 (5) 1.3、画出直方图和折线图 (7) 1.4、经验分布函数和图形 (8) 1.5、各种概率分布 (8) 二、给出总体分布的参数估计 (13) 2.1、矩估计法 (13) 2.2、最大似然估计 (14) 2.3、参数区间估计 (15) 三、参数的假设检验 (18) 3.1. 样本统计数据的t检验 (18) 3.2样本统计数据的2χ检验 (19) 四、非参数假设检验( 2 χ拟合优度检验) (20) 4.1、2χ拟合优度检验 (20) 五、结论 (22) 参考文献 (23) 前言 数理统计学是研究有效地运用数据收集与数据处理、多种模型与技术分析、

社会调查与统计分析等,对科技前沿和国民经济重大问题和复杂问题,以及社会和政府中的大量问题,如何对数据进行推理,以便对问题进行推断或预测,从而对决策和行动提供依据和建议的应用广泛的基础性学科。随着科学技术的发展,数理统计的作用在国民生活中越来越重要,特别是现在随着大数据的时代来临,迫切的需要我们对大量数据的处理能力,当然这些大量的数据不可能用人工计算,有很多可以实际应用的数理统计软件,这次大作业我使用的是SPSS软件。 由于数理统计是一门实用性极强的学科,在学习中要紧扣它的实际背景,理解统计方法的直观含义。了解数理统计能解决那些实际问题。对如何处理抽样数据,并根据处理的结果作出合理的统计推断,该结论的可靠性有多少要有一个总体的思维框架,这样,学起来就不会枯燥而且容易记忆。例如估计未知分布的数学期望,就要考虑到:1.如何寻求合适的估计量的途径,2.如何比较多个估计量的优劣。这样,针对1按不同的统计思想可推出矩估计和极大似然估计,而针对2又可分为无偏估计、有效估计、相合估计,因为不同的估计名称有着不同的含义,一个具体估计量可以满足上面的每一个,也可能不满足。掌握了寻求估计的统计思想,具体寻求估计的步骤往往是“套路子”的,并不困难,然而如果没有从根本上理解,仅死背套路子往往会出现各种错误.

2018年数理统计大作业题目和答案--0348

1、设总体X 服从正态分布),(2 σμN ,其中μ已知,2 σ未知,n X X X ,,,21Λ为其样本, 2≥n ,则下列说法中正确的是( ) 。 (A ) ∑=-n i i X n 12 2 )(μσ是统计量 (B ) ∑=n i i X n 1 22 σ是统计量 (C ) ∑=--n i i X n 1 2 2 )(1μσ是统计量 (D ) ∑=n i i X n 1 2 μ 是统计量 2、设两独立随机变量)1,0(~N X ,)9(~2 χY ,则 Y X 3服从( )。 )(A )1,0(N )(B )3(t )(C )9(t )(D )9,1(F 3、设两独立随机变量)1,0(~N X ,2 ~(16)Y χ )。 )(A )1,0(N )(B (4)t )(C (16)t )(D (1,4)F 4、设n X X ,,1Λ是来自总体X 的样本,且μ=EX ,则下列是μ的无偏估计的是( ). ) (A ∑ -=-1 1 1 1n i i X n )(B ∑=-n i i X n 111 )(C ∑=n i i X n 21 )(D ∑-=1 1 1n i i X n 5、设4321,,,X X X X 是总体2 (0,)N σ的样本,2 σ未知,则下列随机变量是统计量的是 ( ). (A )3/X σ; (B ) 4 1 4 i i X =∑; (C )σ-1X ; (D ) 4 221 /i i X σ=∑ 6、设总体),(~2 σμN X ,1,,n X X L 为样本,S X ,分别为样本均值和标准差,则 下列正确的是( ). 2() ~(,)A X N μσ 2() ~(,)B nX N μσ 222 1 1 () ()~()n i i C X n μχσ=-∑ ) () ~()X D t n S μ- 7、设总体X 服从两点分布B (1,p ),其中p 是未知参数,15,,X X ???是来自总体的简单随机样本,则下列随机变量不是统计量为( ) ( A ) . 12X X + ( B ) {}max ,15i X i ≤≤

2015重庆大学数理统计大作业综述

研究生课程考核试卷 (适用于课程论文、提交报告) 科目:数理统计教师:刘琼荪 姓名:xxx 学号:20150702xxx 专业:机械工程类别:学术 上课时间:2016 年 3 月至2016 年 4 月 考生成绩: 卷面成绩平时成绩课程综合成绩阅卷评语: 阅卷教师(签名)

我国上世纪70-90年代民航客运量回归分析 摘要:中国民航从上实际50年代发展至今已有60多年的历史,这期间中国民航经历了曲折的发展。随着改革开发以来,中国人民的生活水平日渐提高,出行坐乘飞机逐渐人们可选的交通方式。我国民航客运量逐年提高,为了研究其历史变化趋势及其成因,现以民航客运量作为因变量y,假设以国民收入x1、消费额x2、铁路客运量x3、民航航线里程x4、来华旅游入境人数x5为影响民航客运量的主要因素。利用SPSS和excel软件通过建立回归模型分析我国民航客运量主要受到其中哪些因素的影响,并就回归模型分析具体可能的成因。 关键词:民航客运量影响因素回归模型 一、问题提出及问题分析 2004年,民航行业完成运输总周转量230亿吨公里、旅客运输量1.2亿人、货邮运输量273万吨、通用航空作业7.7万小时。截止2004年底,我国定期航班航线达到1200条,其中国内航线(包括香港、澳门航线)975条,国际航线225条,境内民航定期航班通航机场133个(不含香港、澳门),形成了以北京、上海、广州机场为中心,以省会、旅游城市机场为枢纽,其它城市机场为支干,联结国内127个城市,联结38个国家80个城市的航空运输网络。民航机队规模不断扩大,截止至2004年底,中国民航拥有运输飞机754架,其中大中型飞机680架,均为世界上最先进的飞机。2004年中国民航运输总周转量达到230亿吨公里(不包括香港、澳门特别行政区以及台湾省),在国际民航组织188个缔约国中名列第3位。 从上述事实可以看出我国民航的发展所取得的成果显著。当前我国民航客运量相当巨大,而影响我国航运客运量的因素有很多,例如第三产业增加值(亿元),城市居民消费水平(绝对元),定期航班航线里程(万千里)等[1]。为了研究过去的情况,从中国统计年鉴[2]得到1994年统计摘要,分析类似因素对我国航空客运量的影响。

重庆大学数理统计试题2

一、假设129,,X X X …,是来自总体()2~,X N μσ的简单随机样本,X 是样本均值,2S 是样本方差,求下列常数a 的值。 (1)() 0.78P X a σμ<+=;(2)922113.49()15.51i i P X X a σ=?? <-≤= ??? ∑;(3) 0.05X P a S μ?? ->= ???。 解:(1 )2~(, ~(0,1)x x N N N σμ x p a < = 即 2.34},(2.34),0.99x p a a a <=Φ==。 (2) 2 22 (1)~(1)n s n χσ -- 99 2 22 211 9 2 2 12 2 1:()(1)()11 {3.49() 15.51}(1){3.4915.51}(15.51)(3.49)10.950.10.85 i i i i i i s x x n s x x n p x x a n s p a a a a σ σ ===-?-=--<-≤=-< ≤=Φ-Φ+=-==∑∑∑ (3 2 22 (1)~(0,1), ~(1)X n s N n χσ -- ~(1),t n -

即 () ~(1)3(){}0.05 3()1{}0.053(){}0.95 1.86 X t n s X p a s X p a s X p a s a μμμμ--->=--≤=-≤== 二、设总体X 的密度函数()2,0 ()00,0 x xe x f x x λλλ-?>=>?≤?其一个样本为12,,n X X X …, (1)求()1 g λλ = 的最大似然估计量T ; (2)验证T 是否为()1 g λλ =的有效估计量,若是,写出信息量()I λ; (3)验证T 是否为()1 g λλ = 的相合估计量。 解:(1)1 2 21 1 1 ()(,)()()n i i i n n n x x n i i i I I i L f x x e x e λ λλλλ λ=--===∑= ==∏∏∏ 1 1 11ln ()2ln ln 2ln ()01112212 n n i i i i n i i n i i L n x x d n L x d x x n T X λλλλλλλ=====+-=-===∴=∑∑∑∑ (2)由(1) 121220211ln (,,,)2()21 ,()22 1111 ()()222n n i i x d n L X X X X n X d T X c n E T E X EX x e dx λλλλλ λλλ=+∞-=-=--==-==== ∑? T 是 1λ得无偏估计量因而T 是1 λ 的有偏估计量。 信息量2()()2 ()c g I n λλλλ '==

北航数理统计大作业(逐步回归)

BEIHANG UNIVERSITY 应用数理统计 第一次大作业 学号: 姓名:一 班级:B11班 2015年12月

民航客运量的多元线性回归分析 摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了1996年至2013年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计软件SPSS寸各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,并采用2014年的数据进行检验,得到的结果达到预期,证明该模型建立是较为成功的。 关键词:多元线性回归,逐步回归法,民航客运量

1. 引言 随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人们日益关注的问题。因为航空的安全性,快速且价格水平越来越倾向大众,越来越多的人们选择航空这种交通方式。近年来,我国的航空客运量已经进入世界前列,为掌握航空客运的动态,合理安排班机数量。科学地对我国民航客运量的影响因素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。本文收集整理了与我国航空客运量相关的历年数据,运用SPSS软件对数据进行 分析,研究1996年起至2013年我国民航客运量y (万人)与国民生产总值X i (亿元)、铁路客运量X2 (万人)、民航航线里程X3 (万公里)、入境过夜旅游人数X4 (万人)、城镇居民人均可支配收入X5 (元)的关系。采用逐步回归法建立线性模型,选出较优的线性回归模型。 2. 数据的统计与分析 本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴2014》以及中国知网数据查询中的数据,收集了1996年至2013年各个自变量因素的数据,分析它们之间的联系。整理如表1所示。

重庆大学数理统计大作业——论文

学号 20131613110 姓名王磊 学院土木工程专业建筑与土木工程 成绩 重庆市建筑业企业劳动生产率与企业平均收入 的关系研究 摘要 建筑业是重庆市国民经济的支柱行业之一。在重庆城市地位提升,经济和社会发展加速,国家中心城市作用逐步体现的进程中,建筑业的发展承担了重要的责任。建筑业的发展与建筑企业的发展密切相关,因此关注建筑企业能否良好和迅速的发展就有很强的现实意义。对建筑企业来说,其经营收入的增长是其良好发展的支撑条件之一。在影响建筑企业收入的众多因素中,企业的劳动生产率是一个重要的影响因素。因此,本文研究劳动生产率与企业平均收入的相关关系,为重庆市建筑企业平均收入的增加和企业的良好发展起到一定的实际作用。 关键词:劳动生产率企业平均收入相关关系

一、问题提出和问题分析 今天的重庆,肩负着中央赋予的历史重任——着力打造西部地区的重要增长极、长江上游地区的经济中心、成为统筹城乡发展的试验者、在西部地区率先实现全面建设小康社会的目标。2010年初,又一重要规划将重庆发展提升到国家战略——重庆被确定为国家五大中心城市之一,是中西部地区唯一入选的城市。这说明,重庆未来的发展不可限量。 自1997年直辖以来,重庆市的经济社会发展极为迅猛。全市的GDP由1997年的1360.24亿元增长至2010年的7894.2亿元,而整个社会的发展进步也有目共睹。在重庆过去、现在和未来的发展进程中,在重庆的各种发展规划的要求下,建设必将成为山城的另一个符号。过去十多年中的大规模、大范围的建设成就了现在的重庆,而重庆未来的发展将需要更多的建设。 作为重庆建设中最重要的一环,建筑业在重庆显然有着重要的地位。建筑业这种专门从事土木工程、房屋建设和设备安装以及工程勘察设计工作的生产部门,为重庆的发展建设提供着众多的基础设施,满足着居住、工业、商业、办公等各种城市需求。数据显示,在过去的数年中,重庆市建筑业的总产值占全市GDP的7%-8%,是名副其实的支柱产业。因此建筑业的发展情况,可以从侧面反映出整个重庆社会经济的发展情况,对重庆建筑业的研究就有了很大的现实意义。 建筑企业是建筑业的主体。众多的建筑企业的良好发展构成了建筑业的良好发展。对于建筑企业来说,要实现企业的良好经营和发展,必须要有良好的收入来支撑。在建筑企业收入的众多影响因素中,企业的劳动生产率无疑是值得关注的一个。企业都在致力于提高自身的劳动生产效率,而不断提高的劳动生产率,可使得企业的生产经营行为更具效率,因而获得更多的收入,实现更好的发展。 所以,研究重庆市建筑企业劳动生产率与企业收入的关系,可从一个角度来了解重庆市建筑企业的发展情况,从而了解到了重庆建筑业的发展以至于重庆市的经济发展情况。为了找出二者之间的关系或者规律性,本文采用2001-2010这十年中重庆建筑企业劳动生产率和企业平均收入的数据,通过数学分析,找出二者关系。

概率论与数理统计(西安电子科技大学大作业)

学习中心/函授站_ 姓 名 学 号 西安电子科技大学网络与继续教育学院 2018学年上学期 《概率论与数理统计》期末考试试题 (综合大作业) 考试说明: 1、大作业于2018年4月19日下发,2018年5月5日交回,此页须在答卷中保留; 2、考试必须独立完成,如发现抄袭、雷同均按零分计; 3、答案须手写完成,要求字迹工整、卷面干净。 一、选择题(每题3分,共30分) 1.设A 、B 、C 是随机事件,且AB C ?,则( )。 A .C A B ? B .A C ?且B C ? C .C AB ? D .A C ?或B C ? 2.设一盒子中有5件产品,其中3件正品,2件次品。从盒子中任取2件,则取出的2件产品中至少有1件次品的概率为( )。 A . 310 B .510 C .710 D .1 5 3.设()F x 是随机变量X 的分布函数,则( )。 A .()F x 一定连续 B .()F x 一定右连续 C .()F x 是单调不增的 D .()F x 一定左连续 4.设连续型随机变量X 的概率密度为()x ?,且()()x x ??-=,()F x 是X 的分布函数,则对任何的实数a ,有( )。

A .0()1()a F a x dx ?-=-? B .0 1 ()()2a F a x dx ?-=-? C .()()F a F a -= D .()2()1F a F a -=- 5.设二维连续型随机变量(,)X Y 的联合概率密度为 22 6 (,), , x y f x y Ae x y +- =-∞<<+∞-∞<<+∞ 则常数A =( )。 A . 12π B .112π C .124π D .16π 6.设随机变量X 、Y 相互独立,且分别服从参数为1和参数为4的指数分布,则 ()P X Y <=( ) 。 A . 15 B .13 C .25 D .4 5 7.有10张奖券,其中8张2元,2张5元,今某人从中随机地抽取3张,则此人得奖 金额的数学期望为( )。 A .6 B .12 C .7.8 D .9 8. 设连续型随机变量X 的概率密度为 , 01 ()0, a bx x f x +<

数理统计大作业(北航)2014版

应用数理统计 大作业一 学院:XXXXXXX 学号:XXXXXXX 姓名:XXX 指导老师:XXX 2014年12月21日

国民生产总值增量的多元线性回归模型 摘要:国民生产总值一直是衡量国家综合经济水平的重要指标,本文要讨论研究的是国民生产总值的增量趋势与各产业增值趋势间的多元线性关系[1]。本论文搜集了我国从1998至2012年15年的国民生产与各产业增量指标,拟定数个自变量,代入统计软件SPSS 19.0[2]对各影响因素进行了统计分析,综合分析结果模拟多元线性回归函数。模型建立之后,又将2013年数据作为测试集测试模型的拟合精确度,得到的结果达到预期值,得出模型建立较为成功。 关键词:逐步回归法,国民生产总值增量,线性拟合 一引言 国民生产总值(Gross Domestic Product)是在一定时期中,一个国家地区经济生产出的全部最终产品和劳务的价值,被公认为衡量国家经济状况的较佳指标。它不仅仅反映了一定的经济表现,还可以反映国家的综合国力与经济发展前景,作为经济政策的制定依据,研究我国的国民生产总值的制约因素成为了学者们的热点问题。下文就以1998年至2012年的统计数据为标准,利用SPSS 软件作出了多元线性回归分析。

二统计分析 2.1变量说明 因变量Y——国民生产总值增值(亿元);自变量x1——第一产业增加值(亿元) 自变量x2——第二产业增加值(亿元) 自变量x3——第三产业增加值(亿元) 自变量x4——工业增加值(亿元) 自变量x5——建筑业增加值(亿元)2.2统计数据 训练组 国民生产总 值增值(亿元) 第一产业增 加值(亿元) 第二产业增 加值(亿元) 第三产业增 加值(亿元) 工业增加值 (亿元) 建筑业增加 值(亿元) 2012年46366.05 52373.63 235161.99 231934.48 199670.66 35491.34 2011年71591.25 47486.21 220412.81 205205.02 188470.15 31942.66 2010年60609.99 40533.6 187383.21 173595.98 160722.23 26660.98 2009年26857.38 35226 157638.78 148038.04 135239.95 22398.83 2008年48235.12 33702 149003.44 131339.99 130260.24 18743.2 2007年49495.88 28627 125831.36 111351.95 110534.88 15296.48 2006年31377.06 24040 103719.54 88554.88 91310.94 12408.61 2005年25059.03 22420 87598.09 74919.28 77230.78 10367.31 2004年24055.58 21412.73 73904.31 64561.29 65210.03 8694.28

相关文档
相关文档 最新文档