文档库 最新最全的文档下载
当前位置:文档库 › 基于回归分析的煤炭价格预测模型

基于回归分析的煤炭价格预测模型

基于回归分析的煤炭价格预测模型
基于回归分析的煤炭价格预测模型

基于回归分析的煤炭价格预测模型

华北电力大学(保定)

武小莉热动0704

王坤动力实07

张帆电力实07

基于回归分析的煤炭价格预测模型

摘要:本文主要通过分析煤炭价格的变动趋势以及影响煤炭价格的因素,运用数据分析中的回归分析,分别建立了单变量非线性回归模型和多元线性回归预测模型,实现了对煤炭价格的预测。

首先通过对我国1985-2006年煤炭价格走势的分析,建立了以时间为自变量、煤炭价格为因变量的单变量非线性回归模型,拟合出了煤炭价格随时间的变化规律,此模型能在一定程度上预测出煤炭价格的变化趋势,但运用此模型预测出的2007年的煤炭价格与实际值有较大偏差。

对照国家相关政策的变动,对原模型产生偏差的原因进行深入分析,发现供求关系是影响煤炭价格的主要深层次因素。选取1990-2006年间煤炭的生产量、消费量、进口量、出口量作为自变量,仍以煤炭价格作为因变量,建立了多元线性回归模型,并对此阶段的四个自变量做了时间序列分析,得到了2007年各个自变量的预测值,继而运用此模型较精确地预测出了2007年的煤炭价格。

关键词:单变量非线性回归分析、多元回归分析、价格预测

一、问题的提出

中国是当今世界上以煤为主要能源的少数几个国家之一,煤炭在中国经济社会发展中占有重要的地位。它不仅是工业部门燃料动力的主要来源,也是重要的化工原料和民用能源,并已成为重要的出口商品。目前,煤炭约占中国一次能源总产量的70%,约占一次能源中消费量的66%(国家统计局,2004d)。未来较长时期内,煤炭仍将是中国能源的支柱,它在国民经济中具有重要的战略地位。

近十年来,我国的煤炭价格一直保持大幅度的波动,特别是近几年的煤炭价格上涨已经引起社会的广泛关注。煤炭作为基础能源,需求缺口的拉大,必将导致作为市场信号的价格上扬。客观分析和判定煤炭价格的影响因素,了解并能够预测未来煤炭价格,对于掌握决策的主动权,作出合理的决策,是非常必要的。

二、问题的分析

对煤炭价格进行预测,需要掌握一定量的数据。通过查询,可以获得的数据量有:近二十年来煤炭工业产品的出厂价格以及各年的煤炭平衡表。

通过对所得数据的分析,发现煤炭价格逐年递增,且随时间成非线性变化。在对整体数据分析的基础上,可以建立煤炭价格与时间的单变量非线性回归方程,继而可根据此回归方程进行价格预测。

单变量回归模型仅是单纯地研究了煤炭价格随时间的变化规律,过于简单且表面化。事实上煤炭价格受多方因素的影响,这些影响因素才是煤炭价格变化的根本原因,建立煤炭价格与各影响因素间的回归模型,对未来煤炭价格进行分析预测更具有合理性。

在不考虑国家政策强制干预的前提下,决定煤炭价格的主要因素是供需关系。随着煤炭市场的有序放开和煤炭市场化进程的加快,煤炭价格回归理性的预期将会显现。这就需要结合我国煤炭产业的实际情况,重点从煤炭的生产量、消费量、进口量以及出口量对煤炭价格进行统计模拟分析,建立煤炭价格与这些变量的回归模型,从而实现对未来煤炭价格的预测。

三、 模型假设

3.1查找得到的数据真实可靠,且煤炭价格为全国平均价格。

3.2多元线性回归模型中,煤炭价格主要受市场条件下的供求关系的影响,建立模型过程中不考虑国家政策的强制干预。

3.3多元线性回归模型中,假设在市场条件下,主要讨论煤炭价格受煤炭生产量、煤炭消费量以及进、出口量的影响,忽略其他影响因素。

四、 模型的建立和求解

5.1非线性回归模型 5.1.1 模型的建立

表5-1中给出了1985-2006年的煤炭价格。由此作出煤炭价格走势图,如图5-1所示。

图5.1 煤炭价格(单位:元/吨)

通过分析图中价格走势,确定选择指数回归方程作为价格指数的变化趋势的模拟,另在回归方程上加1个三角函数作为周期变化规律的模拟,方程的形式为:

)sin(θωλ-+=t Bt Ae

y t

(5-1)

上式中:y 为煤炭价格(元/吨);t 为时间(年);θωγ,,,,B A 为常数。 5.1.2 模型的求解与精确度分析

取l985年为时间的零点,以下类推,建立煤炭价格与时间之间的回归方程,代入数据,求解方程中各参数,得回归方程为

)4225.727067.6sin(0116.28499.3109572.0-+=t t e

y t

(5-2)

表5-1中给出了由此模型得到煤炭价格的拟合值及残差。

表5-1 1985—2006年煤炭价格历史统计数据及模型拟合情况

根据2R与F可知,该模型的显著性良好,通过检验。

绘制粮食价格综合指数的理论值与实际值之间的对比图(图5-2),从图中可以看出该曲线对实际值的拟合效果很好,根据理论曲线可以预测未来粮食价格指数的走势。

图5-2 实际价格与单变量的非线性模型拟合值的对比

5.1.3 模型的检验与结果分析

由方程(5-2)预测2007年(令23

t)的煤炭价格为294.8561元/吨,而2007年煤炭的实际价格为246.7395元/吨,残差值达到-48.1215,标准化残差也已达到-7.1179,残差值突然增大,结果不够理想。

分析其原因,本模型由一段时期内的价格走势凭经验建立回归方程,指数部分体现其整体变化趋势,三角函数部分体现其波动的周期性,而实际情况是煤炭价格受多方因素影响,特别是国家政策对其有一个宏观的调控,而这些因素与时间并不存在必然的联系。

分析图5-1中的煤炭价格走势,其变化趋势与国家政策的变动紧密相关:

1985-1993年间,由价格曲线可知,煤炭价格呈缓速增长趋势,这一时期,执行政策统一定价的煤炭约占46%。煤炭价格中政府定价范围缩小,部分定价权下放,市场议价以及议价市场的合法化,使煤炭价格形成机制产生本质性的变化。市场价格在煤炭价格体系中占主导的格局已初步形成,政府定价与市场机制在价格形成中已起着重要的作用。

1993年,煤炭价格改革进入新的阶段,确立了以市场形成价格为主的价格机制。到1994年一月份,全国煤炭市场的煤炭价格全部放开,计划内煤炭价格与计划外煤炭价格无区别,全同改变过去一煤多价的价格形式。这一时期,煤炭价格增长迅速,属于本模型中出现的第一个周期的上升阶段,且曲线斜率较大。

1997-2001年期间,煤炭价格基本属于下跌之势。究其原因,由于前一时期煤价增长很快,私营煤矿企业和乡镇煤矿企业数量激增,其产煤量几乎占据了全国煤炭产量的半壁江山,这一时期我国煤炭供过于求,导致价格的下跌。而本模型中的曲线也在此进入了第一个下降阶段。

2002年我国煤炭价格开始采用完全市场定价制度,但国家发改委仍对电煤市场价格和运输进行干预。2004年,重化工行业崛起,煤电油运全面紧张,从价格曲线可以看出,这一时期的煤炭价格上涨迅速。此后,煤炭市场化改革一年迈出一大步:2005年,基本实现了政府发布原则、框架,企业自主衔接,依法签订合同;2006年,取消电煤价格临时干预,重点运力不再翻版,转而以合同为基础;2007年,取消订货会,引入竞争机制,企业不分所有制和隶属关系,协商定价。政策的频繁变动导致煤炭价格增长速度的不稳定,直观表现为价格曲线不再平

滑,其斜率的衔接性变弱。而在模型中曲线波动已发展到第二个周期的上升阶段,由于前一周期的上升速度较快,这一周期继续以较快速度上升,而实际情况是价格上升速度又有减缓趋势,从而导致了预测结果与实际情况的相差较大。

由此可知,煤炭价格随时间的变化只是一种表面的现象,其真正的变化规律有着更为深层的影响因素。分析国家政策对煤炭价格变动所造成的影响就会发现,在逐步推进市场化的进程中,市场的供需关系正逐渐成为煤炭价格的主要决定因素,每一次国家政策的变动都会深深影响市场的供求关系,故需深入分析价格与供求量间的关系,建立模型进行求解。

5.2多元线性回归预测模型

5.2.1模型的建立

对煤炭价格影响因素的研究,国内的学者有众多分歧。在模型中,认为煤炭价格主要受煤炭供求平衡情况影响,建立煤炭价格与煤炭生产量、煤炭进口量、煤炭出口量、煤炭消费量的多元回归模型。

从1990年到2006年的历年的煤炭价格、煤炭生产量、煤炭进口量、煤炭出口量、煤炭消费量的数据如表5-2所示。

表5-2 1990—2006年煤炭各变量的历史统计数据

根据数据,画出煤炭价格与各变量的散点图(如图5-3至5-6所示),同时计算煤炭价格与各变量的相关系数(如表5-3所示)。

表5-3 煤炭价格与各影响变量的相关系数

1

1.2

1.4

1.6 1.82

2.2

2.4x 10

5

406080100120140160180200220

240生产量

煤炭价格

图5-3 生产量与煤炭价格的散点图

500

1000

1500

20002500

3000

3500

4000

406080100120140160180200220

240进口量

煤炭价格

图5-4 进口量与煤炭价格的散点图

1000

2000

3000

4000

500060007000

8000

9000

10000

406080100120140160180200220

240出口量

煤炭价格

图5-5 出口量与煤炭价格的散点图

1

1.2

1.4

1.6 1.82

2.2

2.4x 10

5

406080100120140160180200220

240消费量

煤炭价格

图 5-6 消费量与煤炭价格的散点图

从以上煤炭价格与各个变量的相关系数与散点图可以看出,煤炭价格与煤炭生产量、进口量、出口量、消费量具有显著的相关性,鉴于此,建立如下模型:

134012234y x x x x βββββε=+++++

(5-3)

5.2.2回归模型参数的求解

根据我国1990—2006年关于煤炭价格、煤炭生产量、进口量、出口量、消费量的历史统计数据(见表5-2),对模型(5-3)进行求解,得到各参数和相应的统计指标,如表5-4所示。

表5-4 模型参数估计和相应指标

从上表可知,2R =0.939,即因变量(煤炭价格)93.9%可由模型确定,且F 值超过了F 检验的临界值,p <α,所以模型是可以应用的。将表中回归参数的估计值带入模型(5-3)中,建立起我国煤炭价格与煤炭生产量、出口量、进口量、消费量之间的回归预测模型,即为:

3

124?0.001490.020780.005620.00319131.69568y x x x x =--++- (5-4) 5.2.3采用时间序列预测2007年相关变量的值

(1)单变量随机线性模型主要有两种:一种为自回归模型()()AR p ,其方程为:

1122p

t t t t p t y y y y a φφφ---=++???+ (5-5)

式中:12,,,p φφφ???——待估自回归参数;t a ——随机冲击,是一个白噪声序列 ,服从2(0,)N σ;另一种为滑动平均模型()()M A q ,其方程为:

1122t t t t q t q y a a a a θθθ---=---???-

(5-6)

式中:12,,,p θθθ???——滑动平均参数。

对这两种模型的识别主要借助于其自相关函数和偏相关函数,分别定义为

k k r r ρ= (5-7)

1111

111,111

1,1,1,11k k

k k j kj

j kj k K j j k j

kj k K k k j φρφρρφρφφφφφ-++-++==+++-+?=?

????

??=-?-? ? ?

???

?

?

?=-??∑∑

(5-8)

其中:()()

1

1

11,n k

n

k t k

t

t

i t r

y

y

y

y y y n

n

-+===--=

∑∑

若随机序列t y 的偏自相关函数kk φ在p 步以后截尾,即当k p ?时,0kk φ=,而且其自相关函数k ρ拖尾,即k ρ随k 的增大而衰减,有收敛到零的趋势,则

模型为()AR p 模型。实际识别时,只要当k p ?时, kk

φ在零的上下波动,即可认为kk φ是截尾的;若随机序列t y 的自相关函数k ρ在q 步以后截尾,而其偏自相关函数kk φ拖尾,则模型可识别为()M A q 模型。

(2)模型的确立

对于时间序列,首先要进行模型的识别与定阶,即要判断模型的类别,

并估计阶数,p q ,在此过程中以模型定阶的A IC 准则为判定依据。当模型定阶后,还要对模型参数进行估计,可以使用最小二乘法,无条件最小二乘法及最大似然估计进行求解。最后并要对模型进行考核,即要检验t ε是否为平稳白噪声。

(3)各变量所对应的时间序列的具体形式

对于变量1x 为()()M A q 形式:10.45084X B ?=+;

对于变量2x 为()AR p 形式:210.354750.64525X B B ?=--; 对于变量3x 为()AR p 形式:10.22735X B ?=-; 对于变量4x 为()()M A q 形式: 1X B ?=+; 注:1t t X x x -?=-为变量X 的一阶差分; 在()AR p 模型中,算子B 定义为k t t k B X X -≡; 在()M A q 模型中,算子B 定义为k t t k B εε-≡。

(4)运用统计软件编程得到对2007年各变量数据的预测值:

将上表中对2007年各变量的预测值代入回归模型(5-3),计算得到:2007年的煤炭价格?230.8695

y 元,与实际的煤炭价格246.7395元。预测值与实际值相差15.87元,相对误差为6.43%。

相对于单变量的非线性回归,此模型较为精确的预测出了2007年的煤炭价格。

五、模型的优缺点及改进方向

1.在单变量的非线性回归模型中,建立的是煤炭价格随时间变化的指数回归方程,模型建立简单,仅有时间一个变量。最终模型通过了检验,并能在一定程度上对煤炭的价格进行预测。但其存在一个很大的缺点,由于考虑影响因素过于表面化,对于真正影响煤炭价格变动的复杂内因并未深入研究,导致其预测的准确性大打折扣,仅能运用于较粗略的预测。

2.在多元线性回归预测模型中,抓住了供需关系对煤炭价格变动的主要影响,所建立的模型能够较精确地对未来的煤炭价格进行预测。但是,该模型对影响价格变动的因素选取还欠全面,且有些笼统。煤炭价格的变动还要受到其他能源价格、煤炭储存量、以及煤炭库存量等诸多因素的影响。在对模型进行改进的过程中,要将这些变量重新进行分析,提取主成分,然后建立多变量的回归模型。得到的模型的2

R值可能会更大,能更好地解释煤炭价格的变化。

六、参考文献

[1] 魏一鸣范英韩智勇吴刚等,中国能源报告(2006)战略与政策研究,北京,科学出版社,2006年;

[2] 史丹等,中国能源工业市场化改革研究报告,北京:经济管理出版社,2006年;

[3] 范金城梅长林,数据分析,北京:科学出版社,2002年;

[4] 国际统计局,中国能源统计年鉴2006,北京:中国统计出版社,2006年;

[5] 袁桂秋张玲丹,我国煤炭价格的影响因素分析,价格分析,2009(2):45-47,2009年;

附录:

程序1

非线性回归模型的求解

clear

clc

tdata=1:22;

ydata=[

35.16622869

34.04090937

34.99405484

38.70342465

43.42524246

46.11760749

52.15901407

60.55661533

84.59759162

103.378257

115.06

130.82322

141.2890776

136.485249

129.388016

126.9296437

135.1800706

150.8609587

161.4212258

187.248622

221.3278712

234.1648877

]';

x=1985:2006;

figure

plot(x,ydata,x,ydata,'*')

p= nlinfit(tdata,ydata,'myf',[50,20,0.1,10,100]);

y=p(1).*exp(p(3).*tdata)+tdata.*p(2).*sin(p(4).*tdata-p(5)); figure

plot(x,ydata,x,y,x,ydata,'*',x,y,'o');

k=sum(ydata)/length(ydata);

s1=0;

s2=0;

for i=1:length(y)

s1=s1+(ydata(i)-y(i))*(ydata(i)-y(i));

s2=s2+(ydata(i)-k)*(ydata(i)-k);

end

r=1-s1/s2;

F=(s2-s1)/(s1/(22-2))

function y=myf(p,tdata)

y=p(1).*exp(p(3).*tdata)+tdata.*p(2).*sin(p(4).*tdata-p(5));

程序2 求解煤炭价格与各变量间的回归关系式

data a;

input y x1 x2 x3 x4;

cards;

46.11761 107988.3 200.3 1729 105523

52.15901 108740.6 136.8 2000.1 110432

60.55662 111638 123 1966.3 114084.8

84.59759 115067 142.8 1981.5 120919.5

103.3783 123990.1 120.9 2419.4 128532.2

115.06 136073.1 163.5 2861.7 137676.5

130.8232 139669.9 321.7 3648.4 144734.4

141.2891 137282 201 3073 139248

136.4852 125000 158.6 3229.7 129492.2

129.388 104500 167.3 3743.9 126365.3

126.9296 129921 217.9 5506.5 132000

135.1801 138152 266 9012.9 135000

150.861 145456 1125.7 8389.6 141600.5

161.4212 172200 1109.8 9402.9 169232

187.2486 199232.4 1861.4 8666.4 193596

221.3279 220472.9 2617.1 7172.4 216722.5

234.1649 237300 3810.5 6327.3 239216.5

run;

proc reg;

model y=x1 x2 x3 x4/stb r collin ;

output out=a p=p r=r student=stu l95m=l95m u95m=u95m l95=l95 cookd=cookd dffits=dffits ;

run;

程序3 用时间序列预测2007年煤炭的生产量X1

data dixs;

input x;

cards;

107988.3

108740.6

111638

115067

123990.1

136073.1

139669.9

137282

125000

104500

129921

138152

145456

172200

199232.4

220472.9

237300

run;

proc arima data=dixs;

identify var=x(1);

estimate p=1 method=cls plot;

forcast lead=1;

estimate p=2 method=cls plot;

forcast lead=1;

estimate p=3 method=cls plot;

forcast lead=1;

estimate q=1 method=cls plot;

forcast lead=1;

estimate q=2 method=cls plot;

forcast lead=1;

estimate q=3 method=cls plot;

forcast lead=1;

estimate p=1 q=1 method=cls plot;

forcast lead=1;

estimate p=1 q=2 method=cls plot;

forcast lead=1;

estimate p=2 q=1 method=cls plot;

forcast lead=1;

run;

程序4 用时间序列预测2007年煤炭的进口量X2 data dixs;

input x;

cards;

200.3

136.8

123

142.8

120.9

163.5

321.7

201

158.6

167.3

217.9

266

1125.7

1109.8

1861.4

2617.1

3810.5

run;

proc arima data=dixs;

identify var=x(1);

estimate p=1 method=cls plot;

forcast lead=1;

estimate p=2 method=cls plot;

forcast lead=1;

estimate p=3 method=cls plot;

forcast lead=1;

estimate q=1 method=cls plot;

forcast lead=1;

estimate q=2 method=cls plot;

forcast lead=1;

estimate q=3 method=cls plot;

forcast lead=1;

estimate p=1 q=1 method=cls plot;

forcast lead=1;

estimate p=1 q=2 method=cls plot;

forcast lead=1;

estimate p=2 q=1 method=cls plot;

forcast lead=1;

run;

程序5 用时间序列预测2007年煤炭的出口量X3

data dixs;

input x;

cards;

1729

2000.1

1966.3

1981.5

2419.4

2861.7

3648.4

3073

3229.7

3743.9

5506.5

9012.9

8389.6

9402.9

8666.4

7172.4

6327.3

run;

proc arima data=dixs;

identify var=x(1);

estimate p=1 method=cls plot; forcast lead=1;

estimate p=2 method=cls plot; forcast lead=1;

estimate p=3 method=cls plot; forcast lead=1;

estimate q=1 method=cls plot; forcast lead=1;

estimate q=2 method=cls plot; forcast lead=1;

estimate q=3 method=cls plot; forcast lead=1;

estimate p=1 q=1 method=cls plot; forcast lead=1;

estimate p=1 q=2 method=cls plot; forcast lead=1;

estimate p=2 q=1 method=cls plot; forcast lead=1;

run;

程序6 用时间序列预测2007年煤炭的消费量X4 data dixs;

input x;

cards;

105523

110432

114084.8

120919.5

128532.2

137676.5

144734.4

139248

129492.2

126365.3

132000

135000

141600.5

169232

193596

216722.5

239216.5

run;

proc arima data=dixs;

identify var=x(1);

estimate p=1 method=cls plot;

forcast lead=1;

estimate p=2 method=cls plot;

forcast lead=1;

estimate p=3 method=cls plot;

forcast lead=1;

estimate q=1 method=cls plot;

forcast lead=1;

estimate q=2 method=cls plot;

forcast lead=1;

estimate q=3 method=cls plot;

forcast lead=1;

estimate p=1 q=1 method=cls plot;

forcast lead=1;

estimate p=1 q=2 method=cls plot;

forcast lead=1;

estimate p=2 q=1 method=cls plot;

forcast lead=1; run;

多元线性回归模型的案例分析

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/千 克 X/ 元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/千克 X/元 P 1/(元/ 千克) P 2/(元/ 千克) P 3/(元/千克) 1980 2.78 397 4.22 5.07 7.83 1992 4.18 911 3.97 7.91 11.40 1981 2.99 413 3.81 5.20 7.92 1993 4.04 931 5.21 9.54 12.41 1982 2.98 439 4.03 5.40 7.92 1994 4.07 1021 4.89 9.42 12.76 1983 3.08 459 3.95 5.53 7.92 1995 4.01 1165 5.83 12.35 14.29 1984 3.12 492 3.73 5.47 7.74 1996 4.27 1349 5.79 12.99 14.36 1985 3.33 528 3.81 6.37 8.02 1997 4.41 1449 5.67 11.76 13.92 1986 3.56 560 3.93 6.98 8.04 1998 4.67 1575 6.37 13.09 16.55 1987 3.64 624 3.78 6.59 8.39 1999 5.06 1759 6.16 12.98 20.33 1988 3.67 666 3.84 6.45 8.55 2000 5.01 1994 5.89 12.80 21.96 1989 3.84 717 4.01 7.00 9.37 2001 5.17 2258 6.64 14.10 22.16 1990 4.04 768 3.86 7.32 10.61 2002 5.29 2478 7.04 16.82 23.26 1991 4.03 843 3.98 6.78 10.48 (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下: 输出结果如下:

自回归分布滞后模型ADL的运用试验指导-时间序列分析

案例六 自回归分布滞后模型(ADL )的运用实验指导 一、实验目的 理解ADL 模型的原理与应用条件,学会运用ADL 模型来估计变量之间长期稳定关系。理解从经济理论上来说,两个经济变量之间的确有长期关系采用使用该模型进行估计。理解ADL 模型的优点:不管回归项是不是1阶单整或平稳都可以进行检验和估计。而进行标准的协整分析前,必须把变量分类成(0)I 和(1)I 。 二、基本概念 Jorgenson(1966)提出的(,p q )阶自回归分布滞后模型ADL(autoregressive distributed lag):011111 i t t p t p t t q t q i t i i y y y ταφφεθεθεβ-----='=++++--+∑x ,其中t i -x 是滞后i 期 的外生变量向量(维数与变量个数相同),且每个外生变量的最大滞后阶数为i τ,i β是参数向量。当不存在外生变量时,模型就退化为一般ARMA (,p q )模型。 如果模型中不含有移动平均项,可以采用OLS 方法估计参数,若模型中含有移动平均项,线性OLS 估计将是非一致性估计,应采用非线性最小二乘估计。 三、实验内容及要求 (1)实验内容 运用ADL 模型研究1992年1月到1998年12月我国城镇居民月对数人均生活费支出yt 和对数可支配收入xt 之间的长期稳定关系。 (2)实验要求 在认真理解模型应用条件的基础上,通过实验掌握ADL 模型的实际应用方法,并熟悉Eniews 的具体操作过程。 四、实验指导 (1)数据录入 打开Eviews 软件,选择“File”菜单中的“New --Workfile”选项,在“Workfile structure type ”栏选择“Dated-regular frequency ”,在“Data specification ”栏中“Frequency ”中选择“Monthly ”即月份数据,起始时间输入1992m1即1992年1月份,止于1998m12,点击ok ,见图6-1,这样就建立了一个工作文件。 图6-1 建立工作文件窗口

MA AB 回归预测模型

MATLAB---回归预测模型 Matlab统计工具箱用命令regress实现多元线性回归,用的方法是最小二乘法,用法是: b=regress(Y,X) [b,bint,r,rint,stats]=regress(Y,X,alpha) Y,X为提供的X和Y数组,alpha为显着性水平(缺省时设定为0.05),b,bint为回归系数估计值和它们的置信区间,r,rint为残差(向量)及其置信区间,stats 是用于检验回归模型的统计量,有四个数值,第一个是R2,第二个是F,第三个是与F对应的概率 p ,p <α拒绝 H0,回归模型成立,第四个是残差的方差 s2 。 残差及其置信区间可以用 rcoplot(r,rint)画图。 例1合金的强度y与其中的碳含量x有比较密切的关系,今从生产中收集了一批数据如下表 1。 先画出散点图如下: x=0.1:0.01:0.18; y=[42,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0]; plot(x,y,'+') 可知 y 与 x 大致上为线性关系。

设回归模型为y =β 0+β 1 x 用regress 和rcoplot 编程如下: clc,clear x1=[0.1:0.01:0.18]'; y=[42,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0]'; x=[ones(9,1),x1]; [b,bint,r,rint,stats]=regress(y,x); b,bint,stats,rcoplot(r,rint) 得到 b =27.4722 137.5000 bint =18.6851 36.2594 75.7755 199.2245 stats =0.7985 27.7469 0.0012 4.0883 即β 0=27.4722 β 1 =137.5000 β 的置信区间是[18.6851,36.2594], β 1 的置信区间是[75.7755,199.2245]; R2= 0.7985 , F = 27.7469 , p = 0.0012 , s2 =4.0883 。

数学建模——回归分析

回归分析——20121060025 吕佳琪 企业编号生产性固定资产价值(万元)工业总产值(万元) 1318524 29101019 3200638 4409815 5415913 6502928 7314605 812101516 910221219 1012251624 合计65259801 (2)建立直线回归方程; (3)计算估价标准误差; (4)估计生产性固定资产(自变量)为1100万元时总产值(因变量)的可能值。解: (1)画出散点图,观察二变量的相关方向 x=[318 910 200 409 415 502 314 1210 1022 1225]; y=[524 1019 638 815 913 928 605 1516 1219 1624]; plot(x,y,'or') xlabel('生产性固定资产价值(万元)') ylabel('工业总产值(万元)') 由图形可得,二变量的相关方向应为直线 (2)

x=[318 910 200 409 415 502 314 1210 1022 1225]; y=[524 1019 638 815 913 928 605 1516 1219 1624]; X = [ones(size(x))', x']; [b,bint,r,rint,stats] = regress(y',X,0、05); b,bint,stats b = 395、5670 0、8958 bint = 210、4845 580、6495 0、6500 1、1417 stats = 1、0e+004 * 0、0001 0、0071 0、0000 1、6035 上述相关系数r为1,显著性水平为0 Y=395、5670+0、8958*x (3) 计算方法:W=((Y1-y1)^2+……+(Y10-y10)^2)^(1/2)/10 利用SPSS进行回归分析:

非线性回归分析

SPSS—非线性回归(模型表达式)案例解析 2011-11-16 10:56 由简单到复杂,人生有下坡就必有上坡,有低潮就必有高潮的迭起,随着SPSS 的深入学习,已经逐渐开始走向复杂,今天跟大家交流一下,SPSS非线性回归,希望大家能够指点一二! 非线性回归过程是用来建立因变量与一组自变量之间的非线性关系,它不像线性模型那样有众多的假设条件,可以在自变量和因变量之间建立任何形式的模型非线性,能够通过变量转换成为线性模型——称之为本质线性模型,转换后的模型,用线性回归的方式处理转换后的模型,有的非线性模型并不能够通过变量转换为线性模型,我们称之为:本质非线性模型 还是以“销售量”和“广告费用”这个样本为例,进行研究,前面已经研究得出:“二次曲线模型”比“线性模型”能够更好的拟合“销售量随着广告费用的增加而呈现的趋势变化”,那么“二次曲线”会不会是最佳模型呢? 答案是否定的,因为“非线性模型”能够更好的拟合“销售量随着广告费用的增加而呈现的变化趋势” 下面我们开始研究: 第一步:非线性模型那么多,我们应该选择“哪一个模型呢?” 1:绘制图形,根据图形的变化趋势结合自己的经验判断,选择合适的模型 点击“图形”—图表构建程序—进入如下所示界面:

点击确定按钮,得到如下结果:

放眼望去, 图形的变化趋势,其实是一条曲线,这条曲线更倾向于"S" 型曲线,我们来验证一下,看“二次曲线”和“S曲线”相比,两者哪一个的拟合度更高! 点击“分析—回归—曲线估计——进入如下界面

在“模型”选项中,勾选”二次项“和”S" 两个模型,点击确定,得到如下结果: 通过“二次”和“S “ 两个模型的对比,可以看出S 模型的拟合度明显高于

一元线性回归模型案例分析

一元线性回归模型案例分析 一、研究的目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。 因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 从2002年《中国统计年鉴》中得到表2.5的数据: 表2.52002年中国各地区城市居民人均年消费支出和可支配收入

应用回归分析

第五章 自变量选择对回归参数的估计有何影响 答:全模型正确而误用选模型时,我们舍去了m-p 个自变量,用剩下的p 个自变量去建立选模型,参数估计值是全模型相应参数的有偏估计。选模型正确而误用全模型时,参数估计值是选模型相应参数的有偏估计。 自变量选择对回归预测有何影响 (一)全模型正确而误用选模型的情况 估计系数有偏,选模型的预测是有偏的,选模型的参数估计有较小的方差,选模型的预测残差有较小的方差,选模型预测的均方误差比全模型预测的方差更小。 (二)选模型正确而误用全模型的情况 全模型的预测值是有偏的,全模型的预测方差的选模型的大,全模型的预测误差将更大。 如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣 答:应该用自由度调整复决定系数达到最大的准则。当给模型增加自变量时,复决定系数也随之增大,然而复决定系数的增大代价是残差自由度的减小,自由度小意味着估计和预测的可靠性低。应用自由度调整复决定系数达到最大的准则可以克服样本决定系数的这一缺点,把2 R 给予适当的修正,使得只有加入“有意义”的变量时,经过修正的样本决定系数才会增加,从而提高预测的精度。 试述前进法的思想方法。 解:主要是变量由少到多,每次增加一个,直至没有可引入的变量为止。 具体做法是:首先将全部m 个自变量,分别对因变量y 建立m 个一元线性回归方程,并分别计算这m 个一元回归方程的m 个回归系数的F 检验值,记为 111 12{,,,} m F F F ,选其最大者 1111 12max{,, ,} j m F F F F =,给定显著性水平α,若 1(1,2) j F F n α≥-,则首先将 j x 引入回 归方程,假设 1 j x x =。其次,将 12131(,),(,),,(,)m y x x x x x x 分别与建立m-1个二元线性 回归方程,对这m-1个回归方程中 23,, ,m x x x 的回归系数进行F 检验,计算F 值,记为 222 23{,, ,} m F F F ,选其最大的记为 2222 23max{,, ,} j m F F F F =,若 2(1,3) j F F n α≥-,则 接着将j x 引入回归方程。以上述方法做下去。直至所有未被引入方程的自变量的F 值均小

案例分析报告(一元线性回归模型)

案例分析报告(2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号: 2204120202 学生姓名:陈维维 2014 年 11月

案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模

多元线性回归模型案例分析

多元线性回归模型案例分析 ——中国人口自然增长分析一·研究目的要求 中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的降到1980年,接近世代更替水平。此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。 影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。 二·模型设定 为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。 从《中国统计年鉴》收集到以下数据(见表1): 表1 中国人口增长率及相关数据

, 设定的线性回归模型为: 1222334t t t t t Y X X X u ββββ=++++ 三、估计参数 利用EViews 估计模型的参数,方法是: 1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对 话框“Workfile Range ”。在“Workfile frequency ”中选择“Annual ” (年 年份 @ 人口自然增长率 (%。) 国民总收入 (亿元) 居民消费价格指数增长 率(CPI )% 人均GDP (元) 1988 15037 1366 1989 … 17001 18 1519 1990 18718 1644 1991 【 21826 1893 1992 26937 2311 1993 . 35260 2998 1994 48108 4044 1995 — 59811 5046 1996 70142 5846 1997 ~ 78061 6420 1998 83024 6796 1999 【 88479 7159 2000 98000 7858 2001 [ 108068 8622 2002 119096 9398 2003 : 135174 10542 2004 159587 12336 2005 、 184089 14040 2006 213132 16024

自回归综合移动平均预测模型

自回归综合移动平均预测模型 数据采集 本文选取了2011年某省电力系统从1月1日开始之后80天的电力负荷观测,如表一。 第n天 负荷量第n天负荷量第n天负荷量第n天负荷量 1 2565957.38 21 2705368.6 41 2429907.99 61 2743833.56 2 2588923.0 3 22 2677964.55 42 2476962.26 62 2736933.52 3 2595037.39 23 2667444.01 43 2576255. 4 63 2773791.8 4 2621899.1 5 24 2659986.34 44 2614097.2 64 2748178.37 5 2605604.4 25 2646095.54 45 2680843.85 65 2737334.22 6 2597404.13 26 2652315.14 46 2775056.43 66 2720053.61 7 2363386.42 27 2641570.43 47 2728907.25 67 2700061.15 8 2620185.38 28 2584430.88 48 2611172.72 68 2709553.04 9 2615940.83 29 2474001.24 49 2601989.82 69 2681309.47 10 2615480.96 30 2396095.97 50 2668757.4 70 2683185.56 11 2612348.58 31 2288598.13 51 2677390.06 71 2661837.7 12 2610054.23 32 2166399.62 52 2695802.63 72 2644097.64 13 2610964.36 33 2062979.7 53 2689571.21 73 2685694.93 14 2637653.21 34 1997281.18 54 2654423.52 74 2702991.02 15 2633388.14 35 1925136.26 55 2642984.00 5 75 2687024.37 5 16 2640311.3 36 1970438.06 56 2712142.78 76 2680354.45 17 2678530.11 37 1976557.67 8 57 2754918.32 77 2682596.37 18 2687189.9 38 2050309.54 58 2758839.28 78 2695560.6 19 2694733.01 39 2154488.52 59 2817728.94 79 2674342.97 20 2709637.21 8 40 2384011.84 60 2759327.72 80 2685891.98 表1 数据处理 利用spass绘制时间序列原始数据的散点图

数学建模之回归分析法

什么是回归分析 回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。 回归分析之一多元线性回归模型案例解析 多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为: 毫无疑问,多元线性回归方程应该为: 上图中的x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中:代表随机误差,其中随机误差分为:可解释的误差和不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样) 1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。 2:无偏性假设,即指:期望值为0 3:同共方差性假设,即指,所有的随机误差变量方差都相等 4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。

今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示:(数据可以先用excel建立再通过spss打开) 点击“分析”——回归——线性——进入如下图所示的界面:

线性回归模型的研究毕业论文

线性回归模型的研究毕业论文 1 引言 回归分析最早是由19世纪末期高尔顿(Sir Francis Galton)发展的。1855年,他发表了一篇文章名为“遗传的身高向平均数方向的回归”,分析父母与其孩子之间身高的关系,发现父母的身高越高或的其孩子也越高,反之则越矮。他把儿子跟父母身高这种现象拟合成一种线性关系。但是他还发现了个有趣的现象,高个子的人生出来的儿子往往比他父亲矮一点更趋向于平均身高,矮个子的人生出来的儿子通常比他父亲高一点也趋向于平均身高。高尔顿选用“回归”一词,把这一现象叫做“向平均数方向的回归”。于是“线形回归”的术语被沿用下来了。 回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。按照参数估计方法可以分为主成分回归、偏最小二乘回归、和岭回归。 一般采用线性回归分析,由自变量和规定因变量来确定变量之间的因果关系,从而建立线性回归模型。模型的各个参数可以根据实测数据解。接着评价回归模型能否够很好的拟合实际数据;如果不能够很好的拟合,则重新拟合;如果能很好的拟合,就可以根据自变量进行下一步推测。 回归分析是重要的统计推断方法。在实际应用中,医学、农业、生物、林业、金融、管理、经济、社会等诸多方面随着科学的发展都需要运用到这个方法。从而推动了回归分析的快速发展。 2 回归分析的概述 2.1 回归分析的定义 回归分析是应用极其广泛的数据分析方法之一。回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。 2.2 回归分析的主要容

案例分析 一元线性回归模型

案例分析报告 (2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号: 2204120202 学生姓名:陈维维 2014 年 11月 案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,?最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定?

我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。 为了与“城镇居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 以下是2008年各地区城镇居民人均年消费支出和可支配收入表

线性回归和灰色预测模型案例

预测未来2015年到2020年的货运量 灰色预测模型 是通过少量的、不完全的信息,建立数学模型并做出预测的一种预测方法.当我们应用运筹学的思想方法解决实际问题,制定发展战略和政策、进行重大问题的决策时,都必须对未来进行科学的预测. 预测是根据客观事物的过去和现在的发展规律,借助于科学的方法对其未来的发展趋势和状况进行描述和分析,并形成科学的假设和判断. 灰色系统的定义 灰色系统是黑箱概念的一种推广。我们把既含有已知信息又含有未知信息的系统称为灰色系统.作为两个极端,我们将称信息完全未确定的系统为黑色系统;称信息完全确定的系统为白色系统.区别白色系统与黑色系统的重要标志是系统各因素之间是否具有确定的关系。

建模原理 模型的求解

原始序列为: ) 16909 15781 13902 12987 12495 11067 10149 9926 9329 10923 7691())6(),...1(()0()0()0(==x x x 构造累加生成序列 ) 131159,114250,98469,84567,71580,59085, 48018,37869,27943,18614,7691())6(),...1(()1()1()1(==x x x 归纳上面的式子可写为 称此式所表示的数据列为原始数据列的一次累加生成,简称为一次累加生成. 对(1)X 作紧邻均值生成 ,.... 2)) 1()((21)()1() 1() 1(=-+=k k z k z k z MATLAB 代码如下: x=[7691 18614 27943 37869 48018 590857 71580 84567 98469 114250 131159]; z(1)=x(1); for i=2:6 z(i)=0.5*(x(i)+x(i-1)); end format long g z z = Columns 1 through 3 7691 13152.5 23278.5 Columns 4 through 6 32906 42943.5 319437.5

回归分析在数学建模中的应用

摘要 回归分析和方差分析是探究和处理相关关系的两个重要的分支,其中回归分析方法是预测方面最常用的数学方法,它是利用统计数据来确定变量之间的关系,并且依据这种关系来预测未来的发展趋势。本文主要介绍了一元线性回归分析方法和多元线性回归分析方法的一般思想方法和一般步骤,并且用它们来研究和分析我们在生活中常遇到的一些难以用函数形式确定的变量之间的关系。在解决的过程中,建立回归方程,再通过该回归方程进行预测。 关键词:多元线性回归分析;参数估计;F检验

回归分析在数学建模中的应用 Abstract Regression analysis and analysis of variance is the inquiry and processing of the correlation between two important branches, wherein the regression analysis method is the most commonly used mathematical prediction method, it is the use of statistical data to determine the relationship between the variables, and based on this relationship predict future trends. introduces a linear regression analysis and multiple linear regression analysis method general way of thinking and the general steps, and use them to research and analysis that we encounter in our life, are difficult to determine as a function relationship between the variables in the solving process, the regression equation is established by the regression equation to predict. Keywords:Multiple linear regression analysis; parameter estimation;inspection II

向量自回归与ARCH、GARCH模型

向量自回归 预测是计量经济分析的重要部分,宽泛的说,依据时间序列数据进行经济预测的方法有五种:(1)指数平滑法;(2)单一方程回归模型;(3)联立方程回归模型;(4)单整自回归移动平均模型;(5)向量自回归模型(V AR ,vector autoregression )。 一、V AR 的估计 V AR 方法论同时考虑几个内生变量,它看起来类似于联立方程模型。但是,在V AR 模型中,每一个内生变量都是由它的滞后或过去值以及模型中所有其他内生变量的滞后或过去值来解释。通常模型中没有任何外生变量。在联立方程模型中,我们把一些变量看作内生的,而另一些变量看作外生的或预定的,在估计这些模型之前,必须肯定方程组中的方程是可识别的,而为达到识别的目的,常常要假定某些预定变量仅出现在某些方程之中,这些决定往往是主观的,因此这种方法受到C.A.西姆斯(Christopher Sims )的严厉批评,他认为如果在一组变量中有真实的联立性,这些变量就应该平等对待,而不应事先区分内生和外生变量,以此思路,其推出了V AR 模型。 例我们想考虑中国的货币(M1)与利率(R )的关系。如果通过格兰杰因果关系检验,我们无法拒绝两者之间有双向因果关系的假设,即M1 影响R ,而R 反过来又影响M1,这种情形是应用V AR 的理想情形。假定每个方程都含有M1 和R 的k 个滞后值作为回归元,每个方程都可以用OLS 去估计,实际模型如下: 11111k k t j t j j t j t j j M M R u αβγ--===+++∑∑

2111k k t j t j j t j t j j R M R u αθλ--=='=+++∑∑ 其中u 是随机误差项,在V AR 术语中称为脉冲值(impulses )。在估计以上方程时,必须先决定最大滞后长度,这是一个经验问题,包括过多的滞后项将消耗自由度,而且会引入多重共线性的可能性,而包含过少的滞后值将导致设定误差,解决这个问题的方法之一就是使用赤池、施瓦茨或汉南—奎因准则中的某一个准则,并选择准则最低值的模型,因此,这个过程中试错法就不可避免。 值得注意的是,向量自回归模型中同时引入同一变量的几个滞后项,可能因多重共线性而使每个估计系数在统计上都不显著,但基于F 检验它们可能是联合显著的。 二、V AR 建模的一些问题 V AR 的倡导者强调此法有如下的优点:(1)方法简单,无需决定哪些变量是内生的,哪些变量是外生的,V AR 中的全部变量都是内生的。(2)估计简单:常用的OLS 法可以用于逐个估计每一个方程。 (3)在许多案例中,此方法得到的预测优于用更复杂的联立方程模型得到的预测。 但V AR 建模的批评者指出如下的一些问题: 1、不同于联立方程模型,V AR 利用较少的先验信息,所有是缺乏理论支撑的,因为在联立方程中排除或包含某些变量,对模型的识别起到关键性作用。 2、由于重点放到预测,V AR 模型不适合用于政策分析。 3、实际上,对V AR 建模最大的挑战在于选择适当滞后长度。假

数学建模-回归分析-多元回归分析

1、 多元线性回归在回归分析中,如果有两个或两个以上的自变量,就称为 多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。 在实际经济问题中,一个变量往往受到多个变量的影响。例如,家庭消费支出,除了受家庭可支配收入的影响外,还受诸如家庭所有的财富、物价水平、金融机构存款利息等多种因素的影响,表现在线性回归模型中的解释变量有多个。这样的模型被称为多元线性回归模型。(multivariable linear regression model ) 多元线性回归模型的一般形式为: 其中k 为解释变量的数目,j β (j=1,2,…,k)称为回归系数(regression coefficient)。上式也被称为总体回归函数的随机表达式。它的非随机表达式为: j β也被称为偏回归系数(partial regression coefficient)。 2、 多元线性回归计算模型 多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和(Σe)为最小的前提下,用最小二乘法或最大似然估计法求解参数。 设( 11 x , 12 x ,…, 1p x , 1 y ),…,( 1 n x , 2 n x ,…, np x , n y )是一个样本, 用最大似然估计法估计参数: 达 到最小。

把(4)式化简可得: 引入矩阵: 方程组(5)可以化简得: 可得最大似然估计值:

3、Matlab 多元线性回归的实现 多元线性回归在Matlab 中主要实现方法如下: (1)b=regress(Y, X ) 确定回归系数的点估计值 其中 (2)[b,bint,r,rint,stats]=regress(Y,X,alpha)求回归系数的点估计和区间估计、并检 验回归模型 ①bint 表示回归系数的区间估计. ②r 表示残差 ③rint 表示置信区间 ④stats 表示用于检验回归模型的统计量,有三个数值:相关系数r2、F 值、与F 对应的 概率p 说明:相关系数r2越接近1,说明回归方程越显著;F>F1-alpha(p,n-p-1) 时拒绝H0,F 越大,说明回归方程越显著;与F 对应的概率p<α 时拒绝H0,回归模型成立。 ⑤alpha 表示显著性水平(缺省时为0.05) (3)rcoplot(r,rint) 画出残差及其置信区间

回归模型的残差分析

回归模型的残差分析 山东 胡大波 判断回归模型的拟合效果是回归分析的重要内容,在回归分析中,通常用残差分析来判断回归模型的拟合效果。下面具体分析残差分析的途径及具体例子。 一、 残差分析的两种方法 1、差分析的基本方法是由回归方程作出残差图,通过观测残差图,以分析和发现观测数据中可能出现的错误以及所选用的回归模型是否恰当;在残差图中,残差点比较均匀地落在水平区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型的拟合精度越高,回归方程的预报精度越高。 2、可以进一步通过相关指数∑∑==--- =n i i n i i i y y y y R 1 2 1 2 ^ 2 )()(1来衡量回归模型的拟合效果,一般 规律是2 R 越大,残差平方和就越小,从而回归模型的拟合效果越好。 二、 典例分析: 例1、某运动员训练次数与运动成绩之间的数据关系如下: 试预测该运动员训练47次以及55次的成绩。 解答:(1)作出该运动员训练次数x 与成绩y 之间的散点图,如图1所示,由散点图可 知,它们之间具有线性相关关系。 (2)列表计算: 由上表可求得875.40,25.39==y x , 126568 1 2 =∑=i i x ,137318 1 2=∑=i i y ,

131808 1 =∑=i i i y x ,所以∑∑==---= 8 1 2 8 1 )() )((i i i i i x x y y x x β.0415.188 1 2 28 1≈--= ∑∑==i i i i i x x y x y x 00302.0-≈-=x y βα,所以回归直线方程为.00302.00415.1^ -=x y (3)计算相关系数 将上述数据代入∑∑∑===---= 8 1 8 1 2 22 2 8 1 ) 8)(8(8i i i i i i i y y x x y x y x r 得992704.0=r ,查表可知 707.005.0=r ,而05.0r r >,故y 与x 之间存在显着的相关关系。 (4)残差分析: 作残差图如图2,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适。 计算残差的方差得884113.02 =σ ,说明预报的精度较高。 (5)计算相关指数2 R 计算相关指数2 R =0.9855.说明该运动员的成绩的差异有98.55%是由训练次数引起的。 (6)做出预报 由上述分析可知,我们可用回归方程 .00302.00415.1^ -=x y 作为该运动员成绩的预报值。 将x =47和x =55分别代入该方程可得y =49和y =57, 故预测运动员训练47次和55次的成绩分别为49和57. 点评:一般地,建立回归模型的基本步骤为: (1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量; (2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等); (3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y =bx +a ); (4)按一定规则估计回归方程中的参数(如最小二乘法); (5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等。 例2、某城区为研究城镇居民月家庭人均生活费支出和月人均收入的相关关系,随机抽取

相关文档
相关文档 最新文档