文档库 最新最全的文档下载
当前位置:文档库 › 第六章讲义相关与回归

第六章讲义相关与回归

第六章讲义相关与回归
第六章讲义相关与回归

第六章 相关与回归

相关和回归分析是研究事物的相互关系,测定它们联系的紧密程度,揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。

本章介绍相关和回归分析的基本原理和系统分析的方法。

第一节 相关的概念和二元概率分布

1.什么是相关关系?

确定性依存关系 不确定(随机性)依存关系

2.相关关系种类

正相关 负相关 曲线相关 不相关 x x x x x

y x

3.二元概率分布

二元概率分布的5个特征值: (1)x 的数学期望: (2)y 的数学期望: (3)x 的方差: (4)y 的方差: (5

第二节 简单线性相关

一、相关系数

∑=)()(i i x p x x E ∑=)

()(i i y p y y E ∑?-=)()]([22i i

i x x p x E x σ∑?-=)

()]([22i i i y y p y E y σ)

()]()][(j i j y x p y E y x ??-0

))(()(,0)(<<y y x x y y x x ----0

))(()(,0)(><y y x x y y x x ----0))(0)(,0)>>>y y x x y y x x ----0

))(0)(,0)<<>y y x x y y x x ----

协方差σxy 可表明

x 、y 的“共变性”和线性相关的方向。但不是

一个适用于比较的相关关系的量度。积矩相关系数是对它的改

进。

二、相关系数的检验(t 检验)

H 0 : p=0, H 1 : p ≠0

检验统计量 第三节 一元线性回归模型

一、回归的概念和回归分析的特点

回归分析和相关分析的联系和区别

联 系

区 别

①理论和方法具有一致性;

②无相关就无回归,相关程度越高,回归越好;

③相关系数和回归系数方向一致,可以互相推算。

① 相关分析中,x 与y 对等,回归分析中,x 与y 要确定自变量和因变量; ② 相关分析中x ,y 均为随机变量,回归分析中,只有y 为随机变量; ③ 相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。

y

x y

x n y y x x n

y

y x x r σσσσ∑∑--=

--=

))(())((2

12||r n r t --=

二、一元线性回归模型

(一)一元线性回归模型的性质

回归系数b 表明自变量x 每变化一个单位因变量y 的增(减)量。

2

.bx a y

+=?是理论模型,表明x 与y 两变量之间的平均变动关系。

(实际值):

(二)一元线性回归模型的确定

j j i j y

bx a y εε+=++=?)(

根据实际数据,用最小平方法,即使 ,分别

对a 、b 求编导并令其为零,求得两个标准方程:

三、判定系数(r 2)和估计标准误(Sxy ) (一)判定系数(r 2)

判定系数是对回归模型拟合优度的评价。

= +

r 2表示全部偏差中有百分之几的偏差可由x 与y 的回归关系

min )?(2

=-y y j 2

x b x a xy x

b na y ∑+∑=∑∑+=∑x

)2

22(y y y ∑=222222)()?(1)(?(y y y

y r y y y y

r -∑-∑-=-∑-∑=或

(二)估计标准误(Sxy )

Sxy 是二元正态分布中因变量实际值(y j )对估计值( )离

Sxy 越小, 拟合越好;

Sxy 越大, 拟合越差。

Sxy 也是用自变量对因变量进行区间估计的抽样误差。

四、一元线性回归模型的显著性检验 (一)回归系数b 的检验

设总体回归系数为β0 H 0:β=0;H 1:β≠0 1.n ≥30时 检验统计量 (β=0)

σb

是样本回归系数抽样分布的标准差。通常是未知的,用

其估计量 代替。

y ?x

.45% 99.73%

y ?y ?b

b Z σβ

-=b σ?3

222

22

/)()(?x n x n xy b y a y x x xy S b -∑-∑-∑-∑=-∑=σ

给定显著性水平α,查Z 表可知其临界值 。

2.n <30时

检验统计量 (β=0)

给定显著性水平α,查t 表可知其临界值 。

(二)回归模型整体的F 检验

(可见,F 检验实质上是对总体回归模型H 0:R 2=0的检验。)

2

αZ b b t σ

β

?-=)2(2

-n t α2/)?(1/)?(//22--∑-∑==

n y y y y

F 自由度剩余偏差自由度回归偏差检验统计量 2

21)

2(r

n r F --=

五、应用一元回归模型进行区间估计 1.n ≥30时

给定x 0,y 0的置信度(1-α) 的置信区间为:

2.n <30时

给定x 0,y 0的置信度(1-α) 的置信区间为:

给定的x 0越接近 ,y 值估计的精确度越高。

第四节 多元线性回归模型

一、多元线性回归模型的性质与模型的确定 1.模型性质

Sxy Z y

y 2

0?α±=Sxy

Z bx a 2

0)(α±+=%73.99)3?(%45.95)2?(%27.68)1?(=±=±=±Sxy y

P Sxy y

P Sxy y

P x

0bx +22

0)

22

022

0)

22

0)()(11)()()(11?x x x x n Sxy t bx a x x x x n Sxy t y

y n n -∑-+

+??±+=-∑-++??±=--αα0x

bx +x x

模型的一般形式:

二元线性回归模型:

△ b 1:假定x 2固定时

x 1每变动

1个单位引起的y 的增量。 △ b 2:假定x 1固定时x 2每变动1个单位引起的y 的增量。

△ ,是x 1和x 2共同变动引起的y 的平均

变动,反映一组自变量与因变量的平均变动关系。

△ 是给定x 1、x 2计算得到的估计值,是y 的实际值的数

学期望。

(实际值)

2.模型的确定

根据实际资料,用最小平方法,即使 ,分别对a 、b 1、b 2求编导并令其为零,求得三个标准方程: n n x b x b x b a y

++++= 2211?x b x b a y 211?++=y ?j j x b x b a y ε+++=2211最小=-∑2)?(y y j 2

22211222

1

2

21

1

1

2211x b x x b x a y x x

x b x b x a y x x b x b na y j j

j ∑+∑+∑=∑∑+∑+∑=∑∑+∑+=∑

解此联立方程便可得到a 、b 1、b 2。

二、多元线性回归模型的判定系数和估计标准误 (一)判定系数

0<r 2<1 (二)估计标准误(S y (x1、x2))

r 2和S y (x1、x2)都是对回归模型拟合优度的评价指标。S y (x1、

x2)也是用自变量对因变量进行区间估计的抽样误差。

三、多元回归模型的显著性检验 (一)对偏回归系数的t 检验 H 0: β1=0 ,

H 1: β1≠0;

H 0: β2=0, H 1: β2≠0。

检验统计量:

2

2

2)()

?(y y y y r j -∑-∑=

=总偏差回归偏差2

2

22211)()(y n y y n y x b y x b y a j j j j -∑-∑+∑+∑=3

)?(2)

,(2

1

--∑=

n y

y S j x x y 3

2211-∑-∑-∑-∑=

n y x b y x b y a y j

j j j 2211?|

|||,?||||b b b t b t σ

σ

=

=2

2

211222211222),(1)])(([)()()(?2

1

x x x x x x x x x x S x x y b --∑---∑-∑?=σ2

22112222112

22),(2

2)])(([)()()(?2

1

x x x x x x x x x x S x x y b --∑---∑-∑=σ

按显著性水平α和自由度 (n-3)查t 表可得到临界值

(二)模型整体的F 检验 检验统计量:

(k ——自变量个数)

二元线性回归模型下统计量:

按给定的α和自由度(2)

和(n-3)查F 表可得到 临界值F α(2,n-3)

四、多元回归中的相关分析 (一)复相关

指一个因变量同多个自变量的相关关系。 复相关系数 恒取正值。

2

2

212)()

?(y y y y r r j n

y -∑-∑=

= )3(2

-n t αt

)

3(2

--n t α2

α)

1/((/)?()1/(/22---∑-∑=

--=k n y y k y y

k n k F j 剩余偏差回归偏差)

3/()(2/)?(22--∑-∑=

n y y y y

F j )

1(2)

3()3/()1(2/222

2r n r n r r F --=--= F

α

F α(n,m)

(二)偏相关(净相关)

指各个自变量在其他自变量固定不变时,单个变量同因变量的相关关系。

计算偏相关系数需借助相关系数矩阵表的资料。

二元回归中的相关系数矩阵表

x 1与y 的偏相关系数:

x 2与y 的偏相关系数:

偏相关系数与单相关系数符号相同,但数值不同。

第五节 非线性回归模型

当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归模型。例如: 双曲线:

2

122212

21)2(1)(1)(1r r r r r r y y y y -?-?-=2

122112

12)

1(2)(1)(1r r r r r r y y y y -?-?-=x b a y +=

x

0 y

y 0

x

a >0

b >0

a >0,

b <0

指数曲线:y=ae bx

幂函数曲线:y=ax b

△ 曲线模型的判别方法:

(1)理论和经验判断;(2)观察散点图

△ 曲线模型的确定方法:

通常用变量代换法将曲线转换为直线。按线性模型 求解参数,而后再变换为曲线模型。

例如:双曲线模型:

指数曲线模型

x

a >0,

b >0

0 a >0, b <0

0 x

b a y 1?+='?,1'bx a y

x x +==则有令bx ae y =?x

e x bx a y Lna a Lny y =+====''

'''',,则有令x

b <0

x

b >0

y

小结

一、相关与回归的系统分析

二、注意问题

1.注意相关分析和回归分析的联系和区别,正确地把它们结合起来;

2.正确理解相关和回归分析中各种测定方法的意义和解释计算的结果;

3.选择恰当的回归方程,避免方程形式的错误识别;

4.避免多重共线性,即避免自变量之间的高度相关;

5.避免因变量的序列相关的影响。

6.把定性分析与定量分析结合起来,不能轻易地把统计上的相关关系都解释为因果关系。

7.回归模型用于外推预测要谨慎。

第六章回归分析

第六章 回归分析 一、单项选择题 1.进行简单直线回归分析时,总是假定( )。 A 、自变量是非随机变量,因变量是随机变量 B 、自变量是随机变量,因变量是非随机变量 C 、两变量都是随机变量 D 、两变量都是非随机变量 2.在因变量的总离差平方和中,如果回归平方和所占比重达,剩余平方和所占比重小,则两者之间( )。 A 、相关程度高 B 、相关程度低 C 、完全相关 D 、完全不相关 3.当一个现象的数量由小变大,而另一个现象的数量由大变小时,这种相关关系称为( ) A 、线性相关 B 、非线性相关 C 、正相关 D 、负相关 4.直线趋势y e =a+bt 中a 和b 的意义是( )。 A 、a 是截距,b 表示x=0时的 趋势值 B 、a 是最初发展水平的趋势值,b 表示平均发展水平 C 、a 是最初发展水平的趋势值,b 表示平均发展速度 D 、a 表示直线的截距,表示最初发展水平的趋势值,b 是直线的斜率,表示按最小平方法计算的平均增长量 5.当所有观察值y 都落在回归直线bx a y +=?上,则x 与y 之间的相关系数( )。 A 、r=1 B 、-1

第六章相关与回归分析方法

第六章 相关与回归分析方法 第一部分 习题 一、单项选择题 1.单位产品成本与其产量的相关;单位产品成本与单位产品原材料消耗量的相关 ( )。 A.前者是正相关,后者是负相关 B.前者是负相关,后者是正相关 C.两者都是正相关 D.两者都是负相关 2.样本相关系数r 的取值范围( )。 A.-∞<r <+∞ B.-1≤r ≤1 C. -l <r <1 D. 0≤r ≤1 3.当所有观测值都落在回归直线 01y x ββ=+上,则x 与y 之间的相关系数( )。 A.r =0 B.r =1 C.r =-1 D.|r|=1 4.相关分析与回归分析,在是否需要确定自变量和因变量的问题上( )。 A.前者无需确定,后者需要确定 B.前者需要确定,后者无需确定 C.两者均需确定 D.两者都无需确定 5.直线相关系数的绝对值接近1时,说明两变量相关关系的密切程度是( )。 A.完全相关 B.微弱相关 C.无线性相关 D.高度相关 6.年劳动生产率x(千元)和工人工资y(元)之间的回归方程为y=10+70x ,这意味着年劳动生产率每提高1千元时,工人工资平均( )。 A.增加70元 B.减少70元 C.增加80元 D.减少80元 7.下面的几个式子中,错误的是( )。 A. y= -40-1.6x r=0.89 B. y= -5-3.8x r =-0.94 C. y=36-2.4x r =-0.96 D. y= -36+3.8x r =0.98 8.下列关系中,属于正相关关系的有( )。 A.合理限度内,施肥量和平均单产量之间的关系 B.产品产量与单位产品成本之间的关系 C.商品的流通费用与销售利润之间的关系 D.流通费用率与商品销售量之间的关系 9.直线相关分析与直线回归分析的联系表现为( )。 A.相关分析是回归分析的基础 B.回归分析是相关分析的基础 C.相关分析是回归分析的深入 D.相关分析与回归分析互为条件 10.进行相关分析,要求相关的两个变量( )。 A.都是随机的 B.都不是随机的 C.一个是随机的,一个不是随机的 D.随机或不随机都可以 11.相关关系的主要特征是( )。 A.某一现象的标志与另外的标志之间存在着确定的依存关系 B.某一现象的标志与另外的标志之间存在着一定的关系,但它们不是确定的关系 C.某一现象的标志与另外的标志之间存在着严重的依存关系 D.某一现象的标志与另外的标志之间存在着函数关系 12.相关分析是研究( )。 A.变量之间的数量关系 B.变量之间的变动关系 C.变量之间相互关系的密切程度 D.变量之间的因果关系 13.现象之间相互依存关系的程度越低,则相关系数( )。 A.越接近于0 B.越接近于-1 C.越接近于1 D.越接近于0.5 14.在回归直线01y x ββ=+中,若10 β<,则x 与y 之间的相关系数( )。 A. r=0 B. r=1 C. 0<r <1 D. —l <r <0 15.当相关系数r=0时,表明( )。 A.现象之间完全无关 B.相关程度较小 C.现象之间完全相关 D.无直线相关关系 16.已知x 与y 两变量间存在线性相关关系,且2 10,8,7,100x y xy n σσσ===-=,则x 与y 之间存在着( )。

第6章 相关与回归分析习题解答

第六章 相关与回归分析 思考与练习 一、判断题 1.产品的单位成本随着产量增加而下降,这种现象属于函数关系。 答:错。应是相关关系。单位成本与产量间不存在确定的数值对应关系。 2.相关系数为0表明两个变量之间不存在任何关系。 答:.错。相关系数为零,只表明两个变量之间不存在线性关系,并不意味着两者间不存在其他类型的关系。 3.单纯依靠相关与回归分析,无法判断事物之间存在的因果关系。 答:对,因果关系的判断还有赖于实质性科学的理论分析。 4.圆的直径越大,其周长也越大,两者之间的关系属于正相关关系。 答:错。两者是精确的函数关系。 5.总体回归函数中的回归系数是常数,样本回归函数中的回归系数的估计量是随机变量。 答:对。 6.当抽取的样本不同时,对同一总体回归模型估计的结果也有所不同。 答:对。因为,估计量属于随机变量,抽取的样本不同,具体的观察值也不同,尽管使用的公式相同,估计的结果仍然不一样。 二、选择题 1.变量之间的关系按相关程度分可分为:b 、c 、d a.正相关; b. 不相关; c. 完全相关; d.不完全相关; 2.复相关系数的取值区间为:a a. 10≤≤R ; b.11≤≤-R ; c.1≤≤∞-R ; d.∞≤≤-R 1 3.修正自由度的决定系数a 、b 、d a.2 2 R R ≤; b.有时小于0 ; c. 102 ≤≤R ; d.比2 R 更适合作为衡量回归方程拟合程度的指标 4.回归预测误差的大小与下列因素有关:a 、b 、c 、d a 样本容量; b 自变量预测值与自变量样本平均数的离差 c 自变量预测误差; d 随机误差项的方差 三、问答题 1.请举一实例说明什么是单相关和偏相关?以及它们之间的差别。 答:例如夏季冷饮店冰激凌与汽水的消费量,简单地就两者之间的相关关系进行考察,就是一种单相关,考察的结果很可能存在正相关关系,即冰激凌消费越多,汽水消费也越多。然而,如果我们仔细观察,可以发现一般来说,消费者会在两者中选择一种消费,也就是两者之间事实上应该是负相关。两者之间的单相关关系出现正相关是因为背后还有天气等因素的影响,天气越热,两种冷饮的消费量都越多。如果设法将天气等因素固定不变,单纯考察冰激凌与汽水的消费量,则可能出现负相关关系。像这种假定其他影响因素不变专门考察其中两个因素之间的关系就成为偏相关。 2.讨论以下几种场合,回归方程t t t t u X X Y +++=33221βββ中回归系数的经济意义和应取的符号。 (1)Y t 为商业利润率;X 2t 为人均销售额;X 3t 为流通费用率。 (2)Y t 为粮食销售量;X 2t 为人口数;X 3t 为人均收入。

第六章相关与回归分析方法

第六章 相关与回归分析方法 第一部分 习题 一、单项选择题 1.单位产品成本与其产量的相关;单位产品成本与单位产品原材料消耗量的相关 ( )。 A.前者是正相关,后者是负相关 B.前者是负相关,后者是正相关 C.两者都是正相关 D.两者都是负相关 2.样本相关系数r 的取值范围( )。 A.-∞<r <+∞ B.-1≤r ≤1 C. -l <r <1 D. 0≤r ≤1 3.当所有观测值都落在回归直线 01y x ββ=+上,则x 与y 之间的相关系数( )。 A.r =0 B.r =1 C.r =-1 D.|r|=1 4.相关分析与回归分析,在是否需要确定自变量和因变量的问题上( )。 A.前者无需确定,后者需要确定 B.前者需要确定,后者无需确定 C.两者均需确定 D.两者都无需确定 5.直线相关系数的绝对值接近1时,说明两变量相关关系的密切程度是( )。 A.完全相关 B.微弱相关 C.无线性相关 D.高度相关 6.年劳动生产率x(千元)和工人工资y(元)之间的回归方程为y=10+70x ,这意味着年劳动生产率每提高1千元时,工人工资平均( )。 A.增加70元 B.减少70元 C.增加80元 D.减少80元 7.下面的几个式子中,错误的是( )。 A. y= -40-1.6x r=0.89 B. y= -5-3.8x r =-0.94 C. y=36-2.4x r =-0.96 D. y= -36+3.8x r =0.98 8.下列关系中,属于正相关关系的有( )。 A.合理限度内,施肥量和平均单产量之间的关系 B.产品产量与单位产品成本之间的关系 C.商品的流通费用与销售利润之间的关系 D.流通费用率与商品销售量之间的关系 9.直线相关分析与直线回归分析的联系表现为( )。 A.相关分析是回归分析的基础 B.回归分析是相关分析的基础 C.相关分析是回归分析的深入 D.相关分析与回归分析互为条件 10.进行相关分析,要求相关的两个变量( )。 A.都是随机的 B.都不是随机的 C.一个是随机的,一个不是随机的 D.随机或不随机都可以 11.相关关系的主要特征是( )。 A.某一现象的标志与另外的标志之间存在着确定的依存关系 B.某一现象的标志与另外的标志之间存在着一定的关系,但它们不是确定的关系 C.某一现象的标志与另外的标志之间存在着严重的依存关系 D.某一现象的标志与另外的标志之间存在着函数关系 12.相关分析是研究( )。 A.变量之间的数量关系 B.变量之间的变动关系 C.变量之间相互关系的密切程度 D.变量之间的因果关系 13.现象之间相互依存关系的程度越低,则相关系数( )。 A.越接近于0 B.越接近于-1 C.越接近于1 D.越接近于0.5 14.在回归直线01y x ββ=+中,若10 β<,则x 与y 之间的相关系数( )。 A. r=0 B. r=1 C. 0<r <1 D. —l <r <0 15.当相关系数r=0时,表明( )。 A.现象之间完全无关 B.相关程度较小

应用回归分析第6章课后习题答案

第6章 6.1 试举一个产生多重共线性的经济实例。 答:例如有人建立某地区粮食产量回归模型,以粮食产量为因变量Y,化肥用量为X1,水浇地面积为X2,农业投入资金为X3。由于农业投入资金X3与化肥用量X1,水浇地面积X2有很强的相关性,所以回归方程效果会很差。再例如根据某行业企业数据资料拟合此行业的生产函数时,资本投入、劳动力投入、资金投入与能源供应都与企业的生产规模有关,往往出现高度相关情况,大企业二者都大,小企业都小。 6.2多重共线性对回归参数的估计有何影响? 答:1、完全共线性下参数估计量不存在; 2、参数估计量经济含义不合理; 3、变量的显著性检验失去意义; 4、模型的预测功能失效。 6.3 具有严重多重共线性的回归方程能不能用来做经济预测? 答:虽然参数估计值方差的变大容易使区间预测的“区间”变大,使预测失去意义。但如果利用模型去做经济预测,只要保证自变量的相关类型在未来期中一直保持不变,即使回归模型中包含严重多重共线性的变量,也可以得到较好预测结果;否则会对经济预测产生严重的影响。 6.4多重共线性的产生于样本容量的个数n、自变量的个数p有无关系? 答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。 6.6对第5章习题9财政收入的数据分析多重共线性,并根据多重共线性剔除变量。将所得结果与逐步回归法所得的选元结果相比较。 5.9在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),x2为工业增

第六章相关与回归分析题目

第六章相关与线性回归分析 1、 1)试利用这批数据分析课题总数与哪些因素由比较密切的关系,利用相关系数检验。 2)以课题总数作为因变量进行多元线性回归。 2、在上题数据中,计算课题总数数与投入高级职称的人年数的偏相关关系,以投入人年数、 投入科研事业费作为控制变量。 3、现有1991~2007年的人均国民生产总值增长率(G),城市居民消费价格上涨幅度(P)和企

业职工平均工资增长率(W),如下: 4、 随机抽取的10家航空公司,对其最近一年的航班正点率和顾客投诉次数进行了调查, 所得数据如下表。 (1) 绘制散点图,说明二者之间的关系形态。 (2) 用航班正点率作自变量,顾客投诉次数作因变量,求出估计的回归方程,并解 释回归系数的意义。 (3) 检验回归系数的显著性(05.0=α)。 (4) 如果航班正点率为80%,估计顾客的投诉次数。 (5) 求航班正点率为80%时,顾客投诉次数95%的置信区间和预测区间。 航空公司编号 航班正点率 投诉次数 1 81.8 21 2 76.6 58 3 76.6 85 4 75.7 68 5 73.8 74 6 72.2 93 7 71.2 72 8 70.8 122 9 91.4 18 10 68.5 125 5、 一家房地产评估公司想对某城市的房地产销售价格(y )与地产的评估价值(x1)、房产 的评估价值(x2)和使用面积(x3)建立一个模型,以便对销售价格作出合理预测。为此,收集了20栋住宅的房地产评估数据见下表。用Minitab 进行回归,回答下面的问题:

(1)写出估计的多元回归方程。 (2)在销售价格的总变差中,被估计的回归方程所解释的比例是多少? (3)检验回归方程的线性关系是否显著()。 (4)检验各回归系数是否显著() (5)计算当x1=1000,x2=2000,x3=10000时,销售价格的预测值,置信区间(C.I)以及预测区间(P.I.) 6、一家电气销售公司的管理人员认为,每月的销售额是广告费用的函数,并想通过广告费 用对月销售额作出估计。下表是近8个月的销售额与广告费用数据。 (1)用电视广告费用作自变量,月销售额作因变量,建立估计的回归方程。 (2)用电视广告费用和报纸广告费用作自变量,月销售额作因变量,建立估计的回归方程。 (3)上述(1)和(2)所建立的估计方程,电视广告费用的系数是否相同?对其回归系数分别进行解释。 (4)根据问题(2)所建立的估计方程,在销售收入的总变差中,被估计的回归方程所解释的比例是多少? (5)根据问题(2)所建立的估计方程,检验回归方程的线性关系是否显著α (=

第六章 相关与回归分析

第六章 相关与回归分析 一、单项选择题 1.当自变量的数值确定后,因变量的数值也随之完全确定,这种关系属于( )。 A.相关关系 B.函数关系 C.回归关系 D.随机关系 2.现象之间的相互关系可以归纳为两种类型,即( )。 A.相关关系和函数关系 B.相关关系和因果关系 C.相关关系和随机关系 D.函数关系和因果关系 3.在相关分析中,要求相关的两变量( )。 A.都是随机的 B.都不是随机变量 C.因变量是随机变量 D.自变量是随机变量 4.现象之间线性依存关系的程度越低,则相关系数( ) 。 A.越接近于-1 B. 越接近于1 C. 越接近于0 D. 在0.5和0.8之间 5.若物价上涨,商品的需求量相应减少,则物价与商品需求量之间的关系为( )。 A.不相关 B. 负相关 C. 正相 关 D. 复相关 6.能够测定变量之间相关关系密切程度的主要方法是( ) 。 A.相关表 B.相关图 C.相关系 数 D.定性分析 7.下列哪两个变量之间的相关程度高( )。 A.商品销售额和商品销售量的相关系数是0.9 B.商品销售额与商业利润率的相关系数是0.84 C.平均流通费用率与商业利润率的相关系数是-0.94 D.商品销售价格与销售量的相关系数是-0.91 8.回归分析中的两个变量( )。 A.都是随机变量 B.关系是对等的 C.都是给定的量 D.一个是自变量,一个是因变量 9.当所有的观察值y 都落在直线 上时,则x 与y 之间的相关系数为( )。 A.r = 0 B.| r | = 1 C.-1

应用回归分析-第6章课后习题参考答案

第6章多重共线性的情形及其处理 思考与练习参考答案 6.1 试举一个产生多重共线性的经济实例。 答:例如有人建立某地区粮食产量回归模型,以粮食产量为因变量Y,化肥用量为X1,水浇地面积为X2,农业投入资金为X3。由于农业投入资金X3与化肥用量X1,水浇地面积X2有很强的相关性,所以回归方程效果会很差。再例如根据某行业企业数据资料拟合此行业的生产函数时,资本投入、劳动力投入、资金投入与能源供应都与企业的生产规模有关,往往出现高度相关情况,大企业二者都大,小企业都小。 6.2多重共线性对回归参数的估计有何影响? 答:1、完全共线性下参数估计量不存在; 2、近似共线性下OLS估计量非有效; 3、参数估计量经济含义不合理; 4、变量的显著性检验失去意义; 5、模型的预测功能失效。 6.3 具有严重多重共线性的回归方程能不能用来做经济预测? 答:虽然参数估计值方差的变大容易使区间预测的“区间”变大,使预测失去意义。但如果利用模型去做经济预测,只要保证自变量的相关类型在未来期中一直保持不变,即使回归模型中包含严重多重共线性的变量,也可以得到较好预测结果;否则会对经济预测产生严重的影响。 6.4多重共线性的产生于样本容量的个数n、自变量的个数p有无关系? 答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。 6.5 自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造设计矩阵X才可能避免多重共线性的出现? 答:请参考第三次上机实验题——机场吞吐量的多元线性回归模型,注意利用二手数据很难避免多重共线性的出现,所以一般利用逐步回归和主成分回归消除多重共线性。如果进行自己进行试验设计如正交试验设计,并收集数据,选择向量

统计学原理 第六章 相关与回归分析习题

第六章相关与回归分析习题 一、填空题 1.现象之间的相关关系按相关的程度分为、和;按相关的形式分为和;按影响因素的多少分为和。 2.两个相关现象之间,当一个现象的数量由小变大,另一个现象的数量,这种相关称为正相关;当一个现象的数量由小变大,另一个现象的数量,这种相关称为负相关。 3.相关系数的取值范围是。 4.完全相关即是关系,其相关系数为。 5.相关系数,用于反映条件下,两变量相关关系的密切程度和方向的统计指标。 6.直线相关系数等于零,说明两变量之间;直线相关系数等1,说明两变量之间;直线相关系数等于—1,说明两变量之间。 7.对现象之间变量的研究,统计是从两个方面进行的,一方面是研究变量之间关系的,这种研究称为相关关系;另一方面是研究关于自变量和因变量之间的变动关系,用数学方程式表达,称为。 8.回归方程y=a+bx中的参数a是,b是。在统计中估计待定参数的常用方法是。 9. 分析要确定哪个是自变量哪个是因变量,在这点上它与不同。 10.求两个变量之间非线性关系的回归线比较复杂,在许多情况下,非线性回归问题可以通过化成来解决。 11.用来说明回归方程代表性大小的统计分析指标是。 二、单项选择题 1.下面的函数关系是( ) A销售人员测验成绩与销售额大小的关系B圆周的长度决定于它的半径 C家庭的收入和消费的关系D数学成绩与统计学成绩的关系 2.相关系数r的取值范围( ) A -∞

第六章相关与回归分析题目

第六章相关与线性回归分析1、现有全国31个省市自治区的高校投入产出数据, 如下 省市名称投入人 年数 投入高级职称 的人年数 投入科研事 业费(百元) 课题 总数 专著 数 论文数 获奖 数 北京6795 3737 339803 3261 2723 12270 237 天津1649 939 45392 991 488 3055 138 河北2367 1039 40631 839 412 4440 51 山西1460 658 49661 635 218 2964 41 内蒙455 231 7001 227 152 1759 132 辽宁3664 1591 70301 1241 779 7244 252 吉林2514 1208 44154 902 581 4300 128 黑龙江1430 797 9477 479 391 2801 119 上海3783 1833 116292 2247 1130 6607 67 江苏5480 2436 138418 3110 961 10456 540 浙江2765 1238 44320 1676 473 6031 289 安徽2157 982 49672 599 232 3897 9 福建1575 710 73829 897 376 3239 13 江西2313 1013 15733 908 319 3979 90 山东3601 1995 71333 1287 920 10610 507 河南1957 834 8418 770 412 3903 140 湖北4427 2242 96011 1835 1126 11485 133 湖南2765 1525 121431 1266 605 6793 386 广东4234 1944 137897 2117 741 7705 232 广西1410 524 8433 431 183 2771 133 海南163 97 49684 76 70 494 21 重庆1495 786 22335 696 248 2988 83 四川2359 1142 70955 1138 433 4788 144 贵州221 121 1960 73 50 1198 7 云南1149 502 7845 282 149 1958 28 西藏75 24 500 17 6 117 0 陕西2236 1018 62621 803 569 6539 127 甘肃970 417 19613 530 16 2255 92 青海159 60 0 69 15 583 0 宁夏188 83 556 82 30 406 0 新疆660 360 330 276 116 2803 9 1)试利用这批数据分析课题总数与哪些因素由比较密切的关系,利用相关系数检验。 2)以课题总数作为因变量进行多元线性回归。 2、在上题数据中,计算课题总数数与投入高级职称的人年数的偏相关关系,以投入人年数、 投入科研事业费作为控制变量。 3、现有1991~2007年的人均国民生产总值增长率(G),城市居民消费价格上涨幅度(P)和企

第六章 相关与回归分析

第八章 相关与回归分析 一、填空题 8.1.1 客观现象之间的数量联系可以归纳为两种不同的类型,一种是函数关系 ,另一种是相关关系 。 8.1.2 回归分析中对相互联系的两个或多个变量可以区分为因变量 和自变量 。 8.1.3 函数关系 是指变量之间存在的严格确定的依存关系。 8.1.4 相关关系 是指变量之间客观存在的非严格确定的依存关系。 8.1.5 按相关关系涉及变量 的多少可分为单相关、复相关和偏相关。 8.1.6 两个现象的相关,称为单相关 。 8.1.7 在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量的相关关系称为偏相关 。 8.1.8 按变量之间相关关系的密切程度 不同,可分为完全相关、不完全相关和不相关。 8.1.9 按相关关系的表现形态 不同可分为线性相关和非线性相关。 8.1.10 在线性相关中,按相关的 方向 可分为正相关和负相关。 8.1.11 按相关的性质 可分为“真实相关”和“虚假相关”。 8.1.12 当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为正相关 。 8.1.13 当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为负相关 。 8.1.14 当两种现象之间的相关只是表面存在,实质上并没有内在的联系时,称之为虚假相关 。 8.1.15 相关分析 是指研究一个变量与另一个变量或另一组变量之间相关方向和相关密切程度的统计分析方法。 8.1.16 回归分析 是指根据相关关系的具体形态,选择一个合适的数学模型来近似地表达变量间平均变化关系的统计分析方法。 8.1.17 相关系数 是反映变量之间相关关系及关系密切程度的统计分析指标。 8.1.18 偏相关系数 是在多元相关分析中考虑其他变量但假定其保持不变的情况下计算出来的反映某两个变量之间相关程度的统计分析指标。 8.1.19 复相关系数 是指反映一个因变量与两个及两个以上自变量组成的一组自变量之间相关程度的统计分析指标。 8.1.20 最小二乘法 就是寻找参数0 1 ββ和的估计值 0 1 β β和,使因变量实际值与估计值的残差平方和达到最小。 8.1.21 正如标准差可以说明平均数代表性大小一样,估计标准差 则可以说明回归线代表性的大小。 8.1.22 回归分析中的显著性检验包括两方面的内容,一是对各回归系数 的显著性检验;二是对整个回归方程 的显著性检验。 8.1.23 对各回归系数的显著性检验,通常采用t 检验 ;对整个回归方程的显著性检验,通常采用F 检验 。 8.1.24 当相关系数0≈r 时,只能认为变量之间不存在线性相关 关系。 8.1.25 回归系数 的显著性检验就是要检验自变量x 对因变量y 的影响程度是否显著。 二、单项选择题(在每小题的3个备选答案中选出1个正确答案,并将其字母填在题干后面的括号内) 8.2.1 当一个或几个相互联系的自变量取一定的值时,因变量必定有一个且只有一个确定的值与之对应。这种关系称为

第六章 spss相关分析和回归分析

第六章 SPSS相关分析与回归分析 6.1 相关分析和回归分析概述 客观事物之间的关系大致可归纳为两大类,即 ●函数关系:指两事物之间的一种一一对应的关系,如商品的销售额和销售量之间的 关系。 ●相关关系(统计关系):指两事物之间的一种非一一对应的关系,例如家庭收入和 支出、子女身高和父母身高之间的关系等。相关关系又分为线性相关和非线性相关。 相关分析和回归分析都是分析客观事物之间相关关系的数量分析方法。 6.2 相关分析 相关分析通过图形和数值两种方式,有效地揭示事物之间相关关系的强弱程度和形式。 6.2.1 散点图 它将数据以点的的形式画在直角坐标系上,通过观察散点图能够直观的发现变量间的相关关系及他们的强弱程度和方向。 6.2.2 相关系数 利用相关系数进行变量间线性关系的分析通常需要完成以下两个步骤: 第一,计算样本相关系数r; ●相关系数r的取值在-1~+1之间 ●R>0表示两变量存在正的线性相关关系;r<0表示两变量存在负的线性相关关 系 ●R=1表示两变量存在完全正相关;r=-1表示两变量存在完全负相关;r=0表 示两变量不相关 ●|r|>0.8表示两变量有较强的线性关系;|r|<0.3表示两变量之间的线性关系较 弱 第二,对样本来自的两总体是否存在显著的线性关系进行推断。 对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有Pearson简单相关系数、Spearman等级相关系数和Kendall τ相关系数等。 6.2.2.1 Pearson简单相关系数(适用于两个变量都是数值型的数据) Pearson简单相关系数的检验统计量为: 6.2.2.2 Spearman等级相关系数 Spearman等级相关系数用来度量定序变量间的线性相关关系,设计思想与Pearson简 x y,而是利单相关系数相同,只是数据为非定距的,故计算时并不直接采用原始数据(,) i i

第6章回归分析

第6章回归分析 变量之间的联系可以分为两类,一类是确定性的,另一类是非确定性的。确定型的关系是指某一个或某几个现象的变动必然会引起另一个现象确定的变动,他们之间的关系可以使用数学函数式确切地表达出来,即y=f(x)。当知道x的数值时,就可以计算出确切的y值来。如圆的周长与半径的关系:周长=2πr。非确定关系则不然,例如,在发育阶段,随年龄的增长,人的身高会增加。但不能根据年龄找到确定的身高,即不能得出11岁儿童身高一定就是1米40公分。年龄与身高的关系不能用一般的函数关系来表达。研究变量之间既存在又不确定的相互关系及其密切程度的分析称为相关分析。如果把其中的一些因素作为自变量,而另一些随自变量的变化而变化的变量作为因变量,研究他们之间的非确定因果关系,这种分析就称为回归分析。 在本章,我们将讲解回归分析有关的内容,而在下一章,我们将讲解相关分析的具体操作方法。 在SppS 10.0 For windows中回归分析分为以下几种:(主要讲前三种) ●Linear:线性回归分析(data09-03) ●Curve Estimation:曲线回归分析(data13-01) ●Binary Logistic:二维 Logistic回归分析(data13-02) ●Multinomial Logistic:多维Logistic回归分析 ●Ordinal:Ordinal回归分析 ●Proibit:概率单位回归分析 ●Nonlinear:非线性回归分析 ●Weight Estimation: 加权估测分析 ●2-Stage Least Squares: 两阶最小二乘分析 8.1线性回归(data09-03) 一元线性回归方程(卫生统计114~121页) 直线回归分析的任务就是根据若干个观测(Xi,yi)i=1~n找出描述两个变量X、y之间关系的直线回归方程y^=a+bx。y^是变量y的估计值。求直线回归方程y^=a+bx,实际上是用回归直线拟合散点图中的各观测点。常用的方法是最小二乘法。也就是使该直线与各点的纵向垂直距离最小。即使实测值y与回归直线y^之差的平方和Σ(y-y^)2达到最小。Σ(y-y^)2也称为剩余(残差)平方和。因此求回归方程y^=a+bx的问题,归根到底就是求Σ(y-y^)2取得最小值时a和b的问题。a称为截距,b为回归直线的斜率,也称回归系数。 一元线性回归方程的适用条件 (l)线形趋势:自变量与因变量的关系是线形的,如果不是,则不能采用线性回归来分析。 (2)独立性:可表述为因变量y的取值相互独立,它们之间没有联系。反映到模型中,实际上就是要求残差间相互独立,不存在自相关。 (3)正态性:自变量的任何一个线形组合,因变量y均服从正态分布,反映到模型中,实际上就是要求随机误差项εi服从正态分布。 (4) 方差齐性:自变量的任何一个线形组合,因变量y的方差均齐性,实质就是要求残差的方差齐。 概括起来,“独立”、“线性”、“正态”、“等方差”是线性回归的四个条件。 一元线性回归方程的检验 根据原始数据,求出回归方程后就需要对回归方程进行检验。检验的假设是总体回归系数为0。另外要检验回归方程对因变量的预测效果如何。

统计学第六章课后题及答案解析

第六章 一、单项选择题 1.下面的函数关系是( ) A现代化水平与劳动生产率B圆周的长度决定于它的半径 C家庭的收入和消费的关系D亩产量与施肥量 2.相关系数r的取值范围( ) A -∞< r <+∞ B -1≤r≤+1 C -1< r < +1 D 0≤r≤+1 3.年劳动生产率x(干元)和工人工资y=10+70x,这意味着年劳动生产率每提高1千元时,工人工资平均( ) A增加70元B减少70元C增加80元D减少80元 4.若要证明两变量之间线性相关程度高,则计算出的相关系数应接近于( ) A +1 B -1 C 0.5 D 1 5.回归系数和相关系数的符号是一致的,其符号均可用来判断现象( ) A线性相关还是非线性相关B正相关还是负相关 C完全相关还是不完全相关D单相关还是复相关 6.某校经济管理类的学生学习统计学的时间(x)与考试成绩(y)之间建立线性回归方程?=a+bx。经计算,方程为?=200—0.8x,该方程参数的计算( ) A a值是明显不对的 B b值是明显不对的 C a值和b值都是不对的 D a值和b值都是正确的 7.在线性相关的条件下,自变量的均方差为2,因变量均方差为5,而相关系数为0.8时,则其回归系数为:( ) A 8 B 0.32 C 2 D 12.5 8.进行相关分析,要求相关的两个变量( ) A都是随机的B都不是随机的 C一个是随机的,一个不是随机的D随机或不随机都可以 9.下列关系中,属于正相关关系的有( ) A合理限度内,施肥量和平均单产量之间的关系 B产品产量与单位产品成本之间的关系 C商品的流通费用与销售利润之间的关系

D流通费用率与商品销售量之间的关系 10.相关分析是研究( ) A变量之间的数量关系B变量之间的变动关系 C变量之间的相互关系的密切程度D变量之间的因果关系 11.在回归直线y c=a+bx,b<0,则x与y之间的相关系数( ) A r=0 B r=l C 0

第六章spss相关分析和回归分析

第六章 spss相关分析和回归分析第六章 SPSS相关分析与回归分析 6.1 相关分析和回归分析概述 客观事物之间的关系大致可归纳为两大类,即 , 函数关系:指两事物之间的一种一一对应的关系,如商品的销售额和销售量之间的 关系。 , 相关关系(统计关系):指两事物之间的一种非一一对应的关系,例如家庭收入和 支出、子女身高和父母身高之间的关系等。相关关系又分为线性相关和非线性相关。 相关分析和回归分析都是分析客观事物之间相关关系的数量分析方法。 6.2 相关分析 相关分析通过图形和数值两种方式,有效地揭示事物之间相关关系的强弱程度和形式。 6.2.1 散点图 它将数据以点的的形式画在直角坐标系上,通过观察散点图能够直观的发现变量间的相关关系及他们的强弱程度和方向。 6.2.2 相关系数 利用相关系数进行变量间线性关系的分析通常需要完成以下两个步骤: 第一,计算样本相关系数r; ,+1之间 , 相关系数r的取值在-1 , R>0表示两变量存在正的线性相关关系;r<0表示两变量存在负的线性相关关

系 , R,1表示两变量存在完全正相关;r,-1表示两变量存在完全负相关;r,0表示两变量不相关 , |r|>0.8表示两变量有较强的线性关系; |r|<0.3表示两变量之间的线性关系较 弱 第二,对样本来自的两总体是否存在显著的线性关系进行推断。 对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有Pearson简单 ,相关系数、Spearman等级相关系数和Kendall 相关系数等。 6.2.2.1 Pearson简单相关系数(适用于两个变量都是数值型的数据) (,)(,)yy,ixxi ,r 22(,),(,)yy,,ixxi Pearson简单相关系数的检验统计量为: rn,2 2t, 6.2.2.2 Spearman等级相关系数 Spearman等级相关系数用来度量定序变量间的线性相关关系,设计思想与Pearson简1,r (,)xyii单相关系数相同,只是数据为非定距的,故计算时并不直接采用原始数据,而是利 (,)xy(,)UViiii用数据的秩,用两变量的秩代替代入Pearson简单相关系数计算公式中,于是 xyii其中的和的取值范围被限制在1和n之间,且可被简化为:

第六章____相关和回归分析

第六章相关和回归分析 一、填空题 2、与相关关系对应的是________,是反映现象之间存在的严格的依存关系。 3、相关系数的取值范围在________和________之间,带负号表明是________,带正号表明是________。 4、直线相关中,如变量x增加或减少,变量y也相应增加或减少,称为________;如x增加或减少,y也相应减少或增加,称为________。 9、用直线方程来表明两个变量间的变动关系,并进行估计推算的分析方法成为________。 10、反映直线相关关系密切程度的指标是________ ;反映曲线相关关系密切程度的指标是________。 12、回归方程中________的系数称为回归系数。 二、是非题 2、按变量之间的相关强度不同分为正相关、负相关。 4、相关系数r取值范围在+1和-1之间。 5、相关系数是直线条件下说明两个现象之间相关关系的密切程度的统计分析指标。 6、相关与回归分析是在定性分析的基础上进行的定量分析。 10、回归方程中,回归系数b的绝对值大小与变量所用计量单位的大小有关。 11、回归方程要求自变量和因变量都是随机变量。 12、回归系数b大于0或小于0时,则相关系数r也大于0或小于0。 14、估计指标标准误差Syx=0,说明实际值与估计值完全一致。 三、单项选择题 1、相关关系是() A、现象间的严格的依存关系 B、现象间的数量关系 C、现象间不确定的关系 2、相关分析是一种() A、以定量分析为前提的定性分析 B、以定性分析为前提的定量分析C定性分析 4、相关图又称() A、散布图 B、曲折图 C、散点图 D、曲线图 5、工人的出勤率与电视机合格率之间的相关系数如等于0.85,可以断定两者是() A、显著相关 B、高度相关 C、正相关 D、虚假相关 9、相关分析和回归分析的一个重要区别是() A、前者研究变量间的密切程度,后者研究变量间的变动关系,并用数字方程式表示 B、前者研究变量间的变动关系,后者研究变量间的密切程度。 C、两者都研究变量间的变动关系 D、两者都不研究变量间的变动关系 10、一元线性回归分析有下列特点() A、自变量与因变量都是随机变量 B、自变量与因变量都是给定的数值 C、因变量是给定的数值,自变量是随机变量 D、自变量是给定数值,因变量是随机变量 11、当所有观测值都落在回归直线上则两个变量之间的相关系数为() A、1 B、-1 C、+1或-1 D、大于-1,小于+1 12、估计标准误差公式有() A、n个自由度 B、n-1个自由度 C、n-2个自由度 D、0个自由度

相关文档
相关文档 最新文档