第八章相关分析
●第一节相关分析概述
●第二节直线相关关系的测定
●第三节回归分析
第一节相关分析概述
●一、相关关系的概念
●现象相互之间的数量关系可以从形式上分为两种类型:一类是严格的确定性的函数关
系,另一类是不严格的不确定性的相关关系。
●相关关系是现象之间确实存在有数量上的依存关系,但这种数量上的关系是不确定的。函数关系的例子
?某种商品的销售额(y)与销售量(x)之间的关系可表示为y = px (p 为单价)
?圆的面积(S)与半径之间的关系可表示为S= R2
?企业的原材料消耗额(y)与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系可表示为y = x1 x2 x3
函数关系
1.是一一对应的确定关系
2.设有两个变量x 和y ,变量y 随变量x 一起变化,并完全依赖于x ,当变量x 取
某个数值时,y 依确定的关系取相应的值,则称y 是x 的函数,记为y = f (x),其中x 称为自变量,y 称为因变量
3.各观测点落在一条线上
相关关系(几个例子)
相关关系的例子
?父亲身高(y)与子女身高(x)之间的关系
?收入水平(y)与受教育程度(x)之间的关系
?粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系
?商品的消费量(y)与居民收入(x)之间的关系
?商品销售额(y)与广告费支出(x)之间的关系
相关关系
1.变量间关系不能用函数关系精确表达
2.一个变量的取值不能由另一个变量唯一确定
3.当变量x 取某个值时,变量y 的取值可能有几个
4.各观测点分布在直线周围
二、相关关系的种类
(1)相关关系按涉及的变量的多少分为单相关、复相关和偏相关。
单相关就是两个变量之间的相关关系。是研究一个因变量与一个自变量的依存关系。
复相关就是多个变量之间的相关关系。是研究一个因变量与两个或两个以上自变量的依存关系。
偏相关就是在复相关研究中,如果假定其它变量不变,仅研究某一个变量对另一个变量的依存关系。
(2)相关关系按方向不同分为正相关和负相关。
正相关是指变量之间存在着同向变动的相关关系,即当一个变量的数值有小变大,另一个变量的数值也相应地由小变大
负相关是指变量之间存在着反向变动的相关关系,即当一个变量的数值有小变大,另一个变量的数值却由大变小。
(3)相关关系按表现的形式不同分为线性相关和非线性相关。
当一个变量变动时,另一个变量也随之发生大致均等的变动,从图形上看,二者对应点分布近似地在一条直线附近,这种相关关系就称为线性相关关系。
当一个变量变动时,另一个变量也随之发生变动,但从图形上看,二者对应点分布
近似地在一条曲线附近,这种相关关系就称为非线性相关关系。
(4)相关关系按相关程度不同分为完全相关、不完全相关和不相关。
完全相关就是当一个变量的变动完全由另一个变量的变动所决定。(函数关系)
当两个变量之间完全不存在任何依存关系,各自独立变动,其相关程度为零,称为不相关或零相关。
当变量之间的关系介于完全相关与不相关之间,称为不完全相关。
三、相关分析的内容
● 1.确定现象之间是否存在相关关系,以及相关关系的表现形式
● 2.测定相关关系的密切程度和方向
● 3.确定现象之间相关关系的一般关系式
● 4.测定变量估计值的可靠程度
第二节直线相关关系的测定
判断现象之间有无相关关系,应先进行定性分析,即依据理论知识、实践经验对现象之间是否存在相关关系及相关关系的类型作出判断。然后在此基础上进行定量分析,即运用相关图、相关表和相关系数等方法对现象之间的相关关系进行描述与测度。
㈠相关表㈡相关关系的图示㈢相关系数
一、相关表
相关表是指按照相关现象的数量对应关系以及一定的逻辑顺序编制成的一种统计表。
通过相关表可以初步看出各变量之间的相关关系。
●相关图是指把相关表中原始的对应数值在平面直角坐标图中用点描绘出来,用以反映
其分布状况的统计图,也称散点图、散布图。
●从相关点的分布情况,就可以直观地、近似地观察出两个变量之间有无相关关系、相
散点图(例题分析)
【例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据
三、 相关系数
1.相关系数的概念及其公式
相关表与相关图只能大致反映变量间的相关关系要准确反映变量之间的相关程度,就需要计算相关系数。
相关系数是测量变量之间的密切程度的指标。测定两个变量之间线性关系密切程度的指标称为单线性相关系数或线性单相关系数。通常用字母r 表示。 积差法公式:
()()
()()
222
..y
y x x y y x x r y x xy ----=
=∑∑σσσ (简单式)∑∑∑∑∑∑∑---=
2222)
(.)(.y y n x x n y x xy n r
()
985
.01428879125587700124087
8090282450012)(.)(.4087
80902
2
2
222=-?-
??-?=
---=∑∑∑∑∑∑∑y y n x x n y
x xy n r
2.相关关系的密切程度的判断标准
●相关系数的取值范围一定是在-1≤r≤+1,或0≤r≤1这一闭区间。
●当r=1时,表示与变量为完全相关,即确定性的函数关系。
●当r=0时,表明所有的相关点的分布都是杂乱无章的,说明变量与变量无关。
●如果0<r<1,表示xy 为正相关;
●当-1<r<0时,表示xy 为负相关,。
3.直线相关分析的特点
●1)参与相关分析的两个变量是对等关系,不分自变量和因变量,因此,相关系数只有
一个。
●2)相关系数有正负号,它们反映相关关系的方向,正号反映正相关,负号反映负相关。
●3)相关的两个变量必须是随机的,这也是对等关系的反映。
第三节回归分析
一、回归分析的含义
什么是回归
回归是由英国著名统计学家Francis Galton在19世纪末期研究孩子及其父母的身高时提出来的。Galton发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们父母那样高。比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们父母的平均身高高。Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数值变量之间数量关系的方法称为回归分析。
什么是回归分析?
1.从一组样本数据出发,确定变量之间的数学关系式
2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找
出哪些变量的影响显著,哪些不显著
3.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,
并给出这种预测或控制的精确程度
回归分析与相关分析的关系
联系:二者都是对客观事物数量依存关系的分析。一方面,相关分析是回归分析的基础和前提。另一方面,回归分析是相关分析的深入和继续。
回归分析与相关分析的区别
1.相关分析中,变量x变量y 处于平等的地位;回归分析中,变量y 称为因变量,处
在被解释的地位,x 称为自变量,用于预测因变量的变化
2.相关分析中所涉及的变量x 和y 都是随机变量;回归分析中,因变量y 是随机变量,
自变量x可以是随机变量,也可以是非随机的确定变量
3.相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量
x 对变量 y 的影响大小,还可以由回归方程进行预测和控制
二、 简单直线回归方程的配合方法 回归方程式,其一般形式为:bx a y c += 应用最小平方法原理有:
∑∑+=x b na y ∑∑∑+=2
x
b x a xy
∑∑∑∑∑--=
2
2)(x x n y x xy n b x b y n
x b n
y a -=-=
∑∑
三、估计标准误差
估计标准误差是就是观察值 对估计值 的平均离差,也叫回归误差,是衡量因变量的估计值与观测值之间的平均误差大小的指标。
2
)
(2
--=
∑n y y S c
y 简捷公式 :2
2
---=
∑∑∑n xy b y a y
S y
四、 估计标准误差和相关系数的关系
221y
y S r σ-
±= 2
1r S y y -=σ
回归模型的类型
一元线性回归
1. 涉及一个自变量的回归
2. 因变量y 与自变量x 之间为线性关系
? 被预测或被解释的变量称为因变量(dependent variable),用y 表示
? 用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x 表示
3. 因变量与自变量之间的关系用一条线性方程来表示 回归模型(regression model)
1. 回答“变量之间是什么样的关系?”
2. 方程中运用
? 1 个数字的因变量(响应变量)
? 被预测的变量
? 1 个或多个数字的或分类的自变量 (解释变量)
? 用于预测的变量
3. 主要用于预测和估计 一元线性回归模型
1. 描述因变量 y 如何依赖于自变量 x 和误差项ε 的方程称为回归模型
2. 一元线性回归模型可表示为
y = A + B x + e
? y 是 x 的线性函数(部分)加上误差项
? 线性部分反映了由于 x 的变化而引起的 y 的变化 ? 误差项 ε 是随机变量
? 反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响 ? 是不能由 x 和 y 之间的线性关系所解释的变异性 ? A 和 B 称为模型的参数
一元线性回归模型(基本假定)
1. 误差项ε是一个期望值为0的随机变量,即E (ε)=0。对于一个给定的 x 值,y 的期望值为
2. Y =A+ B x
3. 对于所有的 x 值,ε的方差σ2 都相同
4. 误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N ( 0 ,σ2 )
? 独立性意味着对于一个特定的 x 值,它所对应的ε与其他 x 值所对应的ε不相关
? 对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关
回归方程 (regression equation)
1. 描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程
2. 一元线性回归方程的形式如下
3. Y = A + Bx 方程的图示是一条直线,也称为直线回归方程
A 是回归直线在 y 轴上的截距,是当 x =0 时 y 的期望值
B 是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值 估计的回归方程(estimated regression equation)
1. 总体回归参数 A 和 B 是未知的,必需利用样本数据去估计
2. 用样本统计量a 和b 代替回归方程中的未知参数A 和B ,就得到了估计的回归方程
3.一元线性回归中估计的回归方程为 Yc=a+bx 其中: a 是估计的回归直线在 y 轴上的截距, b 是直线的斜率,它表示对于一个给定的 x 的值, Yc 是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值. 参数的最小二乘估计
1. 使因变量的观察值与估计值之间的离差平方和达到最小来求得a 和b 的方法。即
最小=--=-∑∑==n
i i i n
i c i
bx a y y y
1
21
2
)()(
2. 用最小二乘法拟合的直线来代表x 与y 之间的关系与实际数据的误差比其他任何直线都小
根据最小二乘法的要求,可得求解a 和b 的公式如下
?
??
??-=--=∑∑∑∑∑x
b y a X X n Y X XY n b 22)(
已求得如下过程数据:
∑∑∑∑====6029,541250,30800,3392
X XY Y X
由最小二乘法标准方程得回归系数的计算值为:
82
.6733960292030800
33954125020)(2
2
2=-??-?=
--=
∑∑∑∑∑X X n Y X XY n b
45.39020
339
82.672030800=?-=
-=
∑∑n
X
b n
Y a 得出Y 对X 的直线回归方程为:X bX a Y c 82.6745.390+=+= 方程的意义
回归直线的拟合优度
变差
1.因变量y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面
?由于自变量x 的取值不同造成的
?除x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响
2.对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差
来表示
离差平方和的分解(三个平方和的意义)
1.总平方和(SST)
?反映因变量的n 个观察值与其均值的总离差
2.回归平方和(SSR)
?反映自变量x 的变化对因变量y 取值变化的影响,或者说,是由于x 与y 之间的线性关系引起的y 的取值变化,也称为可解释的平方和
3.残差平方和(SSE)
?反映除x 以外的其他因素对y 取值的影响,也称为不可解释的平方和或剩余平方和
?从上图可以看出,在总变差平方和(SST)中回归离差平方和(SSR)的比例越大,回归直线拟合越好。