1.相关关系的分类
从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关.
2.线性相关
从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线.3.回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则b^,a^
其中,b是回归方程的斜率,a是在y轴上的截距.
4.样本相关系数
r=
∑
i=1
n
(x i-x)(y i-y)
∑
i=1
n
(x i-x)2∑
i=1
n
(y i-y)2
,用它来衡
量两个变量间的线性相关关系.
(1)当r>0时,表明两个变量正相关;
(2)当r<0时,表明两个变量负相关;
(3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.
5.线性回归模型
(1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差.
(2)相关指数
用相关指数R2来刻画回归的效果,其计算公式是:R2=,R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好.
规律
(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.
注意
(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.
考向一相关关系的判断
例1.下列选项中,两个变量具有相关关系的是( )
A.正方形的面积与周长
B.匀速行驶车辆的行驶路程与时间
C.人的身高与体重
D.人的身高与视力
答案:C
例2.对变量x、y有观测数据(x i,y i)(i =1,2,…,10),得散点图1;对变量u,v 有观测数据(u i,v i)(i=1,2,…,10),得散点图2.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:选C.由题图1可知,各点整体呈递减趋势,x与y负相关,由题图2可知,各点整体呈递增趋势,u与v正相关.
例3.下面哪些变量是相关关系().A.出租车车费与行驶的里程
B.房屋面积与房屋价格
C.身高与体重D.铁块的大小与质量
解析A,B,D都是函数关系,其中A一般是分段函数,只有C是相关关系.
答案 C
例4.如图所示,有5组(x,y)数据,去掉________组数据后,剩下的4组数据的线性相关性最大.
解析:因为A、B、C、E四点分布在一条直线附近且贴近某一直线,D点离得远.答案:D
例5.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v 有观测数据(u i、v i)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断().
A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关
解析由题图(1)可知,各点整体呈递减趋势,x与y负相关;由题图(2)可知,各点整体呈递增趋势,u与v正相关.
答案 C
例6.下列关系属于线性负相关的是( )
A.父母的身高与子女身高的关系
B.球的体积与半径之间的关系
C.汽车的重量与汽车每消耗1 L汽油所行驶的平均路程
D.一个家庭的收入与支出
解析:选C.A、D中的两个变量属于线性正相关,B中两个变量是函数关系.
例7.山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg):
(1)画出散点图;
(2)判断是否具有相关关系.
[审题视点] (1)用x轴表示化肥施用量,y轴表示棉花产量,逐一画点.
(2)根据散点图,分析两个变量是否存在相关
关系.
解(1)散点图如图所示
(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系.
利用散点图判断两个变量是否有相关关系是比较简便的方法.在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系.即变量之间具有函数关系.如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系;
如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
例8. 根据两个变量x,y之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).
解析从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系.
答案否
考向二线性回归方程
例9.对有线性相关关系的两个变量建立的回归直线方程y^=a+bx中,回归系数b( )
A.不能小于0 B.不能大于0
C.不能等于0 D.只能小于0
解析:选C.∵b=0时,r=0,这时不具有线性相关关系,但b能大于0也能小于0.
例10.已知回归方程y^=4.4x+838.19,则可估计x与y的增长速度之比约为________.
解析:x与y的增长速度之比即为回归
方程的斜率的倒数
1
4.4
=
10
44
=
5
22
.
答案:
5 22
例11.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是().A.y^=-10x+200 B.y^=10x+200 C.y^=-10x-200 D.y^=10x-200 解析因为销量与价格负相关,由函数关系考虑为减函数,又因为x,y不能为负数,
再排除C,故选A.
答案 A
例12.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^;(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程.预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值:3×2.5+4×3+5×4+6×4.5=
66.5)
[审题视点] (2)问利用公式求a ^、b ^,即可求出线性回归方程.
(3)问将x =100代入回归直线方程即可. 解 (1)由题设所给数据,可得散点图如图所示.
(2)由对照数据,计算得: i =1
4
x 2i =86, x =3+4+5+64
= 4.5(吨),y =2.5+3+4+4.54=3.5(吨).
已知∑i =1
4x i y i =66.5,
所以,由最小二乘法确定的回归方程的系数为:
b ^=∑i =14x i y i -4x ·y ∑i =14x 2i
-4x 2=66.5-4×4.5×3.586-4×4.52=0.7,
a ^=y -
b ^x =3.5-0.7×4.5=0.35.
因此,所求的线性回归方程为y ^=0.7x +0.35.
(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为: 90-(0.7×100+0.35)=19.65(吨标准煤).
在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系,若它们之间有线性相关关系,再求回归直线方程.
例13.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:
父亲身高x/cm 17
4
17
6
17
6
17
6
17
8
儿子身高y/cm 17
5
17
5
17
6
17
7
17
7
则y对x的线性回归方程为().A.y=x-1 B.y=x+1
C.y=88+1
2x D.y=176
解析由题意得x=
174+176+176+176+178
5
=176(cm),
y=175+175+176+177+177
5
=176(cm),
由于(x,y)一定满足线性回归方程,经验证知选C.
答案 C
例14.某地最近十年粮食需求量逐年上升,下表是部分统计数据:
(1)利用所给数据求年需求量与年份之间的
回归直线方程y^=bx+a;
(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.
解(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:
对预处理后的数据,容易算得,
x=0,y=3.2,
b=260
40=6.5,a=y-b x=3.2.
由上述计算结果,知所求回归直线方程为y -257=b(x-2 006)+a=6.5(x-2 006)+
3.2,
即y^=6.5(x-2 006)+260.2.①
(2)利用直线方程①,可预测2012年的粮食需求量为
6.5(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).
例15.下列有关回归直线方程y^=bx+a 的叙述正确的是( )
①反映y^与x之间的函数关系;
②反映y与x之间的函数关系;
③表示y^与x之间的不确定关系;
④表示最接近y与x之间真实关系的一条直线.
A.①② B.②③
C.③④ D.①④
解析:选D.y^=bx+a表示y^与x之间的函数关系,而不是y与x之间的函数关系;但它反映的关系最接近y与x之间的真实关系,故选D.
例16.设有一个回归方程y^=3-5x,变量x增加一个单位时( )
A.y平均增加3个单位
B.y平均减少5个单位
C.y平均增加5个单位
D.y平均减少3个单位
解析:选B.∵-5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.例17.对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(x n,y n),则下列说法中不.正确的是( ) A.由样本数据得到的回归方程y^=b^x+a^必过样本中心(x,y)
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
D.若变量y和x之间的相关系数为r =-0.9362,则变量y和x之间具有线性相关关系
解析:选C.C中应为R2越大拟合效果越好.
例18.已知回归方程y^=2x+1,而试验
得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是( )
A .0.01
B .0.02
C .0.03
D .0.04
解析:选C.当x =2时,y ^
=5, 当x =3时,y ^=7,
当x =4时,y ^=9.
∴e ^1=4.9-5=-0.1,e ^2=7.1-7=0.1, e ^
3=9.1-9=0.1.
∴ i =1
3e ^
i 2=(-0.1)2+(0.1)2+(0.1)2=0.03.
例19.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;
②回归方程y ^
=bx +a 必过点(x ,y ); ③曲线上的点与该点的坐标之间具有相关关系;
④在一个2×2列联表中,由计算得K
2=13.079,则其两个变量间有关系的可能性