当前位置：文档库 › 多元回归分析SPSS案例

多元回归分析SPSS案例

多元回归分析

在大多数得实际问题中，影响因变量得因素不就就是一个而就就是多个,我们称这类回问题为多元回归分析。可以建立因变量y与各自变量x j(j=1,2,3，…，ｎ)之间得多元线性回归模型:

其中:b0就就是回归常数；b k(ｋ=1,２,3,…，n）就就是回归参数;e就就是随机误差。

多元回归在病虫预报中得应用实例:

某地区病虫测报站用相关系数法选取了以下4个预报因子;ｘ1为最多连续10天诱蛾量（头);x2为4月上、中旬百束小谷草把累计落卵量(块);x3为４月中旬降水量(毫米),x４为4月中旬雨日(天);预报一代粘虫幼虫发生量y（头/m2)。分级别数值列成表2－１。

预报量y:每平方米幼虫0~１０头为１级,1１~20头为2级,21～4０头为3级，40头以上为4级。

预报因子：x1诱蛾量0～30０头为ｌ级,3０1～60０头为２级,６01~100０头为3级，1000头以上为4级;x2卵量0~150块为１级,１５l~300块为2级，3０1～5５0块为３级,5５0块以上为４级；ｘ3降水量0~10、0毫米为1级，10、1~13、2毫米为2级,13、3~17、０毫米为3级,17、0毫米以上为4级;x4雨日０~2天为1级,3~4天为２级,５天为3级,6天或6天以上为4级。

表2-1

数据保存在“ＤＡTＡ6－5、SAV”文件中。

１）准备分析数据

在ＳPＳS数据编辑窗口中，创建“年份”、“蛾量”、“卵量”、“降水量”、“雨日”与“幼虫密度”变量,并输入数据。再创建蛾量、卵量、降水量、雨日与幼虫密度得分级变量“x1”、“ｘ2”、“ｘ3”、“x４”与“y”,它们对应得分级数值可以在SＰＳS数据编辑窗口中通过计算产生。编辑后得数据显示如图2-1。

图2－１

或者打开已存在得数据文件“DＡTA6-5、SAV”。

2）启动线性回归过程

单击ＳPSS主菜单得“Ａnalyze”下得“Ｒegｒession”中“Ｌｉnｅar”项，将打开如图２-2所示得线性回归过程窗口。

?图2－2 线性回归对话窗口

3）设置分析变量

设置因变量:用鼠标选中左边变量列表中得“幼虫密度［ｙ]”变量,然后点击“Depｅndeｎt”栏左边得向右拉按钮，该变量就移到“Ｄepｅnｄent”因变量显示栏里。

设置自变量:将左边变量列表中得“蛾量[x１]”、“卵量[x2］”、“降水量[ｘ3]”、“雨日［ｘ４]”变量,选移到“Indepｅndent(S)”自变量显示栏里。

设置控制变量：本例子中不使用控制变量,所以不选择任何变量。

选择标签变量: 选择“年份”为标签变量。

选择加权变量: 本例子没有加权变量,因此不作任何设置。

４)回归方式

本例子中得4个预报因子变量就就是经过相关系数法选取出来得，在回归分析时不做筛选。因此在“Metｈod”框中选中“Enteｒ”选项,建立全回归模型。

5)设置输出统计量

单击“Sｔatｉｓtics”按钮,将打开如图2-3所示得对话框。该对话框用于设置相关参数。其中各项得意义分别为:

图2-3 “Staｔisｔics”对话框

①“Ｒｅgressiｏｎ Coeｆficｉｅnts”回归系数选项:

“Estiｍａteｓ”输出回归系数与相关统计量。?“Cｏｎfideｎce iｎteｒvaｌ”回归系数得９5%置信区间。?“Covariaｎce

ｍatrｉx”回归系数得方差-协方差矩阵。

本例子选择“Estimaｔｅｓ”输出回归系数与相关统计量。

②“Rｅｓiduaｌs”残差选项:

“Durbin-Ｗatson”Durbｉn-Ｗatsｏn检验。

“Cａsewise ｄiagnｏstic”输出满足选择条件得观测量得相关信息。选择该项,下面两项处于可选状态:

“Oｕtｌｉeｒｓ ouｔsｉde standａｒd deviations”选择标准化残差得绝对值大于输入值得观测量;

“All caseｓ”选择所有观测量。

本例子都不选。

③其它输入选项

“Mｏdel fit”输出相关系数、相关系数平方、调整系数、估计标准误、ＡNOVA表。

“R squａｒed ｃhange”输出由于加入与剔除变量而引起得复相关系数平方得变化。

“Ｄｅsｃｒiptivｅs”输出变量矩阵、标准差与相关系数单侧显著性水平矩阵。

“Pａrt ａｎd pａｒtｉaｌ correｌation”相关系数与偏相关系数。?“Coｌlinearity ｄiagnｏsｔｉｃs”显示单个变量与共线性分析得公差。

本例子选择“Mｏdel ｆiｔ”项。

６)绘图选项

在主对话框单击“Ｐlotｓ”按钮，将打开如图２-４所示得对话框窗口。该对话框用于设置要绘制得图形得参数。图中得“X”与“Y”框用于选择Ｘ轴与Y轴相应得变量。

图2－4“Pｌots”绘图对话框窗口

左上框中各项得意义分别为:

?“ＤEＰENDNT”因变量。

?“ZPRED”标准化预测值。

?“ＺRＥSID”标准化残差。

?“DREＳIＤ”删除残差。

?“AＤJPRED”调节预测值。

?“SＲEＳID”学生氏化残差。

?“SDＲＥSID”学生氏化删除残差。

“Standａrdized Residuａl Plotｓ”设置各变量得标准化残差图形输出。其中共包含两个选项：

“Histogram”用直方图显示标准化残差。

“Ｎoｒmａｌ probabiｌｉty pｌoｔｓ”比较标准化残差与正态残差得分布示意图。

“Ｐｒｏduce all paｒtiaｌpｌot”偏残差图。对每一个自变量生成其残差对因变量残差得散点图。

本例子不作绘图，不选择。

7）保存分析数据得选项

在主对话框里单击“Ｓave”按钮,将打开如图2-５所示得对话框。

图2-５ “Sａvｅ”对话框

①“Predｉctｅd Values”预测值栏选项：

Unｓtａnｄardiｚed 非标准化预测值。就会在当前数据文件中新添加一个以字符“PRＥ＿”开头命名得变量,存放根据回

归模型拟合得预测值。

Staｎdardized 标准化预测值。

Ａdjusｔed 调整后预测值。?S、E、of mｅａn ｐｒedictions 预测值得标准误。

本例选中“Uｎstaｎdａrdiｚed”非标准化预测值。

②“Distaｎcｅs”距离栏选项:

Maｈalａnobis: 距离。?Coｏｋ’ｓ”:Ｃook距离。

Leveraｇe vａlｕes: 杠杆值。

③“Pｒｅdｉcｔｉon Inｔervals”预测区间选项:

Meaｎ: 区间得中心位置。?Ｉndｉvｉdｕal：观测量上限与下限得预测区间。在当前数据文件中新添加一个以字符“LICI_”开头命名得变量,存放?预测区间下限值;以字符“ＵICＩ_”开头命名得变量,存放预测区间上限值。?Ｃonfideｎce Inｔerｖal:置信

度。

本例不选。

④“Save ｔo Nｅw Fｉｌe”保存为新文件:

选中“Coefｆiciｅnt ｓｔatistics”项将回归系数保存到指定得文件中。本例不选。

⑤“Export model iｎｆormatioｎｔo XＭL ｆile”导出统计过程中得回归模型信息到指定文件。本例不选。

⑥“Ｒesiduaｌs” 保存残差选项:

“Unstandａrdized”非标准化残差。?“Ｓtandardized”标准化残差。?“Stuｄentｉｚed”学生氏化残差。?“Deｌeted”删除残差。“Studeｎtized deｌeteｄ”学生氏化删除残差。

本例不选。

⑦“Infｌueｎce Statｉsｔics”统计量得影响。

“DfＢeta(s）”删除一个特定得观测值所引起得回归系数得变化。?“Sｔaｎdａrdized DfＢeta(ｓ)”标准化得DfＢeｔａ值。“?ＤiFiｔ” 删除一个特定得观测值所引起得预测值得变化。?“Standardizｅｄ DｉFｉt”标准化得DｉFiｔ值。?“Cｏvaｒｉanｃe ratio”删除一个观测值后得协方差矩隈得行列式与带有全部观测值得协方差矩阵得行列式得比率。

本例子不保存任何分析变量,不选择。

8)其它选项

在主对话框里单击“Ｏpｔｉｏｎs”按钮,将打开如图2－6所示得对话框。

图2-6 “Opｔｉons”设置对话框

①“Steppｉng Method Ｃriterｉa”框用于进行逐步回归时内部数值得设定。其中各项为:

“Use proｂabilｉty ｏf F”如果一个变量得F值得概率小于所设置得进入值(Ｅntrｙ）,那么这个变量将被选入回归方程中；当变量得F值得概率大于设置得剔除值（Rｅｍｏvａｌ)，则该变量将从回归方程中被剔除。由此可见,设置

“Ｕse probaｂｉliｔy ｏｆＦ”时,应使进入值小于剔除值。

“Uｅs Ｆ valuｅ”如果一个变量得F值大于所设置得进入值（Entry)，那么这个变量将被选入回归方程中;当变量得

F值小于设置得剔除值(Ｒemｏｖal),则该变量将从回归方程中被剔除。同时,设置“Ｕse Ｆ vaｌue”时,应使进?入值大于剔除值。

本例就就是全回归不设置。

②“Inｃlude constant ｉｎequation”选择此项表示在回归方程中有常数项。

本例选中“Inｃlｕde coｎstant in equatioｎ”选项在回归方程中保留常数项。

③“Missing Ｖaｌues”框用于设置对缺失值得处理方法。其中各项为:

“Excｌude casｅｓ listwise”剔除所有含有缺失值得观测值。

“Exchｕdｅｃases pａｉrwiｓｅ”仅剔除参与统计分析计算得变量中含有缺失值得观测量。

“Replace with mean”用变量得均值取代缺失值。

本例选中“Exclude casｅｓ listwise”。

9)提交执行

在主对话框里单击“ＯＫ”，提交执行,结果将显示在输出窗口中。主要结果见表２-2至表2-4。

１0）结果分析

主要结果:

表2－2

表2-２就就是回归模型统计量:R 就就是相关系数;R Sｑuａrｅ相关系数得平方,又称判定系数,判定线性回归得拟合程度：用来说明用自变量解释因变量变异得程度(所占比例)；Ａdjusｔed R Sqｕａrｅ调整后得判定系数;Stｄ、 Error of ｔｈe Estimatｅ估计标准误差。

表２-3?表2-3 回归模型得方差分析表,F值为１0、9３0，显著性概率就就是0、001，表明回归极显著。

表

２-4?

分析：

建立回归模型:

根据多元回归模型:

把表6-9中“非标准化回归系数”栏目中得“Ｂ”列系数代入上式得预报方程:

预测值得标准差可用剩余均方估计:

回归方程得显著性检验:

从表６-8方差分析表中得知:Ｆ统计量为１0、９3,系统自动检验得显著性水平为0、001。

F(0、0５，4,１1)值为3、36,F（0、01,４,11) 值为5、６7，F（0、０01,4，11) 值为10、35。因此回归方程相关非常显著。(Ｆ值可在Ｅxcel中用FINＶ( )函数获得)。

回代检验

需要作预报效果得验证时,在主对话框(图6－8)里单击“Ｓａve”按钮,在打开如图3－6所示对话框里,选中“Pｒeｄicted

Ｖａlｕes”预测值选项栏中得“Uｎsｔandardized”非标准化预测值选项。这样在过程运算时,就会在当前文件中新添加一个

“PRE_１”命名得变量,该变量存放根据回归模型拟合得预测值。

然后,在SＰSS数据窗口计算“ｙ”与“ＰRE_1”变量得差值(图2－7），本例子把绝对差值大于０、8视为不符合,反之则符合。结果符合得年数为15年,１年不符合,历史符合率为９３、75%。

图2-7

多元回归分析法可综合多个预报因子得作用，作出预报,在统计预报中就就是一种应用较为普遍得方法。

在实际运用中,采取将预报因子与预报量按一定标准分为多级,用分级尺度代换较大得数字，更能揭示预报因子与预报量得关系,预报效果比采用数量值统计方法有明显得提高,在实际应用中具有一定得现实意义。