文档库 最新最全的文档下载
当前位置:文档库 › sas讲稿第4章

sas讲稿第4章

sas讲稿第4章
sas讲稿第4章

SAS软件与应用统计第四章方差分析

为了比较不同配方和工艺条件对产品产量和质量的影响,往往需要进行多个总体均值的比较。方差分析就是对两个或多个总体均值进行比较最常用的一种统计方法。

4.1 单因素方差分析

4.1.1 方差分析的问题与模型

例如有m种不同的工艺条件,统计上也称每种工艺条件为一个水平,在每个水平下,例如在第i种水平下,产品产量记录全体为一个总体,对此总体得到了产品产量记录的样本为X i1,X i2….X in,希望由此对不同水平下总体的均值进行比较。对此,观察到的X ij常用以下的模型表示:

X ij = μi + εij,1≤j≤n,1≤i≤m

其中μi表示第i种水平下产量的均值,εij为产量记录所包含的随机误差,在方差分析中为了得到有效的检验法还常假定εij满足:

●εij为相互独立的,即不同水平下的记录的样本是相互独立的;

●εij都是正态分布的,即εij的均值都为0,方差也相同。

在上面的模型中,观测到的数据的均值受一个因素不同水平的影响,即μi依赖于一个变量i,这类问题称为

单因素问题,用以处理这类问题的统计方法称为单因素的方差分析。要分析的变量X ij称为因变量、响应变量或分析变量。

比较不同水平下均值是否相同的问题就归为检验如下的假设:

H0:μ1 = μ2 = …= μn,H1:μ1,μ2,…,μn不全相等;

4.1.2 用INSIGHT作单因素方差分析

1. 探索数据

在使用方差分析之前,利用图形直观地比较结果是

有益的。

(1) 在INSIGHT中,打开数据集SASUSER.VENEER,比较不同牌子的胶合板磨损指数;

(2) 选择菜单“Analyze”→“Box Plot/Mosaic Plot(Y)”;

(3) 在打开的“Box Plot/Mosaic Plot(Y)”对话框中选定分析变量:选择变量BRAND,单击“X”按钮,选择变量WEAR,单击“Y”按钮,分别将变量移到列表框中;

(4) 单击“OK”按钮,得到盒形图如图4-1左所示。

图4-1 探索数据

(5) 为了更清楚地显示不同牌子的胶合板的均值和

方差的信息,可单击图形窗口左下方的箭头按钮,在下拉菜单中选中Means、Values和取消Observafions。

从图上可以看出,四种牌子测试结果标准差的差异并不显著(菱形的高度差异不大),均值间有一定的差异。但在统计上差异是否显著还需要进行方差分析。

2. 方差分析

探索完数据以后,就可以进行方差分析了。在使用INSIGHT进行方差分析时自变量必须是列名型的。

选择菜单“Analyze”→“Fit(X Y)”,在打开的“Fit(X

Y)”对话框中选定分析变量:选择变量BRAND,单击“X”按钮,选择变量WEAR,单击“Y”按钮,分别将变量移到列表框中;单击“OK”按钮。

在随即显示的分析结果中包含若干个表:

(1) 第一个表提供拟合模型的一般信息。

图4-2 方差分析的第1张表

WEAR=BRAND表示这个分析是以WEAR为因变量,BRAND为自变量的线性模型;

响应分布是正态分布,因为这是缺省的分布,要这

一分析成立,误差项应该是近似正态分布的;

关联函数提供数据中响应变量和模型中的响应变量间的联系。在这个例子中,因为在模型拟合前不对响应变量进行任何变换,所以关联函数是恒等函数。

(2) 第二、第三张表提供自变量的取值水平的信息。

图4-3 方差分析的第2、3张表

即BRAND为列名型的,有5个水平,在设定标识变量的时侯,P-2、P-3、P-4、P-5、P-6分别为ACME、

AJAX、CHANP、TUFFY和XTRA五个牌子的标识变量。

(3) 第四张表给出响应变量均值关于自变量不同水平的模型方程式:若变量牌子为ACME,则P-2为1,其他为0;若牌子为AJAX,则P-3为1,其他为0,以此类推。

图4-4 方差分析的第4张表

(4) 第五张表给出模型拟合的汇总信息:

1) 响应的均值(Mean of Response)即变量WEAR的

均值;

2) 均方差平方根(Root MSE)为误差顶(假定误差项有等方差)的标准差的估计值。

3) R平方是判定系数(coefficient of detenmnation),阐明了自变量所能描述的变化在全部校正平方和中的比例。它的值总在0和1之间,若其值接近于0,自变量不能说明数据的许多变化;若其值接近于1,自变量说明数据的变化中的一个相对较大的比例。虽然希望R平方接近于1,但对R平方大小的判定还依赖于问题的具体内容。

4) 校正R平方(Aaj R-Sq)是类似于R平方的,但它随模型中的参数的个数而修正,尤其在回归分析中比较拟合同一数据的不同模型时,校正R平方是有用的。

图4-5 方差分析的第5张表

(5) 第六张方差分析表包含对模型效果显著性的假设检验:

1) 一般,自由度(DF)可想象为独立信息源的个数。模型自由度(Model DF)是处理数减1;校正的总自由度(C total)是样本容量减1。

2) 模型平方和(SS Model)汇总了组间差异;误差平方和(SS Error)汇总了组内差异;全部校正平方和(SS C-Total) = SSM + SSE。

3) 均方(Mean Square)是由平方和被相应的自由度相除而得到的。

F统计量=模型均方(MS Model)/误差均方(MS Error)

比较F统计量相应的p值,若p<0.05=a,则拒绝原假设,反之则接受原假设。

在这里,p值小于0.05,所以拒绝原假设,即不同

牌子的胶合板的磨损指数有显著差异。

图4-6 方差分析的第6张表

(6) 对单因素方差分析,第七张表提供与第六张表相同的内容

图4-7 方差分析的第7张表

(7) 在参数估计表中,有关于不同水平下磨损指数差异的估计和检验:

1) 根据标识变量规定的方法,Intercept后的估计

2.6000是对应牌子TUFFY的磨损指数的均值,其后的t 检验是检验这一均值是否为0。

2) ACME后的估计-0.2750是牌子ACME与TUFFY 磨损均值之差的估计值,其后的t检验也是检验这两个磨损均值之差是否为0。

由于p值为0.0267<0.05,所以ACME和TUFFY 两个牌子的磨损指数是有显著差异的。其它分析类似。

3) 在表中还有容忍限(Tolerance)和方差膨胀因子(Variance inflation factors),在这类分析中是用不到的,在多元回归分析中将考察这些统计量。

图4-8 方差分析的第8张表

3. 考察模型假定

在显示窗的底部有一个余差和预测值的散点图,这个图可以帮助校验模型的假定。从图中看出,余差有大体相同的散布,它表明等方差的假没并没问题。

图4-9 余差和预测值的散点图

为了验证余差为正态分布的假定,回到数据窗。可以看到余差(R_WEAR_1)和预测值(P_WEAR_1)已加到数据集之中,可以用Distribufion(Y)来验证余差的正态性。

(1) 选择菜单“Analyze”→“Distribution(Y)”;

(2) 在打开的“Distribution(Y)”对话框中选定分析变量:R_WEAR_1;

(3) 单击“OK”按钮;

(4) 选择菜单“Curves”→“Test for Distribution”;在打开的“Test for Distribution”对话框中直接单击

“OK”按钮。

图4-10 余差的正态性

在检验结果的“Test for Distribution”表中看到,p 值大于0.05,不能拒绝原假设,表明没有破坏正态性的假定。

4.1.3 用分析员应用作单因素方差分析

(1) 在分析员应用中,打开数据集SASUSER. VENEER;

(2) 选择菜单“Statistics(统计)”→“ANOV A(方差分析)”→“One-Way ANOV A(单因素方差分析)”,打开“One-Way ANOV A”对话框;

图4-11 “One-Way ANOVA”对话框

(3) 选中变量BRAND,单击“Independent”按钮,将其移到“Independent”框中;选中变量WEAR,单

击按钮“Dependent”,将其移到“Dependent”框中,如图4-11所示;

(若要作图,可点击Plot)

(4) 单击“OK”按钮。

在显示的结果中(图4-12),提供了自变量的各个水平和单因素方差分析表,有关说明可参见前面例子。

相关文档