文档库 最新最全的文档下载
当前位置:文档库 › 多元统计分析实验教案

多元统计分析实验教案

多元统计分析实验教案
多元统计分析实验教案

《应用多元统计分析》

实验教案

数学与计算科学学院

二〇一五年三月

目录

SAS系统简介 (1)

第一讲 SAS软件应用基础 (4)

第二讲描述性统计分析 (9)

第三讲多元正态总体参数的假设检验 (17)

第四讲判别分析方法 (29)

第五讲聚类分析 (42)

第六讲主成分分析 (56)

第七讲因子分析 (64)

第八讲对应分析 (72)

第九讲典型相关分析 (76)

SAS系统简介

SAS (Statistical Analysis System ) 系统是国际著名的数据分析软件系统。

该系统1966年开始研制,1976年由美国SAS公司实现商业化,1985年推出SAS/PC 版本,1987年推出6.03版,目前已推出Windows 系统支持的8.2和9.0版,是目前国际上公认的著名的数据统计分析软件系统之一。从1976年SAS开发成功至今,SAS的用户遍及119个国家,它已经成为同类产品中的领导者。在财富500强中,有90%的公司使用SAS。而在财富500强的前100家企业中,有98%的公司使用SAS。如此广泛的应用源于SAS系统的强大的分析功能、可组合的模块式软件系统和简单易学。

SAS系统是集数据分析、生成报表于一体的一种集成软件系统。它由基本部分和外加模块组成,其中基本部分包含的功能如下:

–基本部分: BASE SAS 部分;

–统计分析计算部分: SAS/STA T ;

–绘图部分: SAS/GRAPH ;

–矩阵运算部分: SAS/IML ;

–运筹学和线性规划: SAS/OR ;

–经济预测和时间序列分析: SAS/ETS 。

1.1.SAS的启动

1.2.SAS8.0 软件界面

SAS界面包括三个部分,即程序窗口、日志窗口和输出窗口。

EDITOR(程序窗口)编辑窗口用于编辑SAS源程序文件。编辑窗口支持全窗口编辑功能,即光标可以在整个窗口内随意移动,支持Windows系统常规编辑操作,如复制、剪切、粘贴等功能操作。SASV8提供了智能编辑功能,它可根据用户输入的SAS关键字、语句选项、变量名、数据、标记等不同内容显示不同的颜色,当用户输入的字串不正确时,对应颜色不对,警告使用者有错误发生。

LOG(日志窗口)运行记录窗口用于显示和记录SAS程序的运行情况,说明程序运行成功或存在错误,当程序出现错误时,LOG记录窗口中以红色字符显示错误信息,以绿色显示一些警告信息。提示使用者修改程序中的错误。

OUTPUT(输出窗口)分页显示SAS程序运行所产生的文本输出结果(图形输出通过GRAPHICS窗口显示)。对于文本结果的输出,可以使用主界面的菜单File|Save As将结果文档保存在磁盘中,保存的文件扩展名为.lst,但实际上是一种文本文件格式,可以使用文字处理软件,如Word或写字板、记事本等打开并进行编辑修改。对于输出到GRAPHICS窗口的图形,可以使用菜单File|Export as Image将图形导出保存在磁盘中,图形文件格式可以在“保存类型”下拉列表中选择。

1.3SAS程序结构

SAS程序采用模块化结构,模块之间相互独立,每个模块完成一个任务。模块分为两种类型:一种类型是数据模块,数据模块以英文单词data作为开始语句。另一种类型是程序模块,程序模块以proc作为开始语句。模块中的语句之间用“;”分隔,同一个语句的不同项之间必须用一个以上的空格分隔。在一个程序中可以包含多个数据模块和程序模块,模块的位置是任意的。程序按照语句出现的先后顺序执行。

(1)SAS程序的语法

编写程序时必须遵循所使用的软件的语法规则,SAS程序的语法规则可以归纳为以下几条:

①标识符或数据之间至少用一个以上的空格分隔;

②每个语句用分号作为结束标志;

③变量名或其他名称最多包含8个字符,并且第一个字符为英文字母,名称中不能有空格,或SAS系统的保留符号,如:“-”、“.”、“,”、“…”、“$”等;

④SAS程序可以处理带有缺失数据的文件,数据缺失值用“.”表示;

⑤SAS程序只处理数值和字符串两种类型的变量,为了和数值变量相区别,输入语句中字符串变量名使用“$”作为后缀;

⑥程序中可以包含注释语句,注释语句以“/*”开始,以“*/”结束;

⑦除数据外,SAS程序不区分英文字母的大小写。

(2)SAS数据集

SAS的核心是SAS数据集是SAS文件的一种,一般又以下两部分组成:

(1)描述部分

包含该数据集的一般信息,包括:数据集的名字及其成员类型、数据集建立的日期和时间、观测的数目以及数据集中每一个变量的特征信息,包括:Name(变量名)、Type(类型)、Length(长度)、Format(输出格式)、Informat(输入格式)、Label(标签)。

(2)数据部分

包含数据集中收集的数据的值,可以看作是一个矩形的表格。表格的列(columns)称为变量(variables),对应于原始数据文件或其他一些外部数据库所称的字段(fields);表格的行称为观测(observations),对应于原始数据文件或其他一些外部数据库所称的记录(records)或数据行(data lines)

(3)逻辑库

SAS的逻辑库分为临时逻辑库和永久逻辑库两种。临时库只有一个,名为work,其他的库均为永久库。SAS每次启动时会自动指定4个库标记:work、Sasuser、Sashelp、Sasmap。存放在work中的SAS文件叫临时文件,当退出SAS系统时这些文件会被自动删除。永久文件保存在永久库中,在退出SAS系统时不会被自动删除。所以,通常把作为中间结果或练习使用的数据集保存为临时数据集,而需要以后再用的数据集则可以保存为永久数据集;如果需要备份,最好在退出前把临时文件复制到其他的库中。

在Explorer窗口中单击鼠标右键,在右键菜单中选择New,打开New Library对话框,可以建立新库(如把一个库名为Mylib)。如果选中Enable at startup复选框,则每次打开SAS时所建逻辑库都有效。

(4)数据集的导入

建立数据集的方法很多,但是,无论是在Explorer窗口中使用VIEWTABLE程序,或是使用INSIGHT模块和“分析家”,还是使用编程操作中专门的数据读入方法来建立数据集,都需要将数据现场输入,费时费力。较为简便的方法是:利用Excel录入数据,并做简单处理,然后将Excel数据表导入到SAS数据集中。导入Excel数据表的步骤如下:

①在SAS应用工作间中,选择菜单File下的Import data……,打开导入向导Import Wizard第一步:选择导入类型(Select import type),默认的类型为Excel数据表,单击Next按钮进入下一步。

②在第二步的Select file对话框中,单击Browse按钮,在“打开”对话框中选择所需要的Excel文件,返回。然后,单击Option按钮,选择所需工作表,单击OK按钮返回。单击Next按钮进入下一步。

③在第三步的Select library and member对话框中,选择导入数据集所存放的逻辑库以及数据集的名称,单击Next按钮进入下一步。

④在第四步的Create SAS Statements对话框中,可以选择将系统生成的程序代码存放的位置,也可不做选择,直接单击Finish按钮,完成数据集的导入。

第一讲 SAS 软件应用基础(2学时)

一、实验目的

1. 了解SAS 程序结构及SAS8.0的使用方法;

2. 掌握使用DATA 步建立SAS 数据集的方法。

二、实验要求

1.会建立数据集;

2.会计算样本的数字特征。

三、实验相关SAS 知识

例1、 SAS 数据集的导入和导出

内容:(1)将SAS 数据集L3.Stu01导出为Excel 数据集:ex1.xls; (2)将Excel 数据集:ex2.xls 导入SAS 数据集为L3.Stu02; 解:(1)菜单方式:

File/Export data →选择库名,数据集名(L3.stu02) →Next →选择要导出的数据格式,默认的是Excel →Next →指定存放数据的路径及名称→在Brose 中选择要保存相应程序的路径及名称(可省略)→Finish

编程方式:

(2)菜单方式:

先建立好Excel 数据,并关闭文件. (注意: Excel 数据文件中,第一行应为数据变量名,这个名称只能用英文字母和数字)

File/Import data →选择要导入的数据格式,默认的是Excel →Next →选择Excel 数据文件ex2.xls →Next →指定存放数据的库名及名称→在Brose 中选择要保存相应程序的路径及名称(可省略)→Finish 编程方式:

例2、建立以下数据集,并计算数学和英语的平均成绩。

解:(一)建立数据集

菜单方式.

(1)打开SAS界面→在explorer窗口双击Libraries →选择自己常用的逻辑库,右击→点击new →点击table →点击OK,即可出如下现viewtable表格:

(2)右击A,然后点击column attributes, 出现如下窗口:

将变量名(name)框中的A改为”name”, Label框填“姓名”,点击“Apply”,然后关闭该窗口, 出现:

并在姓名下方的三个表格中分别输入王红,李明,张平江.

(3)右击B,然后点击column attributes, 出现如下窗口:

将变量名(name)框中的B改为”birth”, Label框填“出生日期”,type中选“Numeric”,format 中点击”…”出现:

在Name 下方选择“yymmdd”,width 中选择“10”,点击OK;

在informat中点击”…”, 然后在出现的窗口中,用同样的方法处理,出现:

点击”Apply”,关闭该窗口,出现:

在出生日期栏,分别输入:“19770602”、“19780323”、“19781223”(4)右击C,然后点击column attributes, 出现如下窗口:

将变量名(name)框中的C改为”no”, Label框填“学号”,type中选“Numeric”,点击“Apply”,然后关闭该窗口, 出现:

输入对应的学号即可.

数学和英语的成绩变量名分别为:Math 和English,其输入方式学号的类似,输入完后注意保存,最后可得数据集:

编程方式

DATA S2 ;

INPUT NAME $ 1-8 BIRTH YYMMDD10. no MATH ENGLISH ;

CARDS ;

王红1977-06-02 981001 90 96

李明1978-03-23 981002 82 90

张平江1978-12-23 981003 88 95

;

Run;

PROC PRINT ;

FORMAT BIRTH yymmdd10. ;

RUN ;

打印出的结果是:

(二)计算平均数

在上面的程序的第二行和第三行之间添加一句“avg=(math+english)/2; ”

即:

DATA S2 ;

INPUT NAME $ 1-8 BIRTH YYMMDD10. no MATH ENGLISH ; avg=(math+english)/2;

CARDS ;

王红1977-06-02 981001 90 96

李明1978-03-23 981002 82 90

张平江1978-12-23 981003 88 95

;

Run;

PROC PRINT ;

FORMAT BIRTH yymmdd10. ;

RUN ;

打印的结果:

四、实验内容

学生管理数据库中数据集如下:

分别用菜单方式和编程方式建立以上数据集。

五、课后练习

学生管理数据库中数据集如下:

(1) 要求用菜单方式将上数据集建立成一个SAS数据集;

(2)请计算数学成绩的均值、方差、标准差、变异系数、偏度、峰度。

第二讲 描述性统计分析(2学时)

一 、实验目的

1. 了解SAS 程序结构及SAS9.2的使用方法。

2. 掌握使用DATA 步建立SAS 数据集的方法。

3. 掌握使用Means 、Univariate 、Corr 等PROC 步进行描述性统计分析。

二、 实验要求

4.会用SAS 软件对建立的数据集进行分析 5.学会用Gplot 画出统计散点图。

三、 实验原理及常用统计量

设n

x x x ,,,

21 是总体()X F x 的一个样本。

有如下概念: 样本均值(Mean):

∑==n

i i

x n x 1

1

样本方差(Var ):

∑=--=n

i i x x n s 1

22

)(11

样本标准差(Std): 2

s s =

样本变异系数(CV):

(%)100x

s

CV ?=

偏度(SKEWNESS): ∑=---=

n

i i x x s n n n

g 13

2

1)()2)(1( 峰度(KURTOSIS):

)3)(2()1(3)()3)(2)(1()1(21

4

42--------+=∑=n n n x x s n n n n n g n

i i

中位数(MEDIUM):

?????

∈=+∈-==++)(2),(21)(12,)

12()2

()

2

1(N i i n x x N i i n x M n n n

分位数:

?????

∈+?=++Z np x x Z np x M np np np p

),(2

1,)1()()1]([

上四分位数: 75.03M Q = 下四分位数: 25.01M Q =

三均值:

3

14

12141?Q M Q M ++= 极差(RANGE ) ()()i i RANGE Max x Min x =-

四、 实验相关SAS 知识

Proc 步具有大致相同的程序结构:

PROC 过程名 ; Var variables;

;

Run ;

其中: option(s):Data = 要分析的数据集(缺省为最新建立的数据集);variables :要进行统计分析的变量列表(缺省为数据集中的全部变量)。

(1)Proc means 过程

Proc means 过程的完整语句: proc means options; by variables; var variables;

output out=sas data set keyword=name ….;

①data=sas data set:即在等号后指明所要分析的sas 数据集名称。若此项没有,则sas 系统对最新建立的数据集作分析。

②MAXDEC=k:其中k 为介于0与8之间的一个整数,该项指明在输出数据时小数点保留k 位。Sas 系统默认值为k=2。

③关键词:逐个列出要计算其值的统计量的名称的关键词,最常用的有以下几个统计量: N 样本容量 Mean 均值 Var 方差 STD

标准差

CV

变异系数 Skewness 偏度

Kurtosis 峰度 Midian 中位数 Q3

上四分位数 Q1

下四分位数

QRange 四分位极差 P1 第一百分位数

P5 第五百分位数 P10 第十百分为数 P90 第九十百分为数 P95 第九十五百分位数 P99 第九十九百分位数 ④ Var variables;

该语句是指出数据集中要计算简单描述性统计量的变量名称。若省略此句,则sas系统对数据集中所有数值变量均计算各自在前一句指定的那些描述性统计量的值。

⑤output out=sas data set keyword=name …;

此句建立一个由proc means过程的分析结果构成的sas数据集,以备进一步分析之用。在“out=”后命令要建立的数据的名称,但要想将此数据文件保留起来,就要建立一个永久性数据文件,需要用两级名称,如“RESULT.OUT”。

(2)Proc Univariate 过程

主要语句形式如下:

Proc Univariate options;

Var variables;

Output out=SAS data set keyword=name ……;

语句中“options”部分可以是下列内容的部分或全部:

①data=数据集名:指明所要分析的数据集,若省略则表示分析最新生成的数据集。

②plot:要求对所分析的各变量的观测值产生一个茎叶图(或水平直方图)、一个箱线图和一个正态QQ图。若某区间的观测值超过48,则不绘制茎叶图,而改绘制直方图。在正态QQ 图中,以“*”表示正态QQ图上的点,以“+”表示相应的参考直线。

③freq:要求生成包括变量值、频数、百分数和累计百分数的表。

④normal:要求对分析的各变量的观测值进行正态性检验,并输出相应的p值。若样本容量不超过2000则使用W统计量进行检验;若样本容量大于2000则使用D统计量进行检验。正态分布的均值和方差分别取样本均值和样本方差。

(3)Proc Corr 过程

主要语句形式如下:

Proc corr options;

Var variables;

With variables;

其中“options”部分可以是下列内容的部分或全部:

①data=数据集名:指明所要分析的数据集,若省略则表示分析最新生成的数据集。

②pearson:要求输出pearson相关系数矩阵(SAS系统默认的输出结果)。

③spearman:要求输出spearman秩相关系数矩阵。

④cov:要求计算协方差矩阵。

⑤nosimple:指明不输出每个变量的简单描述性统计量。

Var variables中的“variables”则指出了要计算相关系数矩阵或协方差阵的变量名称,它可以是原数据中数值变量的一部分;若省略此句则SAS系统计算关于数据集中所有数值的相关系数矩阵。

(4) proc gplot 过程

proc gplot 过程的一般格式

proc gplot data=<数据集名>;

plot<纵轴变量>*<横轴变量>[=<变量>][/<选项>];

symboln<选项>;

run;

此句是用来画散点图的,其中

Symbol语句是专门指令绘制的格式,一个GPLOT程序中允许使用多个Symbol语句,所以就有Symbol1,Symbol2,…, Symboln.

Symbol语句中有许多选项,最常用的三大选项是:

C---图线的颜色,可以自由选择red(红色)、 black (黑色)、green(绿色)、 blue (蓝色)、pink (粉色)等。

V---表示观察值的图形,可自由选择star(星形)、dot (点)、circle(圆圈)、 diamond (菱形)等各种形状,也可选择none(不使用特别图形标注观察值)。

I---观察值之间的连线,可自由选择join(线性连接) 、spline(光滑连接) needle(作观察值到横轴的悬垂线)等各种连线方式,也可选择none(不作任何连接)。

五、实验举例

[例1] 某单位对100名女学生测定血清蛋白含量(g/L),数据如下:

74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5

79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0

75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0

73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5

75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.0

70.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3

73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.7

67.2 76.5 72.7 70.4 77.2 68.8 67.367.3 67.3 72.7

75.8 73.5 75.0 73.5 73.5 73.572.7 81.6 70.3 74.3

73.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4

请计算均值、方差、标准差、变异系数、偏度、峰度。

解:利用 A. Proc means过程如下:

data xueqingdanbai;

input x@@;

cards;

74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5

79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0

75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0

73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5

75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.0

70.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3

73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.7

67.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.7

75.8 73.5 75.0 73.5 73.5 73.5 72.7 81.6 70.3 74.3

73.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4

;

run;

proc means data=xueqingdanbai mean var std cv skew kurt;

/* mean 均值,var 方差,std 标准差,cv 变异系数,skew 偏度 kurt 峰度*/

run;

运行结果为:

图1 简单统计量

从而:

均值:73.668 方差:15.51273 标准差: 3.9389246

变异系数:5.3468597 偏度:0.0540593 峰度:0.0370225

B.Proc Univariate过程:

data xueqingdanbai;

input x@@;

cards;

74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5

79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0

75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0

73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5

75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.0

70.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3

73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.7

67.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.7

75.8 73.5 75.0 73.5 73.5 73.5 72.7 81.6 70.3 74.3

73.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4

;

proc univariate data=xueqingdanbai freq normal plot;

/*选项freq输出变量频数分配表 normal检验样本是否符合正态分布 plot绘制茎叶图,盒形图,正态概率图*/

var x;

run;

输出的部分结果:

图2 正态性检验结果

图3 位置检验结果

表格说明:(1)Tests for Normality:正态分布检验

若检验概率值p<0.05,则认为变量不服从正态分布.

当样本量<2000时,采用Shapiro-Wilk检验;

当样本量>=2000时,采用Kolmogorov-Smirnov检验;

(2)Tests for Location: Mu0=0:检验变量的平均值是否为0 .

若检验概率值p<0.05,则认为变量的平均值不为0 .

而且当变量服从正态时,用t统计量,否则用M或S统计量

从而,上面的输出结果表明:

由于Shapiro-Wilk检验的p值为0.6708>0.05, 所以变量服从正态分布;

并由Student's t检验的p值为0.0001<0.05,所以y的均值不为0,即单位对100名女学生测定血清蛋白含量均值不为0。

图4 茎叶图等

六、实验内容

1.为了研究人体的心肺功能,对31个成面男子测量可肺活量(OXY),并记录了他们的年龄(age)体重(weight),以及简单训练后的测量数据:跑1.5英里的时间(time)、休息事故的脉搏(spulse)、跑步时的脉搏(rpulse)和跑步是记录的最大脉搏(mpulse),共七项指标,数据如下:

序号age weight time spulse rpulse mpulse OXY

1 57 73.37 12.63 58 174 176 39.407

2 54 79.38 11.17 62 156 165 46.080

3 52 76.32 9.63 48 16

4 166 45.441

4 50 70.87 8.92 48 172 15

5 54.625

5 51 67.25 11.08 48 168 172 45.118

6 54 91.63 12.88 44 168 172 39.203

7 51 73.71 10.47 59 186 188 45.790

8 57 59.08 9.93 49 148 155 50.545

9 49 76.32 9.40 56 186 188 48.673

10 48 61.24 11.50 52 170 176 47.920

11 52 82.78 10.50 53 170 172 47.467

12 44 73.03 10.13 45 168 168 50.541

13 45 87.66 14.03 56 186 192 37.388

14 45 66.45 11.12 51 176 176 44.754

15 47 79.15 10.60 47 162 164 47.273

16 54 83.12 10.33 50 166 170 51.855

17 49 81.42 8.95 44 180 185 49.156

18 51 69.63 10.95 57 168 172 40.836

19 51 77.91 10.00 48 162 168 46.672

20 48 91.63 10.25 48 162 164 46.774

21 49 73.37 10.08 76 168 168 50.388

22 44 89.47 11.37 62 178 182 44.609

23 40 75.07 10.07 62 185 185 45.313

24 44 85.84 8.65 45 156 168 54.297

25 42 68.15 8.17 40 166 172 59.571

26 38 89.02 9.22 55 178 180 49.874

27 47 77.45 11.63 58 176 176 44.811

28 40 75.98 11.63 58 176 180 45.681

29 43 81.19 10.85 64 162 170 49.091

30 44 81.42 13.08 63 174 176 39.442

31 38 81.87 8.63 48 170 186 60.055 (1)试求出样本均值、样本离差阵,样本协方差阵和样本相关阵。

(2)分别画出OXY与time和age的散点图,从图中可以看出什么结论?

七.课后练习

1. 某校为了考察学生的学习情况,就从某年级随机抽取12名学生5门课程期末考试的成绩,数据如下:

序号政治(X1)语文(X2)外语(X3)数学(X4)物理(X5)

1 99 94 93 100 100

2 99 88 96 99 97

3 100 98 81 96 100

4 93 88 88 99 96

5 100 91 72 9

6 78

6 90 78 82 75 97

7 75 73 88 97 89

8 93 84 83 68 88

9 87 73 60 76 84

10 95 82 90 62 39

11 76 72 43 67 78

12 85 75 50 34 37

(1) 试求出样本均值、样本离差阵,样本协方差阵和样本相关阵。

(2)分别画出X1与X2,X1与X3和X2与X3的散点图,从图中可以看出什么结论?(3)绘制序号为1,8,10,12的4个人的调和曲线图(放在同一张图上)。

第三讲 多元正态总体参数的假设检验(2学时)

一、 实验目的

3. 掌握假设检验的基本步骤;

4. 会用SAS 软件进行均值假设检验;

5. 能够用SAS 软件解决实际问题。

二、 实验要求

6. 会用SAS 软件按要求处理数据,给出处理结果和检验结果;

7. 对处理结果进行分析和小结。

三、 实验原理 预备知识:

1、单个总体均值向量的检验

(1)一维正态总体均值的假设检验

设正态总体()

2

~,X N μσ,12,,,n X X X 为X 的样本。

1. 检验的零假设00H :μμ= vs 10H :μμ≠,

2. 利用_

x 构造检验统计量:

(

00

(0,1)x U N μσ-=

, (当220=σσ已知时)

或(0t ~(1)x t n s

μ-=

- ,(当2σ未知时).

3. 确定拒绝域:

2{||}p P U u αα=><,其中(0,1)U N ,拒绝域为: {}2

W u u u αα

=>

或2

{||}p P t t αα=><,其中(1)t t n - ,拒绝域为:

{}

2

W t t t αα

=>

一般选择显著性水平α为0.05或者0.01, 就可以求出u 或t 值,即可得到拒绝域。

8. 做出判断:

由样本值计算出的U (或T ),检验其是否落在拒绝域内,是则认为0μμ≠,否则

认为0μμ=

(2)多维正态总体均值向量的假设检验

步骤和上面类似,就是把统计量换一下,

(a )当0=∑∑已知时,检验统计量为0__

__

2

'1

20000T ()()

()H n X X p μμχ-=-∑- 下

当220()T p αχ≥时,拒绝0H ;当22

0()T p αχ<时,接受0H ,其中2()p α

χ的上α分位点,显然,当1p =时,220T μ=。

(b)当∑未知时,检验统计量为02(1)1F (,)(1)H n p T F p n p n p

--+=

-- 下

当2

(1)1F (,)(1)n p T F p n p n p α--+=

≥--时,拒绝0H ;

当2

(1)1F (,)(1)n p T F p n p n p

α--+=

<--时,接受0H ;

其中(,)F p n p α-为(,)F p n p -的上α分位点。由于2

(1)T (,)n p

F p n p n p

αα-=--,则上检

验法则可转化为

当22T T α≥时,拒绝0H ;当22T T α<时,接受0H 。

2、多总体均值向量的检验 (1)两个正态总体均值向量的检验

设(1,2,,)X n αα= 为来自正态总体(1)

(,)p X N μ∑ 的随机样本;(1,2,,)Y m αα= 自正态总体(1)

(,)p Y N μ∑ 的随机样本,而且相互独立。 (a )两总体协方差阵相等(但未知)时均值向量的检验 ⒈检验的零假设(1)(2)0H :μμ= vs (1)(2)1H :μμ≠ ⒉利用2T 构造检验统计量

________2

'1

212(2)()()()(,2).H nm T n m X Y A A X Y T p n m n m -=+--+-+-+ 其中

____

__

__

'

'1()()2()()11

()()(1,),()()(1,).n m p p A X X X X W n A Y Y Y Y W m αααααα===---∑=---∑∑∑

利用2

T 与F 的关系,也可取检验统计量为

2(2)1(,1).(2)H n m p F T F p n m p n m p

+--+=+--+-

⒊确定拒绝域:

多元统计分析模拟考题及答案.docx

一、判断题 ( 对 ) 1 X ( X 1 , X 2 ,L , X p ) 的协差阵一定是对称的半正定阵 ( 对 ( ) 2 标准化随机向量的协差阵与原变量的相关系数阵相同。 对) 3 典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4 多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据 分析方法。 ( 错)5 X (X 1 , X 2 , , X p ) ~ N p ( , ) , X , S 分别是样本均值和样本离 差阵,则 X , S 分别是 , 的无偏估计。 n ( 对) 6 X ( X 1 , X 2 , , X p ) ~ N p ( , ) , X 作为样本均值 的估计,是 无偏的、有效的、一致的。 ( 错) 7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对) 8 因子载荷阵 A ( ij ) ij 表示第 i 个变量在第 j 个公因子上 a 中的 a 的相对重要性。 ( 对 )9 判别分析中, 若两个总体的协差阵相等, 则 Fisher 判别与距离判别等价。 (对) 10 距离判别法要求两总体分布的协差阵相等, Fisher 判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、 样本相关系数矩阵. 2、 设 是总体 的协方差阵, 的特征根 ( 1, , ) 与相应的单 X ( X 1,L , X m ) i i L m 位 正 交 化 特 征 向 量 i ( a i1, a i 2 ,L ,a im ) , 则 第 一 主 成 分 的 表 达 式 是 y 1 a 11 X 1 a 12 X 2 L a 1m X m ,方差为 1 。 3 设 是总体 X ( X 1, X 2 , X 3, X 4 ) 的协方差阵, 的特征根和标准正交特征向量分别 为: 1 2.920 U 1' (0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U 2' (0.9544, 0.0984,0.2695,0.0824) 3 0.049 U 3' (0.2516,0.7733, 0.5589, 0.1624) 4 0.007 U 4' ( 0.0612,0.2519,0.5513, 0.7930) ,则其第二个主成分的表达式是

多元统计分析模拟试题教学提纲

多元统计分析模拟试 题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐 步判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、 极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 = 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转 化为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

多元统计分析实例汇总

多元统计分析实例 院系:商学院 学号: 姓名:

多元统计分析实例 本文收集了2012年31个省市自治区的农林牧渔和相关农业数据,通过对对收集的数据进行比较分析对31个省市自治区进行分类.选取了6个指标农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积. 数据如下表: 一.聚类法

设定4个群聚,采用了系统聚类法.下表为spss分析之后的结果.

Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 内蒙 5 -+ 吉林 7 -+ 云南 25 -+-+ 江西 14 -+ +-+ 陕西 27 -+-+ | 新疆 31 -+ +-+ 安徽 12 -+-+ | | 广西 20 -+ +-+ +-------+ 辽宁 6 ---+ | | 浙江 11 -+-----+ | 福建 13 -+ | 重庆 22 -+ +---------------------------------+ 贵州 24 -+ | | 山西 4 -+---+ | | 甘肃 28 -+ | | | 北京 1 -+ | | | 青海 29 -+ +---------+ | 天津 2 -+ | | 上海 9 -+ | | 宁夏 30 -+---+ | 西藏 26 -+ | 海南 21 -+ | 河北 3 ---+-----+ | 四川 23 ---+ | | 黑龙江 8 -+-+ +-------------+ | 湖南 18 -+ +---+ | | | 湖北 17 -+-+ +-+ +-------------------------+ 广东 19 -+ | | 江苏 10 -------+ | 山东 15 -----------+-----------+ 河南 16 -----------+

多元统计分析期末复习

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变),(~∑μP N X μ∑μ p X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1 X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

多元统计分析实验报告

实验一 一、实验目的及要求 对应分析是你也降维的思想以达到减化数据结构的目的,凤的研究广泛用于定义属性变量构成的列联表利用对应分析方法分析问卷中教育程度与网上购物支付方式之间的相互关系。 二、实验环境 SPSS 19.0 window 7系统 三、实验内容及实验步骤(实践内容、设计思想与实现步骤) 实验题目: 通过分析问卷数据,绘制如下的教育程度与网上购物支付方式的交叉表,运用对应分析方法研究教育程度与网上购物所选择的支付方式之间的相关性,及揭示不同人群网上购物的特征等问题。 设计思想:原假设:H1:χ2>χα2[(n?1)(p?1)] 实现步骤: 1.在变量视窗中录入3个变量,用edu表示【教育程度】,用fangshi表示【在网上购物时采用什么样的支付方式】,用pinshu表示【频数】;如图所示:

2.先对数据进行预处理。执行【数据】→【加权个案】命令,弹出【加权个案】对话框。选中【加权个案】按钮,把【频数】放入【频率变量】框中,点击【确定】按钮完成。 3.打开主窗口,选择菜单栏中的【分析】→【降维】→【对应分析】命令,弹出【对应分析】对话框。 4.将【教育程度】导入【行】,将【在网上购物时采用什么样的支付方式】导入【列】。 5. 单击【定义范围(D)】,打开【对应分析:定义行范围】对话框; 定义行变量分类全距最小值为1,最大值为4,单击【更新】;点击【继续】,返回【对应分析】对话框;同方法打开【对应分析:定义列范围】对话框; 定义列变量全距最小值为1,最大值为5,单击【更新】; 6. 单击【统计量】打开【对应分析:统计量】对话框;选择【行轮廓表】,【列轮廓表】;单击【继续】,返回【对应分析】对话框, 7.选择【绘制】→【对应分析:图】对话框,选择【散点图】中的【行点】、【列点】选择【线图】中的【已转换的行类别】、【已转换的列类别】,单击【继续】,返回【对应分析】对话框。 8.单击【确定】按钮,完成设置并执行列联表分析。 四、调试过程及实验结果(详细记录实验在调试过程中出现的问题及解决方法。记录实验的结果) SPSS实验结果及分析: 上表显示了在32155名被调查者中,大多数消费者在网上购物时选择第三方支付和网上银行支付,在网上购物的消费人群以大学本科生相对最多。

(完整word版)实用多元统计分析相关习题

练习题 一、填空题 1.人们通过各种实践,发现变量之间的相互关系可以分成(相关)和(不相关)两种类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相关系数。 2.总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。3.回归方程显著性检验时通常采用的统计量是(S R/p)/[S E/(n-p-1)]。 4.偏相关系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的)的相关系数。 5.Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。 6.主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求(降维)的一种方法。 7.主成分分析的基本思想是(设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来替代原来的指标)。 8.主成分表达式的系数向量是(相关系数矩阵)的特征向量。 9.样本主成分的总方差等于(1)。 10.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相关矩阵特征值)的特征向量。 11.SPSS中主成分分析采用(analyze—data reduction—facyor)命令过程。 12.因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部分为(特殊因子)。 13.变量共同度是指因子载荷矩阵中(第i行元素的平方和)。 14.公共因子方差与特殊因子方差之和为(1)。 15.聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏程度)进行科学的分类。 16.Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。 17.Q型聚类统计量是(距离),而R型聚类统计量通常采用(相关系数)。 18.六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。 19.快速聚类在SPSS中由(k-均值聚类(analyze—classify—k means cluster))过程实现。 20.判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。 21.用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。 22.进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有(Fisher准则)、(贝叶斯准则)。 23.类内样本点接近,类间样本点疏远的性质,可以通过(类与类之间的距离)与(类内样本的距离)的大小差异表现出来,而两者的比值能把不同的类区别开来。这个比值越大,说明类与类间的差异越(类与类之间的距离越大),分类效果越(好)。24.Fisher判别法就是要找一个由p个变量组成的(线性判别函数),使得各自组内点的

多元统计分析案例分析.docx

精品资料 一、对我国30个省市自治区农村居民生活水平作聚类分析 1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。现从2010年的调查资料中

2、将数据进行标准化变换:

3、用K-均值聚类法对样本进行分类如下:

分四类的情况下,最终分类结果如下: 第一类:北京、上海、浙江。 第二类:天津、、辽宁、、福建、甘肃、江苏、广东。 第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。 第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。 二、判别分析 针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下:

**. 错误分类的案例 从上可知,只有一个地区判别组和原组不同,回代率为96%。 下面对新疆进行判别: 已知判别函数系数和组质心处函数如下: 判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7 Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7 将西藏的指标数据代入函数得:Y1=-1.08671 Y2=-0.62213 Y3=-0.84188 计算Y值与不同类别均值之间的距离分别为:D1=138.5182756 D2=12.11433124 D3=7.027544292 D4=2.869979346 经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。 三,因子分析: 分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。经spss软件分析结果如下:

实用多元统计分析相关习题学习资料

实用多元统计分析相 尖习题 练习题 一、填空题 1?人们通过各种实践,发现变量之间的相互矢系可以分成(相尖)和(不相尖)两种 类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相尖系数。 2?总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。 3 ?回归方程显著性检验时通常采用的统计量是(S R/P)/[S E/ (n-p-1) ]O 4?偏相尖系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的) 的相尖系数。 5. Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。

6 ?主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求 (降维)的一种方法。 7 ?主成分分析的基本思想是(设法将原来众多具有一定相尖性(比如P个指标),重 新组合成一组新的互相无矢的综合指标来替代原来的指标)。 8 ?主成分表达式的系数向量是(相尖系数矩阵)的特征向量。 9 ?样本主成分的总方差等于(1)。 10 ?在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相尖矩阵特征值)的特征向量。 11. SPSS 中主成分分析采用(analyze—data reduction — facyor)命令过程。 12?因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部

分为(特殊因子)。 13 ?变量共同度是指因子载荷矩阵中(第i行元素的平方和)。 14 ?公共因子方差与特殊因子方差之和为(1) o 15 ?聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏 程度)进行科学的分类。 16. Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。 17. Q型聚类统计量是(距离),而R型聚类统计量通常采用(相尖系数)。 18. 六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。 19?快速聚类在SPSS中由(k■均值聚类(analyze— classify— k means cluste))过程实 现。 20. 判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。 21. 用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。 22. 进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有 (Fisher准则)、(贝叶斯准则)。 23. 类内样本点接近,类间样本点疏

应用多元统计分析教学大纲

遵义师范学院课程教学大纲 应用多元统计分析教学大 纲 (试行) 课程编号:280020 适用专业:统计学 学时数:64 学分数: 2.5 执笔人:黄建文审核人: 系别:数学教研室:应用数学教研室 编印日期:二〇一五年七月

课程名称:应用多元统计分析 课程编码: 学分:2.5 总学时:64 课堂教学学时:16 实践学时:48 适用专业:统计学 先修课程:高等数学、线性代数、概率论、数理统计 一、课程的性质与目标: (一)该课程的性质 应用多元统计分析是进行科学研究的一项重要工具,在自然科学,社会科学等领域方面有广泛的应用。多元统计研究的是多个变量的统计总体,这使它能够一次性处理多个变量的庞杂数据,而不需要考虑异度量的问题,即它是处理多个变量的综合分析方法。它可以把多个变量对一个或多个变量的作用程度大小线性地表示出来,反映事物多变量间的相互关系;可以消除多个变量的共线性,将高维空间的问题降至低维空间中,在尽量保存原始信息的前提下,消除重叠信息,简化变量间的关系;可以通过事物的表象,挖掘事物深层次的、不可直接观测到的属性即引起事物变化的本质;也可以透过繁杂事物的某些性质,将事物进行识别、归类。 (二)该课程的教学目标 本课程的教学目的在于让学生熟练掌握多种多元统计方法的基本思想,数学原理的基础上,能够把大量的数据简化到人们能够处理的范围之内,能够构造一个综合指标代替原来的变量,能够进行判别和分类,能够对数学计算结果进行科学合理的解释,并从专业背景上给予分析;能将统计分析方法应用至实际中去,为避免繁冗的数学计算,本课程要求学生学会使用SPSS、Excel和SAS软件相关功能。 二、教学进程安排 课外学习时数原则上按课堂教学时数1:1安排。

多元统计分析实验报告,计算协方差矩阵,相关矩阵,SAS

院系:数学与统计学学院 专业:__统计学 年级:2009 级 课程名称:统计分析 ____ 学号:____________ 姓名:_________________ 指导教师:____________ 2012年4月28日 (一)实验名称 1. 编程计算样本协方差矩阵和相关系数矩阵;

2. 多元方差分析MANOVA。 (二)实验目的 1. 学习编制sas程序计算样本协方差矩阵和相关系数矩阵; 2. 对数据进行多元方差分析。 (三)实验数据 第一题: 第二题:

(四)实验内容 1. 打开SAS软件并导入数据; 2. 编制程序计算样本协方差矩阵和相关系数矩阵; 3. 编制sas程序对数据进行多元方差分析; 4. 根据实验结果解决问题,并撰写实验报告; (五)实验体会(结论、评价与建议等) 第一题: 程序如下: proc corr data=sasuser.sha n cov; proc corr data=sasuser.sha n no simple cov; with x3 x4; partial x1 x2; run; 结果如下: (1)协方差矩阵 $AS亲坯 曲;15 Friday, Apr: I SB,沙DO COUR过程 x4 目由度=30 Xi x2x3x4x5X? -10.I9B4944-0.45E2GJ5I.3347097-G.1193E48-£0.e75?GS

-ID. 188494669,36&Q3?9-7.22IO&OS1J5692043I5.49ee^91S.Oa97SM -8.45S2645■7,221050829.S78&S46-6.372E47I-15.3084183-21.7352376-11.5674785 1.3841097 1.G5S2M7t.3726171IJ24?17B 4.e093011 4.4C12473 2.B747CM -G. I1S3S49 1.GS92043-is.soul aa 4.B09B01I68.7978495劣』S670971S.57ai1B3 -IH.05l6l?a15.43S6569-J1.73S2376孔耶124TB27.0387097105.103225&S7.3505S7E: -2D K5752??319-11337204-1L55M7S52r9747?3i19,573118337.3S0&87E33.3SQ6452 (2) 相关系数矩阵 Pearson相关系数” N =引 当HO: Rho=0 时.Prob > |r| Xi Xi xl 1.QQ000 x2 -C.23954 0.2061 x3 -0,30459 0.0957 x4 0.18975 Q.3092 x5 '0.14157 0.4475 x6 -0.83787 0.0630 -0.49292 0.0150 x2-0.23354 1.00000-0.162750.143510.022700.181520.24438 x20.20C10.31:1?0.441?0.90350.32640.1761 x3-0.30459-0.16275 1.00000-0.06219-0.34641-0.^797-0.23674 x30.095?0.381?<.00010.0563o.oses0 JS97 x40.1S8760.14351-0.86219L000000.400540,313650.22610 x40.30920.4412<.0001 D.02EG Q.085S0.2213 x5-0J 41570.02270-0.946410.40054 1.000000.317370.26750 x50.4J750.90350.0G68Q.025&0.08130 + 1620 x6-0.33?e?0.1S162-0.397970.813650.31787LOOOOO0.82976 x60.0S300.32840.02660.08580.0813C0001辺-0.432920.24938-0.288740.22810 D.267600.92976 1.00000 x70,01500J7610.19970.22130JG20<.0001 第二题: 程序如下: proc anova data=sasuser.hua ng; class kind; model x1-x4=k ind; manova h=k ind; run; 结果如下: (1)分组水平信息 The ANNA Procedure Cla^s Level Informat ion Class Level?Values kind 3 123 Number of observatIons CO (2) x1、x2、x3、x4的方差分析

多元统计分析实验报告

多元统计分析实验报告 Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】

1. 正态性检验 Kolmogorov-Smirnov a Shapir o-Wilk 统计量df Sig.统计量df Sig. 净资产收益 .11335.200*.97835.677 率 总资产报酬 .12135.200*.96435.298 率 资产负债率.08635.200*.96235.265 总资产周转 .18035.006.86435.000 率 流动资产周 .16435.018.88535.002 转率 已获利息倍 .28135.000.55135.000 数 销售增长率.10335.200*.94935.104 资本积累率.25135.000.65535.000 *. 这是真实显着水平的下限。 a. Lilliefors 显着水平修正 此表给出了对每一个变量进行正态性检验的结果,因为该例中样本中 n=35<2000,所以此处选用Shapiro-Wilk统计量。由Sig.值可以看到,总资产周转率、流动资产周转率、已获利息倍数及资本积累率均明显不遵从正态分布,因此,在下面的分析中,我们只对净资产收益率、总资产报酬率、资产负债率及销售增长率这四个指标进行比较,并认为这四个变量组成的向量遵从正态分布(尽管事实上并非如此)。这四个指标涉及公司的获利能力、资本结构及成长能力,我们认为这四个指标可以对公司运营能力做出近似的度量。 2. 主体间因子 N

行业电力、煤气及水的 生产和供应业 11 房地行业15 信息技术业9 多变量检验a 效应值F假设 df 误差 df Sig. 截距Pillai 的跟 踪 .967.000 Wilks 的 Lambda .033.000 Hotelling 的跟踪 .000 Roy 的最大 根 .000 行业Pillai 的跟 踪 .481.027 Wilks 的 Lambda .563.025 Hotelling 的跟踪 .698.024 Roy 的最大 根 .559.008 a. 设计 : 截距 + 行业 b. 精确统计量 c. 该统计量是 F 的上限,它产生了一个关于显着性级别的下 限。 上面第一张表是样本数据分别来自三个行业的个数。第二张表是多变量检验表,该表给出了几个统计量,由Sig.值可以看到,无论从哪个统计量来看,三个行业的运营能力(从净资产收益率、总资产报酬率、资产负债率及销售增长率这四个指标的整体来看)都是有显着差别的。 3. 主体间效应的检验

多元统计分析重点归纳.归纳.docx

多元统计分析重点宿舍版 第一讲:多元统计方法及应用;多元统计方法分类(按变量、模型、因变量等) 多元统计分析应用 选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分析,因子分析 ②分类和组合运用的方法有:判别分析,聚类分析,主成分分析 ③变量之间的相关关系运用的方法有:多元回归,主成分分析,因子分析, ④预测与决策运用的方法有:多元回归,判别分析,聚类分析 ⑤横贯数据:{因果模型(因变量数):多元回归,判别分析相依模型(变量测度):因子分析,聚类分析 多元统计分析方法 选择题:①多元统计方法的分类:1)按测量数据的来源分为:横贯数据(同一时间不同案例的观测数据),纵观数据(同样案例在不同时间的多次观测数据) 2)按变量的测度等级(数据类型)分为:类别(非测量型)变量,数值型(测量型)变量 3)按分析模型的属性分为:因果模型,相依模型 4)按模型中因变量的数量分为:单因变量模型,多因变量模型,多层因果模型 第二讲:计算均值、协差阵、相关阵;相互独立性 第三讲:主成分定义、应用及基本思想,主成分性质,主成分分析步骤 主成分定义:何谓主成分分析 就是将原来的多个指标(变量)线性组合成几个新的相互无关的综合指标(主成分),并使新的综合指标尽可能多地反映原来的指标信息。 主成分分析的应用 :(1)数据的压缩、结构的简化;(2)样品的综合评价,排序 主成分分析概述——思想:①(1)把给定的一组变量X1,X2,…XP ,通过线性变换,转换为一组不相关的变量Y1,Y2,…YP 。(2)在这种变换中,保持变量的总方差(X1,X2,…Xp 的方差之和)不变,同时,使Y1具有最大方差,称为第一主成分;Y2具有次大方差,称为第二主成分。依次类推,原来有P 个变量,就可以转换出P 个主

多元统计分析自己写

多元统计分析有哪些应用? 比较 关系 预测 分类 评价 各种应用对应的多元统计分析方法 比较:多元方差分析 关系:回归模型 预测:回归模型 分类:聚类分析与判别分析、回归模型 评价:主成分分析与因子分析 ?多元回归、logisitic回归、Cox回归、Poisson回归 多元统计分析方法主要内容 多元T检验、多元方差分析 ?Hotelling T2 ?multivariate analysis of variance (MANOV A) 多元线性回归(multivariate linear regression) logistic回归(logistic regression) Cox比例风险模型(Cox model) Poisson回归(Poisson regression) 聚类分析(cluster analysis) 判别分析(discriminant analysis) 主成分分析和因子分析 生存分析 本课程的要求 上机做练习,分析实际资料 学会看文献,判断统计分析的应用是否正确 统计软件SAS,或Stata, SPSS10.01 考试: 理论占30%,实验占70% 二、多元统计分析的基本概念 研究因素从广义的角度看,所有可以测量的变量都可以成为研究因素,比如:年 龄、性别、文化程度、人体的各种生物学特征和生理生化指标环境因素、心理因素等。狭义来看,研究因素是指可能与研究目的有关的影响因素 多元统计分析对多变量样本的要求 ①分布:多元正态分布、相互独立、多元方差齐 ②样本含量 目前尚没有多元分析的样本含量估计方法,一般认为样本含量应超过研究因素5-10倍以上即可。 数值变量→分类成有序分类变量 哑变量的数量=K-1(K为分类数)

多元统计分析实验教案

《应用多元统计分析》 实验教案 数学与计算科学学院 二〇一五年三月

目录 SAS系统简介 (1) 第一讲 SAS软件应用基础 (4) 第二讲描述性统计分析 (9) 第三讲多元正态总体参数的假设检验 (17) 第四讲判别分析方法 (29) 第五讲聚类分析 (42) 第六讲主成分分析 (56) 第七讲因子分析 (64) 第八讲对应分析 (72) 第九讲典型相关分析 (76)

SAS系统简介 SAS (Statistical Analysis System ) 系统是国际著名的数据分析软件系统。 该系统1966年开始研制,1976年由美国SAS公司实现商业化,1985年推出SAS/PC 版本,1987年推出6.03版,目前已推出Windows 系统支持的8.2和9.0版,是目前国际上公认的著名的数据统计分析软件系统之一。从1976年SAS开发成功至今,SAS的用户遍及119个国家,它已经成为同类产品中的领导者。在财富500强中,有90%的公司使用SAS。而在财富500强的前100家企业中,有98%的公司使用SAS。如此广泛的应用源于SAS系统的强大的分析功能、可组合的模块式软件系统和简单易学。 SAS系统是集数据分析、生成报表于一体的一种集成软件系统。它由基本部分和外加模块组成,其中基本部分包含的功能如下: –基本部分: BASE SAS 部分; –统计分析计算部分: SAS/STA T ; –绘图部分: SAS/GRAPH ; –矩阵运算部分: SAS/IML ; –运筹学和线性规划: SAS/OR ; –经济预测和时间序列分析: SAS/ETS 。 1.1.SAS的启动 1.2.SAS8.0 软件界面

多元统计分析实验报告doc

多元统计与程序设计》课程实验报告 项目名称: 学生姓名: 学生学号: 指导教师: 完成日期:

1 实验内容 2 模型建立与求解 2.1聚类分析的形成思路 2.2.1类平均法 2.2.2谱系图的形成 2.3.快速聚类法 (以上内容见课本) 3 实验数据与实验结果 3.1实验数据 设有20个土壤样品分别对5个变量的观测数据如表5.16所示,试利用 聚类法对其进行样品聚类分析 样品号 含沙量1X 淤泥含量2X 粘土含量3X 有机物4X PH 值5X 1 77.3 13.0 9.7 1.5 6.4 2 82.5 10.0 7.5 1.5 6.5 3 66.9 20.0 12.5 2.3 7.0 4 47.2 33.3 19.0 2.8 5.8 5 65.3 20.5 14.2 1.9 6.9 6 83.3 10.0 6.7 2.2 7.0 7 81.6 12.7 5.7 2.9 6.7 8 47.8 36.5 15.7 2.3 7.2 9 48.6 37.1 14.3 2.1 7.2 10 61.6 25.5 12.6 1.9 7.3 11 58.6 26.5 14.9 2.4 6.7 12 69.3 22.3 8.4 4.0 7.0 13 61.8 30.8 7.4 2.7 6.4 14 67.7 25.3 7.0 4.8 7.3 15 57.2 31.2 11.6 2.4 6.3 16 67.2 22.7 10.1 33.3 6.2 17 59.2 31.2 9.6 2.4 6.0 18 80.2 13.2 6.6 2.0 5.8

19 82.2 11.1 6.7 2.2 7.2 20 69.7 20.7 9.6 3.1 5.9 3.2实验过程及结果 Case Processing Summary(a) Cases Valid Missing Total N Percent N Percent N Percent 20 100.0% 0 .0% 20 100.0% a Squared Euclidean Distance used 上表是接近度矩阵,计算距离使用的是平方欧氏距离,所以样品间距离越大,样品越相异,由表中矩阵可以看出样品8号和样品9号的距离是最小的,因此它们最先聚为一类。 Average Linkage (Between Groups) Agglomeration Schedule Stage Cluster Combined Coefficient s Stage Cluster First Appears Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2 1 8 9 .153 16

数学建模多元统计分析

实验报告 一、实验名称 多元统计分析作业题。 二、实验目的 (一)了解并掌握主成分分析与因子分析的基本原理和简单解法。 (二)学会使用matlab编写程序进行因子分析,求得特征值、特征向量、载荷矩阵等值。(三)学会使用排序、元胞数组、图像表示最后的结果,使结果更加直观。 三、实验内容与要求

四、实验原理与步骤 (一)第一题: 1、实验原理: 因子分析简介: (1) 1.1 基本因子分析模型 设p维总体x=(x1,x2,....,xp)'的均值为u=(u1,u2,....,u3)',因子分析的一般模型为 x1=u1+a11f1+a12f2+........+a1mfm+ε 1 x2=u2+a21f1+a22f2+........+a2mfm+ε 2 ......... xp=up+ap1f1+fp2f2+..........+apmfm+εp 其中,f1,f2,.....,fm为m个公共因子;εi是变量xi(i=1,2,.....,p)所独有的特殊因子,他们都是不可观测的隐变量。称aij(i=1,2,.....,p;j=1,2,.....,m)为变量xi的公共因子fi上的载荷,它反映了公共因子对变量的重要程度,对解释公共因子具有重要的作用。上式可以写为矩阵形式 x=u+Af+ε

其中A=(aij)pxm 称为因子载荷矩阵;f=(f1,f2,....,fm)'为公共因子向量;ε=(ε1,ε2,.....εp)称为特殊因子向量 (2) 1.2 共性方差与特殊方差 xi的方差var(xi)由两部分组成,一个是公共因子对xi方差的贡献,称为共性方差;一个是特殊因子对xi方差的贡献,称为特殊方差。每个原始变量的方差都被分成了共性方差和特殊方差两部分。 (3) 1.3 因子旋转 因子分析的主要目的是对公共因子给出符合实际意义的合理解释,解释的依据就是因子载荷阵的个列元素的取值。当因子载荷阵某一列上各元素的绝对值差距较大时,并且绝对值大的元素较少时,则该公共因子就易于解释,反之,公共因子的解释就比较困难。此时可以考虑对因子和因子载荷进行旋转(例如正交旋转),使得旋转后的因子载荷阵的各列元素的绝对值尽可能量两极分化,这样就使得因子的解释变得容易。 因子旋转方法有正交旋转和斜交旋转两种,这里只介绍一种普遍使用的正交旋转法:最大方差旋转。这种旋转方法的目的是使因子载荷阵每列上的各元素的绝对值(或平方值)尽可能地向两极分化,即少数元素的绝对值(或平方值)取尽可能大的值,而其他元素尽量接近于0. (4) 1.4 因子得分 在对公共因子做出合理解释后,有时还需要求出各观测所对应的各个公共因子的得分,就比如我们知道某个女孩是一个美女,可能很多人更关心该给她的脸蛋、身材等各打多少分,常用的求因子得分的方法有加权最小二乘法和回归法。 注意:因子载荷矩阵和得分矩阵的区别: 因子载荷矩阵是各个原始变量的因子表达式的系数,表达提取的公因子对原始变量的影响程度。因子得分矩阵表示各项指标变量与提取的公因子之间的关系,在某一公因子上得分高,表明该指标与该公因子之间关系越密切。简单说,通过因子载荷矩阵可以得到原始指标变量的线性组合,如X1=a11*F1+a12*F2+a13*F3,其中X1为指标变量1,a11、a12、a13分别为与变量X1在同一行的因子载荷,F1、F2、F3分别为提取的公因子;通过因子得分矩阵可以得到公因子的线性组合,如F1=a11*X1+a21*X2+a31*X3,字母代表的意义同上。 (5) 1.5 因子分析中的Heywood(海伍德)现象 如果x的各个分量都已经标准化了,则其方差=1。即共性方差与特殊方差的和为1。也就是说共性方差与特殊方差均大于0,并且小于1。但在实际进行参数估计的时候,共性方差

多元统计分析简答题..

1、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设H0和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2/21exp 2np n e tr n λ????=-?? ?????S S 00p H =≠ΣΣI : /2/2**1exp 2np n e tr n λ????=-?? ????? S S 检验12k ===ΣΣΣ012k H ===ΣΣΣ: 统计量/2/2/2/211i i k k n n pn np k i i i i n n λ===∏∏S S 2. 针对一个总体均值向量的检验而言,在协差阵已知和未知的两种情形下,如何分别构造的统计量? 3. 作多元线性回归分析时,自变量与因变量之间的影响关系一定是线性形式的吗?多元线性回归分析中的线性关系是指什么变量之间存在线性关系? 答:作多元线性回归分析时,自变量与因变量之间的影响关系不一定是线性形式。当自变量与因变量是非线性关系时可以通过某种变量代换,将其变为线性关系,然后再做回归分析。 多元线性回归分析的线性关系指的是随机变量间的关系,因变量y 与回归系数βi 间存在线性关系。 多元线性回归的条件是: (1)各自变量间不存在多重共线性; (2)各自变量与残差独立; (3)各残差间相互独立并服从正态分布; (4)Y 与每一自变量X 有线性关系。 4.回归分析的基本思想与步骤 基本思想:

相关文档
相关文档 最新文档