文档库 最新最全的文档下载
当前位置:文档库 › 用SAS和SPSS软件进行主成分分析

用SAS和SPSS软件进行主成分分析

用SAS和SPSS软件进行主成分分析
用SAS和SPSS软件进行主成分分析

用SAS和SPSS软件进行主成分分析

安徽医科大学生物医学研究所(230032) 杨中荣 毛广运 臧桐华 徐希平

主成分分析,又称主分量分析,是指将原始的多个

变量,通过线性组合,提炼出较少几个彼此独立的新变

量的一种多元统计分析方法。在医学科研和预防的工

作中遇到的一些问题,由于每个变量都在不同程度上

反映这个问题的某些信息,为了全面分析这个问题,往

往提出很多与此有关的变量(或因素)。但是,在用统

计分析方法研究这个多变量的问题时,由于变量个数

太多会增加解决该问题的复杂性。在大多情况下,变

量之间存在一定的相关性,可以解释为这两个变量在

反映此问题的信息时有一定的重叠。人们希望变量个

数较少而得到的信息较多,主成分分析就是对于原先

提出的所有变量,建立尽可能少的新变量,使得这些新

变量是两两不相关的,而且这些新变量在反映问题的

信息方面尽可能多地保留原有的信息。

SAS和SPSS都能对多变量资料进行较完善的主

成分分析,但它们所提供的主成分分析过程不尽相同,

过程下的选项和相应的输出结果也各有不同 1,2 ,因

此有必要对两个软件的主成分分析功能做一个比较系

统的介绍。

例 对某小学10名9岁男学生六个项目的智力

测量的得分如表1。我们习惯用各项目得分之总和

(合计)来表示学生的智力,这种做法实际上是将各变

量等同地看待,各变量赋予相同的权重 3 。

表1 某小学10名男学生六个项目智力测量计分表

被测试者

编号常识

X1

算术

X2

理解

X3

填图

X4

积木

X5

译码

X6

合计

1141328142239130

2101415143435122

3111219132439118

47779202373

5131224122638125

6191422162337131

7201626213869190

89101493146119

99815131446105

109912102346109

一、几个相关的名词术语及统计量

1 特征根:V ar(C i)= i

各主成分所提供的信息量多少,常用其方差的大小(即特征根 )来衡量, 愈大,该主成分提供的信息量就愈大,可见: 1> 2> > m。

2 贡献率及累积贡献率

m个主成分的特征根 之和为m,则:某主成分C i 的特征根 i在m中所占的比例,被称为C i的贡献率。显然,第一主成分C1是贡献率最大的主成分,如果它的贡献率越大,则表明C

1

综合原始指标的能力越强。前k个主成分的贡献率之和为前k个主成分的累积贡献率。

3 特征向量及因子载荷

特征向量是指主成分的线性组合中各系数a ij;

因子载荷即第i主成分C i特征根的平方根与a ij的乘积即为q ij,q ij=SQRT( i)*a ij

实际上,因子载荷是C

i

与原始指标X

i

之间的相关系数,反映了两者之间联系的密切程度。

4 主成分得分

根据线性组合中各特征向量和各原始指标标化值Z i的大小,可以求得各主成分得分大小,利用主成分得分大小可以对研究对象的个体进行推断和评价。

但是SPSS软件中得到的是各主成分C

i

/SQRT ( i)的值大小,以默认变量名FAC11等来保存。

二、主成分个数的确定

1 均数法:计算特征根的均数 (因为全部m个特征根之和为m,所以 =1),则取 大于1的主成分;

2 经验法:当前k个主成分的累积贡献率达到80%以上,则取前k个主成分进行分析。

三、SPSS中的程序及结果

程序:Ana lyze D a ta Reduction Facto r A na lysis

V ariab l e s框:x1、x2、x3、x4、x5、x6

D escriptive:

Co efficien ts

KM O的Bartlett's test o f spheric ity

Con ti n ue

E x traction:

Scree plo:t

N um ber o f factors:3

Con ti n ue

Sco res:

Sav i n g as V ariable

212

中国卫生统计2009年4月第26卷第2期

通讯作者:徐希平,xi p i ngxu18@126.co m

D isplay facto r sco re coeffic i e ntm atri x

Con ti n ue

OK

结果见表2。

由表2可知,六个变量之间的相关性很高,如果直接用于分析,可能会带来严重的共线性问题。

由表3可知,第一主成分的特征根为4 147,它解释了总变异的69 116%;第二主成分的特征根为0 862,它解释了总变异的14 368%;第三主成分的特征根为0 602,它解释了总变异的10 035%。从特征根来看,前三个主成分已经基本上反映了原资料的信息,这六个变量只需要提取三个主成分即可。

表2 六个变量的相关系数矩阵

x1x2x3x4x5x6 x11.0000.8340.8120.8730.4050.530 x

2

0.8341.0000.7820.8300.6940.450

x30.8120.7821.0000.7090.2780.445 x40.8730.8300.709 1.0000.4560.637 x50.4050.6940.2780.456 1.0000.500 x60.5300.4500.4450.6370.5001.000

表3 各主成分解释总变异的程度

主成分

相关矩阵的特征值

各成分的特征值各成分所解释的方差占总方差的百分比累计百分比

提取的因子载荷的平方和

各因子的特征值贡献累计贡献

1 4.14769.11669.1164.14769.11669.116

20.86214.36883.4850.86214.36883.485

30.60210.03593.5190.60210.03593.519

40.2574.28197.800

50.1071.77999.580

60.0250.420100.000

四、SAS中的程序及结果

SA S中用于主成分分析的过程为princo m p 4 。

程序:

D ata na m e;l

i n put x1x2x3x4x5x6;

cards;

141328142239

;

pro c princo m p;

run;

运行结果见表4。

前三个主成分可表示为:

C1=0 450428Z1+0 458403Z2+0 408183Z3+

0 452656Z4+0 315012Z5+0 340937Z6

C2=-0 28870121Z1+0 004602Z2-0 448122Z3

-0 118657Z

4+0 1747036Z

5

+0 379046Z

6

C3=-0 000116Z1-0 423510Z2-0 043682Z3+ 0 149879Z4-0 403637Z5+0 795829Z6

表4 相关矩阵的主成分

特征向量

特征向量1特征向量2特征向量3特征向量4特征向量5特征向量6 x10.450428-0.288701-0.000116-0.2656910.8019280.009276 x20.4584030.004602-0.423510-0.11701-0.251201-0.739761 x30.408183-0.448122-0.0436820.710153-0.1589950.317913 x40.452656-0.1186570.149879-0.605624-0.5019230.373969 x50.3150120.747036-0.4036370.1214640.1277260.385636 x60.3409370.3790460.7958290.2083760.017019-0.251061

从主成分来看:第一主成分的各分量之大小大致相当,说明第一主成分是一个综合指标;第二主成分在X5上有较大的系数,说明第二主成分反映的是动手操作能力;第三主成分在X6上有较大的负荷,说明第三主成分反映的是归纳演绎能力。

讨 论

信息化时代的今天,随着计算机的普及和统计软件的不断开发应用,要求统计方面的知识越来越高了,但是医学领域的统计方法滥用现象仍比较严重 5 ,特别是涉及到多因素的统计方法方面的知识需要重点加强。如果忽略了不同统计方法应用的前提条件,则必然会导致错误的结论。如主成分分析的应用条件是要求变量间存在较大的相关性,当相关较小时,应用主成分分析是没有意义的。

目前,国际上应用较广的统计软件如SPSS、SA S 和STATA等有其各自的优缺点,它们为统计分析提供了方便、快捷的方法,绝大部份的医学科研数据都可用统计软件分析。特别是SPSS统计软件包,以界面窗口、操作简单和简便易学而著称。即使是SA S和STATA等统计软件,对常见统计量的编程分析主要涉及与数据库类似的变量、函数、以及一些简单的条件和循环语句,稍加学习即可掌握。作为一名医务工作者,应当熟悉和掌握常用统计软件的常见统计分析的基本操作,这将给医学科研和医学工作中带来很大的帮助。

参 考 文 献

1 朱道元等编.多元统计分析与软件SA S.第1版.南京:东南大学出版

社,1999,324 328.

2 张文彤主编.SPSS11统计分析教材(高级篇).第1版.北京:北京希

望电子出版社,2002,190 197.

3 陈峰主编.医用多元统计分析方法.第2版.北京:中国统计出版社,

2007,50.

4 贺佳,陆健主编.医学统计学中的SA S统计分析.第1版.上海:第二

军医大学出版社,2002,141.

5 胡良平,李子建.医学统计学基础与典型错误辨析.北京:军事医学科

学出板社,2003,3 9.

213

C h i nese J ou rnal ofH ealt h Statistics,Ap r2009,Vo.l26,No.2

SAS学习系列34.-因子分析

SAS学习系列34.-因子分析

34.因子分析 (一)基本原理 一、概述 因子分析,是用少数起根本作用、相互独立、易于解释通常又是不可观察的因子来概括和描述数据,表达一组相互关联的变量。通常情况下,这些相关因素并不能直观观测。 因子分析是从研究相关系数矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。简言之,即用少数不可观测的隐变量来解释原始变量之间的相关性或协方差关系。 因子分析的作用是减少变量个数,根据原始变量的信息进行重组,能反映原有变量大部分的信息;原始部分变量之间多存在较显著的相关关系,重组变量(因子变量)之间相互独立;因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 主成分分析是因子分析的特例。主成份分析的目标是降维,而因子分析的目标是找出公共因素及特有因素,即公共因子与特殊因子。 因子分析模型在形式上与线性回归模型相似,但两者有着本质的区别:回归模型中的自变量是可观测到的,而因子模型中的各公因子是不可观测的隐变量,而且两个模型的参数意义也不相同。 二、原理

假设样品检测p 个指标(变量)X 1, …, X p ,得到观测矩阵X ,这p 个指标变量可能受m (m

SPSS进行主成分分析的步骤(图文)精编版

主成分分析的操作过程 原始数据如下(部分) 调用因子分析模块(Analyze―Dimension Reduction―Factor),将需要参与分析的各个原始变量放入变量框,如下图所示:

单击Descriptives按钮,打开Descriptives次对话框,勾选KMO and Bartlett’s test of sphericity选项(Initial solution选项为系统默认勾选的,保持默认即可),如下图所示,然后点击Continue按钮,回到主对话框: 其他的次对话框都保持不变(此时在Extract次对话框中,SPSS已经默认将提取公因子的方法设置为主成分分析法),在主对话框中点OK按钮,执行因子分析,得到的主要结果如下面几张表。 ①KMO和Bartlett球形检验结果:

KMO为0.635>0.6,说明数据适合做因子分析;Bartlett球形检验的显著性P值为 0.000<0.05,亦说明数据适合做因子分析。 ②公因子方差表,其展示了变量的共同度,Extraction下面各个共同度的值都大于0.5,说明提取的主成分对于原始变量的解释程度比较高。本表在主成分分析中用处不大,此处列出来仅供参考。 ③总方差分解表如下表。由下表可以看出,提取了特征值大于1的两个主成分,两个主成分的方差贡献率分别是55.449%和29.771%,累积方差贡献率是85.220%;两个特征值分别是3.327和1.786。 ④因子截荷矩阵如下:

根据数理统计的相关知识,主成分分析的变换矩阵亦即主成分载荷矩阵U 与因子载荷矩阵A 以及特征值λ的数学关系如下面这个公式: λi i i A U = 故可以由这二者通过计算变量来求得主成分载荷矩阵U 。 新建一个SPSS 数据文件,将因子载荷矩阵中的各个载荷值复制进去,如下图所示: 计算变量(Transform-Compute Variables )的公式分别如下二张图所示:

SAS分析法代码

为区分过程名称的拼写,故意部分小写,以便识别和记忆。 基本SAS程序代码结构: --------- PROC MODE data=Arndata.moddat; /* 命令的解释*/ var y x1-x6; /* 命令的解释 */ model y = x1-x6; run; ------------------------------------------ 正态性检验 PROC UNIvariate ---------

PROC UNIvariate data=Arndata.unidat; var x1; run; ------------------------------------------ 相关分析和回归分析 PROC REG 回归 --------- PROC REG data=Arndata.regdat; var y x1-x6; model y = x1-x6 / selection=stepwise; /* 加入逐步回归选项 */ print cli; /* 加入输出预测结果部分,还可以输出acov,all,cli,clm,collin,collinoint,cookd,corrb,

covb,dw(时序检验统计 量),i,influence,p,partial,pcorr1,pcorr2,r, scorr1,scorr2,seqb,spec,ss1,ss2,stb,tol,vif(异方差检验统计量),xpx*/ plot y*x2 / conf95; /* 做散点图 */ run; ------------------------------------------ --------- DATA Arndata.regdat; x2x2 = x2*x2; x1x2 = x1*x2; PROC REG data=Arndata.regdat; var y x1 x2 x2x2 x1x2 ; /* 多项式回归,非线性回归 */ model y = x1 x2 x2x2 x1x2 / selection=stepwise; /* 加入逐步回归选项 */ print cli; plot y*x2 / conf95; /* 做散点图 */

SPSS进行主成分分析报告地步骤(图文)

主成分分析の操作過程 原始數據如下(部分) 調用因子分析模塊(Analyze―Dimension Reduction―Factor),將需要參與分析の各個原始變量放入變量框,如下圖所示:

單擊Descriptives按鈕,打開Descriptives次對話框,勾選KMO and Bartlett’s test of sphericity選項(Initial solution選項為系統默認勾選の,保持默認即可),如下圖所示,然後點擊Continue按鈕,回到主對話框: 其他の次對話框都保持不變(此時在Extract次對話框中,SPSS已經默認將提取公因子の方法設置為主成分分析法),在主對話框中點OK按鈕,執行因子分析,得到の主要結果如下面幾張表。 ①KMO和Bartlett球形檢驗結果:

KMO為0.635>0.6,說明數據適合做因子分析;Bartlett球形檢驗の顯著性P值為0.000<0.05,亦說明數據適合做因子分析。 ②公因子方差表,其展示了變量の共同度,Extraction下面各個共同度の值都大於0.5,說明提取の主成分對於原始變量の解釋程度比較高。本表在主成分分析中用處不大,此處列出來僅供參考。 ③總方差分解表如下表。由下表可以看出,提取了特征值大於1の兩個主成分,兩個主成分の方差貢獻率分別是55.449%和29.771%,累積方差貢獻率是85.220%;兩個特征值分別是3.327和1.786。 ④因子截荷矩陣如下:

根據數理統計の相關知識,主成分分析の變換矩陣亦即主成分載荷矩陣U 與因子載荷矩陣A 以及特征值λの數學關系如下面這個公式: λ i i i A U = 故可以由這二者通過計算變量來求得主成分載荷矩陣U 。 新建一個SPSS 數據文件,將因子載荷矩陣中の各個載荷值複制進去,如下圖所示: 計算變量(Transform-Compute Variables )の公式分別如下二張圖所示:

主成分分析案例

姓名:XXX 学号:XXXXXXX 专业:XXXX 用SPSS19软件对下列数据进行主成分分析: ……

一、相关性 通过对数据进行双变量相关分析,得到相关系数矩阵,见表1。 表1 淡化浓海水自然蒸发影响因素的相关性 由表1可知: 辐照、风速、湿度、水温、气温、浓度六个因素都与蒸发速率在0.01水平上显著相关。 分析:各变量之间存在着明显的相关关系,若直接将其纳入分析可能会得到因多元共线性影响的错误结论,因此需要通过主成份分析将数据所携带的信息进行浓缩处理。 二、KMO和球形Bartlett检验 KMO和球形Bartlett检验是对主成分分析的适用性进行检验。 KMO检验可以检查各变量之间的偏相关性,取值范围是0~1。KMO的结果越接近1,表示变量之间的偏相关性越好,那么进行主成分分析的效果就会越好。实际分析时,KMO统计量大于0.7时,效果就比较理想;若当KMO统计量小于0.5时,就不适于选用主成分分析法。 Bartlett球形检验是用来判断相关矩阵是否为单位矩阵,在主成分分析中,若拒绝各变量独立的原假设,则说明可以做主成分分析,若不拒绝原假设,则说明这些变量可能独立提供一些信息,不适合做主成分分析。

由表2可知: 1、KMO=0.631<0.7,表明变量之间没有特别完美的信息的重叠度,主成分分析得到的模型又可能不是非常完善,但仍然值得实验。 2、显著性小于0.05,则应拒绝假设,即变量间具有较强的相关性。 三、公因子方差 公因子方差表示变量共同度。表示各变量中所携带的原始信息能被提取出的主成分所体现的程度。 由表3可知: 几乎所有变量共同度都达到了75%,可认为这几个提取出的主成分对各个变量的阐释能力比较强。 四、解释的总方差 解释的总方差给出了各因素的方差贡献率和累计贡献率。

SAS学习系列21. 相关分析

21. 相关分析 相关分析和回归分析是研究变量与变量间相互关系的重要方法。相关分析是研究两个或两组变量之间的线性相关情况,回归分析是拟合出变量间的表达式关系。 (一)Pearson直线相关 一、适用于两个变量均为服从正态分布,每对数据对应的点在直角坐标系中(即散点图)呈现直线趋势。 做相关分析时,要注意剔除异常值;相关关系不一定是因果关系。

二、用相关系数r∈[-1,1]来表示相关程度的大小: r>0: 正相关;r<0: 负相关;r=0: 不相关; r=1: 完全正相关;r=-1: 完全负相关。 相关程度的判断标准:看相关系数的平方r2,若r2<0.5,结果无实际价值。 注:相关系数只是刻画直线相关(Y=X2相关系数≠1)。 三、假设检验 1. H0: 总体相关系数ρ=0;H1: ρ≠0; 计算r值,P值,若P值≤α,则在显著水平α下拒绝H0; 2. 若H0成立,从ρ=0的总体中抽样,所得到的样本相关系数r 呈对称分布(近似正态分布),此时可用t 检验。 3. 必要时对相关系数做区间估计 从相关系数ρ≠0的总体中抽样,样本相关系数的分布是偏态的。用Z变换后,服从某种正态分布,估计z,再变换回r.

(二)Spearman等级相关,也称Spearman秩相关 对于不符合正态分布的资料,不用原始数据计算相关系数,而是将原始观察值由小到大编秩,然后根据秩次来计算秩相关系数r s, 以此来说明两个变量间相关关系的密切程度。 适用于某些不能准确地测量指标值而只能以严重程度、名次先后、反映大小等定出的等级资料;也适用于某些不呈正态分布或难于判断分布的资料。 关于编秩 将各X i由小到大编秩得R Xi(1,…n),当遇到相等的值时要用平均秩,例如X2=X4,按编秩为3和4,应该取平均秩 R x2=R x4=(3+4)/2=3.5 假设检验 H0: 总体相关系数ρs=0;H1: ρs≠0; 计算r值,P值,若P值≤α,则在显著水平α下拒绝H0; 另外,Kendall等级相关系数τ∈[-1,1],也可以对两个变量作等级相关分析,而且可对多个变量作等级相关分析。

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 第一,将EXCEL中的原始数据导入到SPSS软件中; 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。

数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性,可以举个简单的例子,一个百分制的变量与一个5分值的变量在一起怎么比较?只有通过数据标准化,都把它们标准到同一个标准时才具有可比性,一般标准化采用的是Z标准化,即均值为0,方差为1,当然也有其他标准化,比如0--1标准化等等,可根据自己的研究目的进行选择,这里介绍怎么进行数据的Z标准化。 所的结论: 标准化后的所有指标数据。 注意: SPSS 在调用Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但SPSS 并不直接给出标准化后的数据, 如需要得到标准化数据, 则需调用Descriptives 过程进行计算。 factor过程对数据进行因子分析(指标之间的相关性判定略)。 【1】“分析”|“降维”|“因子分析”选项卡,将要进行分析的变量选入“变量”列表;

【2】设置“描述”,勾选“原始分析结果”和“KMO与Bartlett球形度检验”复选框; 【3】设置“抽取”,勾选“碎石图”复选框; 【4】设置“旋转”,勾选“最大方差法”复选框; 【5】设置“得分”,勾选“保存为变量”和“因子得分系数”复选框; 【6】查看分析结果。 所做工作: a.查看KMO和Bartlett 的检验 KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析; Bartlett 球度度检验的Sig值越小于显著水平0.05,越说明变量之间存在相关关系。 所的结论: 符合因子分析的条件,可以进行因子分析,并进一步完成主成分分析。 注意: 1.KMO(Kaiser-Meyer-Olkin) KMO统计量是取值在0和1之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。 Kaiser给出了常用的kmo度量标准: 0.9以上表示非常适合;0.8表示适合;0.7表示一般; 0.6表示不太适合;0.5以下表示极不适合。 2.Bartlett 球度检验: 巴特利特球度检验的统计量是根据相关系数矩阵的行列式得到的,如果该值较大,且其对应的相伴概率值小于用户心中的显著性水平,那么应该拒绝零假设,认为相关系数矩阵不可能是单位阵,即原始变量之间存在相关性,适合于做主成份分析;相反,如果该统计量比较小,且其相对应的相伴概率大于显著性水平,则不能拒绝零假设,认为相关系数矩阵可能是单位阵,不宜于做因子分析。 Bartlett 球度检验的原假设为相关系数矩阵为单位矩阵,Sig值为0.001小于显著水平0.05,因此拒绝原假设,说明变量之间存在相关关系,适合做因子分析。 所做工作: b. 全部解释方差或者解释的总方差(Total Variance Explained)

主成分分析法及其在SPSS中的操作

一、主成分分析基本原理 概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。 思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。 原理:假定有n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵, 记原变量指标为x 1,x 2,…,x p ,设它们降维处理后的综合指标,即新变量为 z 1,z 2,z 3,… ,z m (m ≤p),则 系数l ij 的确定原则: ①z i 与z j (i ≠j ;i ,j=1,2,…,m )相互无关; ②z 1是x 1,x 2,…,x P 的一切线性组合中方差最大者,z 2是与z 1不相关的x 1,x 2,…,x P 的所有线性组合中方差最大者; z m 是与z 1,z 2,……,z m -1都不相关的x 1,x 2,…x P , 的所有线性组合中方差最大者。 新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x P 的第1,第2,…,第m 主成分。 从以上的分析可以看出,主成分分析的实质就是确定原来变量x j (j=1,2 ,…, p )在诸主成分z i (i=1,2,…,m )上的荷载 l ij ( i=1,2,…,m ; j=1,2 ,…,p )。 ?????? ? ???????=np n n p p x x x x x x x x x X 2 1 2222111211 ?? ??? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111............

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 公司销售净利率(X1)资产净利率(X2)净资产收益率(X3)销售毛利率(X4) 歌华有线五粮液用友软件太太药业浙江阳光烟台万华方正科技红河光明贵州茅台中铁二局红星发展伊利股份青岛海尔湖北宜化雅戈尔福建南纸43.31 17.11 21.11 29.55 11.00 17.63 2.73 29.11 20.29 3.99 22.65 4.43 5.40 7.06 19.82 7.26 7.39 12.13 6.03 8.62 8.41 13.86 4.22 5.44 9.48 4.64 11.13 7.30 8.90 2.79 10.53 2.99 8.73 17.29 7.00 10.13 11.83 15.41 17.16 6.09 12.97 9.35 14.3 14.36 12.53 5.24 18.55 6.99 54.89 44.25 89.37 73 25.22 36.44 9.96 56.26 82.23 13.04 50.51 29.04 65.5 19.79 42.04 22.72 第一,将EXCEL中的原始数据导入到SPSS软件中; 注意: 导入Spss的数据不能出现空缺的现象,如出现可用0补齐。 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。 所做工作: a. 原始数据的标准化处理

主成分SAS程序

主成分的求解方法 1求相关矩阵 2、求特征值与特征向量 3、确定主成分个数 4、计算主成分得分。 data p108; input x$ x1-x8; datalines; 北京1394.89 2505.00 519.01 8144 373.90 117.30 112.60 843.43 天津920.11 2720.00 345.46 6501 342.80 115.20 110.60 582.51 河北2849.52 1258.00 704.87 4839 2033.30 115.20 115.80 1234.85 山西1092.48 1250.00 290.90 4721 717.30 116.90 115.60 697.25 内蒙832.88 1387.00 250.23 4134 781.70 117.50 116.80 419.39 辽宁2793.37 2397.00 387.99 4911 1371.10 116.10 114.00 1840.55 吉林1129.20 1872.00 320.45 4430 497.40 115.20 114.20 762.47 黑龙江2014.53 2334.00 435.73 4145 824.80 116.10 114.30 1240.37 上海2462.57 5343.00 996.48 9279 207.40 118.70 113.00 1642.95 江苏5155.25 1926.00 1434.95 5943 1025.50 115.80 114.30 2026.64 浙江3524.79 2249.00 1006.39 6619 754.40 116.60 113.50 916.59 安徽2003.58 1254.00 474.00 4609 908.30 114.80 112.70 824.14 福建2160.52 2320.00 553.97 5857 609.30 115.20 114.40 433.67 江西1205.11 1182.00 282.84 4211 411.70 116.90 115.90 571.84 山东5002.34 1527.00 1229.55 5145 1196.60 117.60 114.20 2207.69 河南3002.74 1034.00 670.35 4344 1574.40 116.50 114.90 1367.92 湖北2391.42 1527.00 571.68 4685 849.00 120.00 116.60 1220.72 湖南2195.70 1408.00 422.61 4797 1011.80 119.00 115.50 843.83 广东5381.72 2699.00 1639.83 8250 656.50 114.00 111.60 1396.35 广西1606.15 1314.00 382.59 5105 556.00 118.40 116.40 554.97 海南364.17 1814.00 198.35 5340 232.10 113.50 111.30 64.33 四川3534.00 1261.00 822.54 4645 902.30 118.50 117.00 1431.81 贵州630.07 942.00 150.84 4475 301.10 121.40 117.20 324.72 云南1206.68 1261.00 334.00 5149 310.40 121.30 118.10 716.65 西藏55.98 1110.00 17.87 7382 4.20 117.30 114.90 5.57 陕西1000.03 1208.00 300.27 4396 500.90 119.00 117.00 600.98 甘肃553.35 1007.00 114.81 5493 507.00 119.80 116.50 468.79 青海165.31 1445.00 47.76 5753 61.60 118.00 116.30 105.80

spss进行主成分分析及得分分析

spss进行主成分分析及得分分析 1 将数据录入spss 1. 2 数据标准化:打开数据后选择分析→描述统计→描述,对数据进行标准化,选中将标准化得分另存为变量: 2.3 进行主成分分析:选择分析→降维→因子分析,

3.4设置描述性,抽取,得分和选项:

4.5 查看主成分分析和分析: 相关矩阵表明,各项指标之间具有强相关性。比如指标GDP总量与财政收入、固定资产投资总额、第二产业增加值、第三产业增加值、工业增加值的相关系数较大。这说明他们之间指标信息之间存在重叠,适合采用主成分分析法。(下表非完整呈现)

5.6 由Total Variance Explained(主成分特征根和贡献率)可知,特征根λ1=9.092,特征根λ2=1.150前两个主成分的累计方差贡献率达93.107%,即涵盖了大部分信息。这表明前两个主成分能够代表最初的11个指标来分析河南各个城市经济综合实力的发展水平,故提取前两个指标即可。主成分,分别记作F1、F2。 6.7

指标X1、X2、X3、X4、X5、X6、X7、X8、X9、X10在第一主成分上有较高载荷,相关性强。第一主成分集中反映了总体的经济总量。X11在第二主成分上有较高载荷,相关性强。第二主成分反映了人均的经济量水平。但是要注意: 这个主成分载荷矩阵并不是主成分的特征向量,也就是说并不是主成分1和主成分2的系数,主成分系数的求法是:各自主成分载荷向量除以各自主成分特征值的算术平方根。

7.8 成分得分系数矩阵(因子得分系数)列出了强两个特征根对应的特征向量,即各主要成分解析表达式中的标准化变量的系数向量。故各主要成分解析表达式分别为:F1=0.32ZX11+0.33ZX12+0.31ZX13+0.31ZX14+0.32ZX15+0.32ZX16+0.32ZX17+0.32ZX18+0. 32ZX19+0.21ZX110+0.15ZX111 F2=8.46ZX21+0.02ZX22-0.02ZX23-0.20ZX24-0.23Z25-0.04ZX26-0.15ZX27-0.02ZX28+0.10Z X29+0.47ZX210+0.78ZX211 8.9 主成分的得分是相应的因子得分乘以相应的方差的算术平方根。即:主成分1得分=因子1得分乘以9.092的算术平方根主成分2得分=因子2得分乘以1.150的算术平方根例如郑州:主成分因子=FAC1_1*9.092的算术平方根=3.59386*9.092的算术平方根=10.83,将各指标的标准化数据带入个主成分解析表达式中,分别计算出2个主成分得分(F1、F2),再以个主成分的贡献率为全书对主成分得分进行加权平均,即:H=(82.672*F1+10.497*F2)/93.124,求得主成分综合得分。

SPSS进行主成分分析

实验七、利用SPSS进行主成分分析 【例子】以全国31个省市的8项经济指标为例,进行主成分分析。 第一步:录入或调入数据(图1)。 图1 原始数据(未经标准化) 第二步:打开“因子分析”对话框。 沿着主菜单的“Analyze→Data Reduction→Factor ”的路径(图2)打开因子分析选项框(图3)。 图2 打开因子分析对话框的路径

图3 因子分析选项框 第三步:选项设置。 首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入变量(Variables)栏中(图3)。在本例中,全部8个变量都要用上,故全部调入(图4)。因无特殊需要,故不必理会“Value ”栏。下面逐项设置。 图4将变量移到变量栏以后 ⒈设置Descriptives描述选项。 单击Descriptives按钮(图4),弹出Descriptives对话框(图5)。

图5 描述选项框 在Stat is tic s 统计 栏中选中U niva riate d escript ives 复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考);选中Initial soluti on 复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。 在C orrel ation M atri x栏中,选中Coe fficien ts 复选项,则会给出原始变量的相关系数矩阵(分析时可参考);选中Deter minant 复选项,则会给出相关系数矩阵的行列式,如果希望在E xc el中对某些计算过程进行了解,可选此项,否则用途不大。其它复选项一般不用,但在特殊情况下可以用到(本例不选)。 设置完成以后,单击Cont inue 按钮完成设置(图5)。 ⒉ 设置Extra ction 选项。 打开Ext raction 对话框(图6)。因子提取方法主要有7种,在Method 栏中可以看到,系统默认的提取方法是主成分(Pr in ci pa l Compon en ts),因此对此栏不作变动,就是认可了主成分分析方法。 在Ana lyze 栏中,选中Correlatio n ma trix 复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中Covar iance matri x复选项,则因子分析基于数据的协方差矩阵进行分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。 在D isplay 栏中,选中U nrotated factor s olu ti on(非旋转因子解)复选项,则在分析结果中给出未经旋转的因子提取结果。对于主成分分析而言,这一项选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,以便对比。 选中Scree P lo t(“山麓”图),则在分析结果中给出特征根按大小分布的折线图(形如山麓截面,故得名),以便我们直观地判定因子的提取数量是否准确。 在Extract 栏中,有两种方法可以决定提取主成分(因子)的数目。一是根据特征根(Eig envalues )的数值,系统默认的是1=c λ。我们知道,在主成分分析中,主成分得分的方差就是对应的特征根数值。如果默认1=c λ,则所有方差大于等于1的主成分将被保留,其余舍弃。如果觉得最后选取的主成分数量不足,可以将c λ值降低,例如取 9.0=c λ;如果认为最后的提取的主成分数量偏多,则可以提高c λ值,例如取1.1=c λ。 主成分数目是否合适,要在进行一轮分析以后才能肯定。因此,特征根数值的设定,要在反复试验以后才能决定。一般而言,在初次分析时,最好降低特征根的临界值(如取

用SPSS进行详细的主成分分析步骤

怎样用SPSS进行主成分分析 怎样用SPSS进行主成分分析 一、基本概念与原理 主成分分析(principal component analysis) 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。 (1)主成分分析的原理及基本思想。 原理:设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。 基本思想:主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来

SAS聚类分析程序

SAS聚类分析程序: 聚类分析过程命令 Data pgm33b; Input x1-x3; cards; 9.30 30.55 8.7 (样品数据) 1.85 20.66 1 2.75; Proc cluster standard method= single nonorm nosquare ccc pseudo out=tree; Proc tree data=tree horizontal spaces=1; run; Data pgm33b Input x1-x4; cards; 9.30 30.55 8.7 (样品数据) 1.85 20.66 1 2.75; Proc cluster standard method=complete nonorm nosquare ccc pseudo out=tree; Proc tree data=tree horizontal spaces=1; run; 刷黑该块过程命令程序,提交便计算出相应聚类结果。 语句解释: 聚类指定的方法是在“method=”后面填入一个相应的选择项,它们是:single(最短距离法),complete(最长距离法),average(类平均法), centroid(重心法),median(中位数法),ward(离差平方和法),flexible (可变类平均法),density(非参数概率密度估计法),eml(最大似然法),twostage(两阶段密度法)。 主成分分析程序: 1. 主成分分析实验程序例: 主成分分析过程命令 data socecon; input x1-x6; cards; 16369 3504887 66047 2397739 198.46 1043955 13379 566257 4744 456100 76.96 202637 9707 397183 1303 887034 18.88 105948 10572 414932 1753 751984 27.67 128261 12284 876667 18269 1015669 60.09 332700 9738 604935 5822 1307908 30.54 222799 16970 778830 2438 630014 76.64 272203 10006 617436 13543 866013 58.59 222794 10217 636760 9967 996912 34.55 161025 20946 1380781 16406 526527 150.15 426937 11469 720416 7141 853778 43.41 157274 14165 1504005 29413 1025363 149.17 568899 12795 966188 11580 723278 45.13 165319 12762 584696 13583 343107 65.31 166454

应用统计学因子分析与主成分分析案例解析_SPSS操作分析

因子分析与主成分分析 一、问题概述 现希望对30个省市自治区经济发展基本情况的八项指标进行分析。具体采用的指标只有:GDP、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值。这是一个综合分析问题,八项指标较多,用主成分分析法进行综合。 二、数据处理与分析 1.因子分析 打开数据后,在SPSS中进行因子分析的步骤如下: 选择“分析---降维---因子分析”,在弹出的对话框里 (1)描述---系数、KMO与Bartlett的球形度检验 (2)抽取---碎石图、未旋转的因子解 (3)旋转---最大方差法、旋转解、载荷图 (4)得分---保存为变量、显示因子得分系数矩阵 (5)选项---按大小排序 点击确定得到如下各图: 图3-1 图3-2 KMO 和 Bartlett 的检验 取样足够度的 Kaiser-Meyer-Olkin 度量。.620 Bartlett 的球形度检验近似卡方231.285 df 28 Sig. .000 图3-3 公因子方差

图3-6 成份矩阵a

图3-9

(2)因子模型中各统计量的意义 A)因子载荷错误!未找到引用源。:因子载荷错误!未找到引用源。为第i个变量在第j个因子上的载荷,实际上就是错误!未找到引用源。与错误!未找到引用源。的相关系数,表示变量错误!未找到引用源。依赖因子错误!未找到引用源。的程度,反应了第i个变量错误!未找到引用源。对于第j个因子错误!未找到引用源。的重要性。 B)变量错误!未找到引用源。的变量共同度:k个公因子对第i个变量方差的贡献,也称为公因子方差比,记为错误!未找到引用源。,公式为:错误!未找到引用源。=错误!未找到引用源。(j=1,2,….,k)

聚类分析与主成分分析SAS的程序(DOC)

实验三我国各地区城镇居民消费性支出的 主成分分析和聚类分析 (王学民编写) 一、实验目的 1.掌握如何使用SAS软件来进行主成分分析和聚类分析; 2.看懂和理解SAS输出的结果,并学会以此来作出分析; 3.掌握对实际数据如何来进行主成分分析; 4.对同一组数据使用五种系统聚类方法及k均值法,学会对各种聚类效果的比较,获取重要经验; 5.掌握使用主成分进行聚类 二、实验内容 数据集sasuser.examp633中含有1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据。对这些数据进行主成分分析,可将这31个地区的前两个主成分得分标示于平面坐标系内,对各地区作直观的比较分析。对同样的数据使用五种系统聚类方法及k均值法聚类,并对聚类效果作比较。最后,对主成分的图形聚类和正规聚类的效果进行比较。 实验1 进行主成分分析,根据前两个主成分得分所作的散点图对31个地区进行比较分析。 实验2 分别使用最长距离法、中间距离法、两种类平均法、离差平方和法和k均值法进行聚类分析,并比较其聚类效果。 实验3 主成分聚类,并与上述正规的聚类方法进行比较 三、实验要求 1.用SAS软件的交互式数据分析菜单系统完成主成分分析; 2.完成五种系统聚类方法及k均值法,比较其聚类效果; 3.根据前两个主成分得分的散点图作直观的聚类,并与上述正规的聚类方法进行比较。 四、实验指导

1.进行主成分分析 在inshigt中打开数据集sasuser.examp633,见图1。选菜单过程如下: 在图1中选分析?多元(Y X)?在变量框中选x1,x2,x3,x4,x5,x6,x7,x8(见图2)?Y?选输出?选主分量分析,主分量选项(见图3)?在图4中作图中的选择(主成分个数缺省时为“自动”选项,此时只输出特征值大于1的主成分)?确定?确定?确定 图1 图2

SAS主成分分析

SAS主成分分析 分类:数据之美2013-07-28 20:18 2343人阅读评论(0) 收藏举报 目录(?)[-] 1. 主成分分析流程 2. SAS主成分分析示例 3. SAS主成分分析输出结果详解 4. 特征值和特征向量隐藏的秘密 5. 总结 6. 参考文献 同事讲主成分分析,举了这么个例子:就像你选女人,有身材、相貌两个指标,如果身材、相貌都很突出,那当然很好选择;但如果两个女人,一个身材突出,一个相貌出众,看着都很喜欢,那可如何是好!这个时候通过主成分分析,汇总出一个指标,这个指标可以一定程度上代替原来的身材、相貌,这时就可以排序做出选择了。 这例子当然有很多缺陷,但至少指出了主成分分析的目的之一:减少决策变量数,也就是降维。主成分分析的另一个目的是防范多重共线性。实际问题往往涉及很多变量,但某些变量之间会有一定的相关性,我们希望构造较少的几个互不相关的新指标来代替原始变量,去除多重共线性,减少所需分析的变量,同时尽可能减少这一过程的信息损失。主成分分析正是基于这样的目的而产生的有效方法。 主成分分析流程 主成分分析包含以下流程:

1、原始数据标准化。 2、计算标准化变量间的相关系数矩阵。 3、计算相关系数矩阵的特征值和特征向量。 4、计算主成分变量值。 5、统计结果分析,提取所需的主成分。 SAS主成分分析示例 我们从实战入手,先来个简单的例子,完整体验使用SAS进行主成分分析的过程。准备好图1所示的数据集,该数据集包含5个变量和22个观测。其中变量num用于标识每条观测。 图1 可以直接复制下面的程序完成输入: data Practice.PCA_Demo;

主成分分析在SPSS中的操作应用(详细步骤

主成分分析在SPSS中的操作应用(2) SPSS在调用Factor Analyze过程进行分析时,SPSS会自动对原始数据进行标准化处理,所以在得到计算结果后指的变量都是指经过标准化处理后的变量,但SPSS不会直接给出标准化后的数据,如需要得到标准化数据,则需调用Descriptives过程进行计算。 图表 3 相关系数矩阵

图表 4 方差分解主成分提取分析表 主成分分析在SPSS中的操作应用(3) 图表 5 初始因子载荷矩阵

从图表3可知GDP与工业增加值,第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系,与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强,证明他们存在信息上的重叠。 主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。注:特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1作为纳入标准。通过图表4(方差分解主成分提取分析)可知,提取2个主成分,即m=2,从图表5(初始因子载荷矩阵)可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷,说明第一主成分基本反映了这些指标的信息;人均GDP和农业增加值指标在第二主成分上有较高载荷,说明第二主成分基本反映了人均GDP和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息,所以决定用两个新变量来代替原来的十个变量。但这两个新变量的表达还不能从输出窗口中直接得到,因为“Component Matrix”是指初始因子载荷矩阵,每一个载荷量表示主成分与对应变量的相关系数。 用图表5(主成分载荷矩阵)中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数[2]。将初始因子载荷矩阵中的两列数据输入(可用复制粘贴的方法)到数据编辑窗口(为变量B1、B2),然后利用“TransformàCompute Variable”,在Compute Variable对话框中输入 “A1=B1/SQR(7.22)” [注:第二主成分SQR后的括号中填1.235],即可得到特征向量A1(见图表6)。同理,可得到特征向量A2。将得到的特征向量与标准化后的数据相乘,然后就可以得出主成分表达式[注:因本例只是为了说明如何在SPSS进行主成分分析,故在此不对提取的主成分进行命名,有兴趣的读者可自行命名]: F1=0.353ZX1+0.042ZX2-0.041ZX3+0.364ZX4+0.367ZX5+0.366ZX6+0.352ZX7+0.364ZX

相关文档
相关文档 最新文档