文档库 最新最全的文档下载
当前位置:文档库 › 如何有效利用主成分分析进行综合评价

如何有效利用主成分分析进行综合评价

如何有效利用主成分分析进行综合评价
如何有效利用主成分分析进行综合评价

如何有效利用主成分分析进行综合评价

摘要:由于主成分分析在多元统计分析中的降维作用,使之在社会、经济、医疗、生化等各领域运用越来越广泛,但由于传统主成分分析方法的局限性导致了一些问题的产生。这些问题吸引了许多领域专家的关注,并具有针对性的提出了一些不同的改进方法。本文介绍了主成分分析的基本和性质,并整理了近年来主成分分析在综合评价应用中遇到的普遍问题并整理验证了认同率较强的一些改进方法,以供大家研究学习。

关键词:主成分分析;综合评价;均值化

1引言

研究的背景和意义

随着生产力的不断进步,生产方式由外延式扩张转化为追求经济效益的内涵式发展,以致在生产过程中必须考虑经济效益的各个方面,如生产力水平、技术进步、资源占用等情况,并需要就综合各方面的因素进行综合评价。

评价是根据确定的目的来测定对象系统的属性,并将这种属性变为客观定量的计值或者主观效用行为,整个过程离不开评价者的参与,而综合评价作为评价的一种也需要评价者做出相应反应或指示,而很多综合评价过程易受到评价者的干预,使评价结果产生偏差。

主成分分析能将高维空间的问题转化到低维空间去处理【9】,使问题变得比较简单、直观,而且这些较少的综合指标之间互不相关,又能提供原有指标的绝大部分信息。而且,伴随主成分分析的过程,将会自动生成各主成分的权重,这就在很大程度上抵制了在评价过程中人为因素的干扰,因此以主成分为基础的综合评价理论能够较好地保证评价结果的客观性,如实地反映实际问题。主成分综合评价提供了科学而客观的评价方法,完善了综合评价理论体系,为管理和决策提供了客观依据,能在很大程度上减少了上述不良现象的产生。

所以在社会经济、管理、自然科学等众多领域的多指标体系中,如节约型社会指标体系、生态环境可持续型指标体系、和谐社会指标体系、投资环境指标体系等,主成分分析法常被应用于综合评价与监控【6】。

综上所述,对综合评价指标体系理论进行研究,既有理论上的必要性,更有实践中的迫切性。

研究的发展史

基于主成分分析的综合评价以主成分分析为理论基础,以综合评价为主线,着眼于作出合理公正的综合评价。以下从综合评价和主成分分析两个方面来讨论主成分综合评价的发展史。

综合评价是伴随着人类文明的产生、发展而产生、发展的。其基本思想是将反映研究对象数量特征的多个指标转化为一个综合指标,并据以对各个具体评价对象进行排序比较,从而做出好坏优劣的评价结论。

1888年,艾奇沃斯(Edgeworth)发表了论文《考试中的统计学》,提出了对考生中的不同部分应如何加权。1913年,斯皮而曼(sPe~an)发表了《和与差的相关性》一文,讨论了不同加权的作用。在20

世纪30年代,瑟斯通(Thurstone)和利克特(Likert)又对定性记分方法的工作给予了新的推动。20世纪60年代,美国学者查德(L·A·zadaen)模糊集合理论,为模糊综合评价法奠定了基础。20世纪70一80年代,是现代科学评价蓬勃兴起的年代。在此期间,产生了多种应用广泛的评价方法,诸如ELECTRE法(1971一1977,1983)、多维偏好分析的线性规划法(LINMAP,1973)、层次分析法(AHP,1977)、数据包络分析法(DEA,1978)、逼近于理想解的排序法(TOPSIS,1981)等【7】。

主成分分析,首先是由英国的皮尔生(Kar卜Pearson)对非随机变量引入的,而后美国的数理统计学家赫特林在1933年将此方法推广到随机向量的情形团【8】。主成分分析的降维思想从一开始就很好地为综合评价提供了有力的理论和技术支持。

20世纪80~90年代,是现代科学评价在我国向纵深发展的年代,人们对包括主成分综合评价在内的评价理论、方法和应用开展了多方面的、卓有成效的研究,主要表现为:常规评价方法在国民经济、生产控制和社会生活中的广泛应用;多种评价方法的组合研究,综合应用及比较;新评价方法的研究和应用;评价方法的深入研究,如:评价属性集的设计、标准化变换、评价模型选择等等。

主成分做综合评价的研究现状

目前国内外关于综合评价的方法很多,在根据各指标间相关关系或各指标值的变异程度来确定权重系数的方法中,主成分分析法是应用尤为广泛。在使用该方法的早期,大多都是按照传统的主成分分析法做综合评价的步骤来计算综合得分来对样品排序,即利用主成分F1,F2,…,F m做线性组合,并以每个主成分F i的方差贡献率αi作为权重系数来构造一个综合评价函数:

Y =α1F1 +α2F2 +…+αm F m

然而,随着传统主成分分析方法在综合评价中的进一步应用,人们发现此方法时经不起实践检验的。在实际应用中,经常发现运用此方法所得结果的解释往往与实际情况不符。举了一个简单的例子,假定高考中考试科目有四门:数学(x1)、语文(x2)、外语(x3)和物理(x4),满分都是相同的150分。考生的四门

考试成绩必须综合成一个综合评价函数,一般取为总分

i x i ∑=41

但从统计学的角度来看,可能取为*4

1

i x i ∑=更为合理,这里x i *是x i 的标准化数值(x 1* 、x 2* 、x 3* 、x 4*有相同的均值和标准差)。如果我们使用传统的主成分分析法,根据上述综合评价函数F 的得分来对学生进行排名,那就酿成大错了。

就此,一些学者提出了一些改进的方法,其中具有代表性的方法有:Yan(1998)提出,当第一主成分的方差比较大时,即贡献率较大时,用它做综合评价指标。如果觉得用一个主成分解释的方差不够大时,综合反映X 1 ,X 2 ,…,X p 信息的能力不够,而用多个主成分构造综合评价函数又不合适时,可以像因子分析那样对主成分进行旋转。Hou(2006)也提出,当用第一主成分进行综合评价达不到理想结果时,可用分组主成分评价法。即先用因子分析法将p 个变量分成k 组,然后分别对各组变量进行主成分分析,只取每组的一主成分,求出各组第一主成分的得分C j (j=1,2,…,k)以因子旋转后各因子的放差贡献率为权重∑==

k

j j

j

Wj

1

λλ建立综合评价函数:∑==k

j WjCj z

1

。最后根据各评价样本综合得分y 来对样品

进行排序。但其可行性也受到了一些学者的质疑【4】

。由此可见,主成分综合评价法是一片有待进一步

深耕细作的热土。

2关于主成分分析基本知识 主成分分析

设要进行主成分分析的原指标有p 个,记作x 1 ,x 2 ,…,x p 。现有n 个样品,相应的观测值为x

ik ,

i =1,2,…,n,而k =1,2,…,p 。

作标准化变换后,将X k 变换为X k *,即

Sk

Xk

-Xk Xk*=

,k =1,2,…,m. 式中,Xk 及Sk 分别是x k 的均值及标准差,x k *的均值为0、标准差为1. 主成分分析的原理是:

根据各样品原指标的观测值x ik 或标准化变换后的观测值x ik *求出系数 a ik (k=1,2,…,p,j=1,2,…,m ,m

建立用标准化变换后的指标x k *表示综合指标Fj 的方程*xk akj Fj k

∑=,也可建立用原指标X

k

表示综合指标Fj 的方程*xk akj Fj k

∑=

对系数a ik 由下列原则决定:

(1)各个综合指标Fj 彼此独立或不相关;

(2)各个综合指标Fj 所反映的各个样品的总信息等于原来p 个指标X k *所反映的各个样品的总信息,即p 个Fj 的方差λj 之和等于p 个X k *的方差之和,也就是

P j j

=∑λ且λ1

≥λ

2 … ≥λP 。

称上述彼此独立或不相关又不损失或损失很少原有信息的各个综合指标。y j 为原指标

的主成分.其中,第一综合指标F 1的方差最大,吸收原来p 个指标的总信息最多,称第一主成分;第二综合指标F 2的方差次之,吸收原来p 个指标的总信息次之,称为第二主成分;同理,F 3 F 4…F p 分别称为第三主成分、第四主成分……第p 主成分。【9】

主成分分析能否旋转

主成分分析与因子分析的联系与区别

相当数量的应用文章对主成分分析与因子分析不加严格区分,因而对分析结果的解释非常模糊。文献【1】认为主成分分析与因子分析两者之间有联系,但也存在着明显的区别。

从联系上看,主成分分析和因子分析都是将多个相关变量(指标)转化为少数几个不相关变量的一种多元统计分析方法。其目的是使在高维空间中研究样本分布规律的问题,通过降维得到简化,并尽量保留原变量的信息量。两者都有消除相关、降维的功能。

主成分分析是通过变量变换把注意力集中到具有最大变差的那些主成分上,而视变量不大的主成分为常数予以舍弃;因子分析是通过因子模型把注意力集中到少数不可观测的公共因子上,而舍弃特殊因子。主成分个数与公共因子个数的选择准则通常是相同的。

主成分分析中主成分向量Y 与原指标向量X 的表达式为X L Y T =,式中()p p ij l L .=;而因子分析

中的因子模型为ε+=AF X ,其中ε为特殊因子,()0.m p ij a A =,当()0=εD 时,可采用主成分分析法

估计A 阵,则ij j ij

l a λ=。

对主成分分析中的主成分与因子分析中的公共因子的含义均需进行明确解释,否则,会遇到应用上的困难。

虽然主成分分析法与因子分析法有着密切的联系,但从应用上更需关注的是它们之间的区别。

1、 主成分分析的实质是P 维空间的坐标旋转,并不改变样本数据结构,不能作为模型来描述;因子分析的实质是P 维空间到M 维空间的一种映射,需构造模型。

2、 主成分的个数与原变量个数相等,而公因子的个数小于原变量的个数。

3、 主成分分析是把主成分表示为原变量的线性组合,因子分析是把原变量表示为公共因子和特殊因子的线性组合。

4、 主成分分析由可观测的变量X 直接求的主成分Y ,并可逆;因子分析只能通过可观测的原变量去估计不可观测的公共因子F ,不能用X 表示F 。

5、 主成分分析中的L 阵是唯一的正交阵;因子分析中的A 阵不唯一,也不一定是正交阵。

6、 主成分分析主要应用在综合评价和指标筛选上;因子分析除这两个作用以外,还可以应用于对样本或变量的分类。 能否对主成分实施旋转

对于主成分能否进行旋转这一问题,很多研究学者认为,当主成分不能很好解释综合评价结果时,可以像因子分析那样进行正交旋转,从而使主成分得到更好的解释。

关于主成分能否旋转的问题,文献【1】【4】【5】【7】【8】均做了论证,发现这种方法是不可行的。

论证具体如下:

主成分分析的实质是对原始指标变量进行线性变换,即F =XA ,其中()

p

p ij a A .=

显然A 为正交矩阵,如果对主成分进行旋转,则有:

其中L 是正交矩阵。由于X 矩阵不变,其相关矩阵R 对应的特征根和单位特征向量也不变,即说明矩阵A 具有唯一性。由上式知:如果主成分能旋转则说明矩阵A 不是唯一的。

从而我们可以得出:主成分不能进行旋转。 3 主成分分析做综合评价的局限性与改进方法 传统主成分分析做综合评价的一般步骤

(1)将原始数据标准化。将各样品指标值x i 按()()

i i i I

X D X E X X -=

*

式转化成标准化指标X i *,其中,

E(X i )和D(X i )分别是X i 的均值和方差。X i 的均值是0,方差是1.

(2)求各标准化指标X i *的两两相关系数r ij ,并写出相关系数矩阵p p ij r R ?=][。

其中,∑=?-=n

t ij ij ij x x n r 1

11 (i,j=1,2,…,p) (3)求相关矩阵的特征根λi *(i=1,2,…,p),将其由大到小排序。λ1*≥λ2* … ≥λP *≥0,称

p

a i i *

λ=

为第i 个主成分F i 的贡献率;

p

m

i i

∑=1

λ

为前m 个主成分F 1 ,F 2,…,F m 的累计贡献率。

由累积方差贡献率确定主成分的个数m(m ≤p),求出λi * (i=1,2,…,m)对应的贡献率、累计贡献率。 (4)求各个主成分F i 与标准化指标X i *对应的系数关系。 (5)求各例样品在m 个主成分的得分y 1 ,y 2,…,。 (6)求各样品综合得分y ,并排列名次。 主成分分析的局限性

文献【8】通过论证指出,主成分贡献率的大小反映的是该主成分包含原始数据的信息量的大小,这种信息不一定指的是综合水平,也有可能指的是变量间的差异性。对于有些情况做综合评价,如一个班同学的综合排名,用于综合评价的需是水平因子,但只考虑第一主成分的话,得到的会是一个形状因子,所以在这种情况下,第一主成分贡献率再高,用于综合评价也是不合理的。

主成分分析标准化的不足

文献【2】【3】【7】等文献指出,原始数据保含两部分信息:一部分是个指标变异程度的差异信息;另一部分是个指标间相互影响程度上的相关信息。但在主成分分析过程中,为了消除指标纲量和数量级的影响往往对原始数据进行标准化:

j

j

ij ij s x x x -=

,i =1,2,… ,n ;j =1,2,…,p

其中∑==n k kj ij x n x 11,()

2

1

2

11∑=--=n k j ij j x x n s ,j=1,2,…,p 。

由此可以看出标准化使各指标的方差全为1,在消除量纲和数量级影响的同时,也消除了各指标变异程度上的差异信息。而从标准化后的数据提取的主成分,即从相关系数矩阵来计算主成分,实际上只包含了各指标间相互影响这一个方面的信息,所以不能准确反映原始数据所包含的全部信息。

“线性”相关度的不足

文献【3】指出,主成分分析只是一种“线性”降维技术,之梦处理线性问题:一方面主成分是原始指标的线性组合,另一方面对原始数据进行标准化处理,是协方差矩阵变成相关系数矩阵,而相关系数矩阵矩阵只能反映指标间的“线性”相关程度。

研究实际问题时,不仅指标见有非线性关系,有时主成分与原始数据之间也呈非线性关系,如果简单地进行先行处理,必然导致评价结果的偏差。 关于主成分分析做综合评价的改进

可用于综合评价的主成分的条件

在用主成分分析做综合评价的改进时,对选择第一主成分还是多个主成分现在任有一定的分歧,就此问题许多学者都做了研究探讨

【1】【7】【8】

,过程如下:

当(X i1,X i2 ,…,X ip )>( X k1 ,X k2 ,…,X kp )时,称第i 个样本点优于第k 个样本点;

当(X i1,X i2 ,…,X ip )≥( X k1 ,X k2 ,…,X kp )时,称第i 个样本点不劣于第k 个样本点;若(X i1,X i2 ,…,X ip )≥( X k1 ,X k2 ,…,X kp )和( X k1 ,X k2 ,…,X kp )≥(X i1,X i2 ,…,X ip )同时成立,称第i 个样本点无异于第k 个样本点。

定义 若综合评价得分y 是有序的,当且仅当

y i ≥y k (其中y i 是第i 个样本点的综合得分 i =1,2,…,n )时,有(X i1,X i2 ,…,X ip )≥( X k1 ,X k2 ,…,X kp ),否则称y 是无序的。

将y 改写成一般形式如下:???? ??==??

???

?

? ??=∑∑==p j j j j n

j j j j n a t a X Xa t a y y y y 1121M

上式中t j 可取-1,1或0(0表示不选择第j 个主成分),由上式得:综合评价得分y 对应于指标X i

的权数为???

? ??∑=p j ij j j a t a 1。由于各指标是正向指标,我们可以得到如下定理。 定理 综合评价得分y 是有序的,当且仅当???

?

??∑=p j ij j j a t a 1≥0,i=1,2,…,p 。

由上述推导可知,要想第一主成分能有效用于做综合评价,则按第一主成分做综合评价的得分值y 必须是有序的,当且仅当a ij ≥0,j=1,2,…,p 。即第一主成分的系数均为正值时,第一主成分做综合评价的取值y 才是有序的,此时才可以用第一主成分做综合评价,否则不行。

类似地,还可以令t i =1,其它为0的情况,可得到第i 主成分有序的充要条件是a ij ≥0,j=1,2,…,p 。

由于传统主成分分析无量纲化,即标准化处理会导致原始信息的丢失,许多学者就此思考了改进方法,并大多注意到了协方差举证能够完整的反映原始数据的信息;协方差矩阵的主对角线上的元素恰好为个指标的方差,而非主对角线上的元素则包含了各指标间的相关系数的信息。所以对数据的均值化处理

【1-8】

是大家普遍认同的一个对主成分分析较好的改进方法。

方法如下:

设有n 个被评价的对象,及p 个指标,原始数据为p n ij x X ?=)(,各指标的均值为x i

均值化就是用各指标的原始数据除以相应的均值,即

ij

ij ij x x y =

,i =1,2,…,n ;j =1,2,…,p

其中∑==n

k kj j x n x 1

1,j =1,2,…,p ,得到均值化数据矩阵()

p

n ij

y Y ?=

设Y =(Y 1 ,Y 2,…,Y p )的协方差矩阵为U =(u ij )p ×p ,因为Y 中每个向量的均值为1,所以有: 其中s ij 为原始数据的协方差,i ,j =1,2,L,p.特别地()

2

i

ij

ij x s u =

,即均值化数据的协方差矩阵主对角

线元素为各指标见变异系数的平方。

设均值化数据各指标的相关系数为*ij r ,则

ij jj

ii ij jj

ii ij ij r s s s u u u r ==

=

*,

其中ij r 为原始指标间的相关系数,由上可以得到:均值化不改变各指标间的相关系数, 相关系数矩阵的所有信息都在相应的协方差矩阵中得到了反映。 对原始数据的非线性化

根据主成分分析中“线性”相关度的缺点,文献【2】【3】提出了非线性主成分分析方法的一种——对数中心化,其基本方法是:

1、 对原始数据作中心对数化变换:

2、计算对数中心化的样本协方差矩阵()p p ij s S ?=

3、从S 出发求主成分

设λ1≥λ2≥… ≥λP 是S 的P 个特征根,a 1,a 2 ,… ,a P 是相应的标准化特征向量,则第i 个非线性主成分为∑==p

j lj lj l

x a F 1

log

从上述分析可知,非线性主成分分析与传统主成分分析相比有两处改进:一是通过对原始数据作对数中心化变换,将主成分表示为原始数据的非线性组合;二是分析的出发点是协方差矩阵,不再是相关系数矩阵。通过这两处的的改进,会明显提高降维效果,用更少的主成分更多的反映原始指标的信息。

4 实例分析

本文采用为数据分析工具,以某高校学生在校期间的各科学习成绩为样本,运用改进的合理选取主成分的方法对每位学生的三项指标的原始数据进行分析比较。样本如表1所示:

表1学生成绩

学生高数成绩外语成绩专业课成绩

1 80 111 103

2 76 78 104

学生高数成绩外语成绩专业课成绩

3 62 140 78

4 110 120 98

5 102 111 67

6 115 84 89

7 67 89 102

8 87 98 110

9 89 95 99

10 91 139 109

11 150 100 117

12 140 125 83

13 123 78 75

14 104 97 109

15 105 90 127

16 74 19 96

17 65 86 79

18 89 80 96

19 91 77 106

20 100 102 110

首先对原始数据进行均值化处理,再用优化指标的协方差矩阵代替相关系数矩阵进行分析,计算结果如表2:

表2:数据计算表

原始主成分分析均值化主成分分析改进主成分分析特征值方差贡献率累计贡献率特征值方差贡献率累计贡献率特征值方差贡献率累计贡献率1

2

3

结论:

1、从计算结果可以看出,均值化处理可以使第一主成分包含的信息比传统的方法第一主成分承

载的信息高,咳哟个较少的主成分提取更多的原始信息。

2、非线性化处理后,计算得出的累计贡献率更有突破,达到了主成分分析简化指标维数的主要

目的。

5 结语

针对主成分分析在综合评价中的广泛应用中遇到的计算结论常与事实有所矛盾的问题,结合现行各类文献资料,整理归纳了主成分分析的传统方法在综合评价中的不足、不合理之处整理出了部分实验结果较好的改进方法,同时得出,在运用主成分分析进行综合评价时,应当根据原始数据情况做出及时合理的调整,采用适当的主成分或改进主成分传统分析中的不足之处,借此时主成分分析在综合评价应用中功能得到更大、更合理的发挥。

参考文献:

[1] 白雪梅,赵松山对主成分分析综合评价方法若干问题的探讨统计研究1995 第六期

[2] 高艳,于飞一种用于综合评价的主成分分析改进方法西安文理学院学报(自然科学版) 2011年1月第14卷第1期文章编号:1008 5564(2011)01 0105 04

[3] 叶双峰关于主成分分析做综合评价的改进数据统计与管理2001年2期20卷文章编

号:1002-1566(2001)02-0052-04

[4] 林海明对主成分分析法运用中十个问题的解析理论新探

文章编号:1002-6487(2007)08-0016-03.

[5] 张鹏基于主成分分析的综合评价研究南京理工大学硕士论文2004年6月

[6] 庞智强主成分分析能客观赋权吗?统计新论总第79期

[7] 余登榜改进的主成分分析在我国高校数学学科排名中的应用武汉科技大学硕士学位论文2010年12月

[8] 洪素珍如何有效利用主成分华中师范大学硕士论文2008年5 月

[9] 张文霖主成分分析在SPSS中的操作应用市场研究理论与方法2005年12月

[10] 张超陈秉赓计量地理学基础第二版高等教育出版社1991年

基于主成分分析的经济发展水平综合评价

基于主成分分析的经济发展水平综合评价1 吴冲,王栋 哈尔滨工业大学管理学院,哈尔滨 (150001) E-mail:wuchong@https://www.wendangku.net/doc/e410009288.html, 摘要:衡量一个国家的经济发展程度,要从其社会生产的各个方面去考察,要看各项生产能力的综合效果。为了客观、科学地分析我国的经济发展状况,本文首次把居民消费价格指数和商品零售价格指数引入评价指标体系中,提出一种新的社会发展水平综合指标体系,并通过SPSS分析软件进行上机计算,应用主成分分析方法对我国31个省、直辖市、自治区(不包括香港、澳门和台湾)的经济发展水平进行综合分析和评价,突出了各大省市经济发展进程的特点和优势,为我国实现均衡发展提供理论依据。 关键词:主成分分析,经济发展,综合评价 1. 引言 要描述和评价一个社会的经济发展状况,最理想的是找到一个总括性社会指标体系评价方法,其测度结果能够反映社会经济发展的全部或大部分信息。20世纪60年代以来一些国际性组织、国家和地区的职能部门以及研究学者曾经提出各种不尽完全相同的指标体系评价方法[1]。我国系统地研究社会发展指标体系评价方法起步较晚,但发展很快,20世纪80年代以来,国内一些政府部门、研究单位和个人先后设计了一些“社会指标体系评价方法”[2-4],如:唐晓东[5]采用了21个指标变量的函数模型来评价我国社会经济发展状况,然而此模型一个最大缺点,就是没有把所有反映经济情况的因素考虑在内,得不到预期效果。但到目前为止,还没有形成一套完善、客观的社会经济发展综合指标体系评价方法,为了更加全面、客观地反映我国各地区的社会发展水平,本文在借鉴国内外研究成果的基础上,通过对我国已有研究成果的修正和充实,首次把居民消费价格指数和商品零售价格指数引入评价指标体系中,提出一种新的社会发展水平综合指标体系。 在实际经济问题中,不同的经济变量之间具有一定的相关性,如职工平均工资和消费水平必然有一定的关联性,这样势必增加分析问题的复杂性,因此需要有一种进行简化的方法。主成分分析法可以用较少的指标来代替原来较多的指标,并使这些较少的指标尽可能地反映原来指标的信息,从根本上解决了指标间的信息重叠问题,又大大简化了原指标体系的指标结构,用主成分分析法分析经济发展水平的优势主要体现在: (1)全面性(消除评价指标的相互影响),在满足n p f的条件下,不限制指标的个数,可以综合评价一国的经济发展状况,主成分分析的降维处理技术能较好地解决多指标评价的要求,在选择了() p个主成分后, m m p 仍能保留原是数据信息的85%以上,因此这一方法综合评价经济发展水平比较全面,可以克服片面追求个别经济指标而忽略全面经济发展指标的倾向;(2)可加性(数据标准化处理),在综合评价经济发展水平时,所建立的评价指标量纲往往不同,变差不能直接综合,主成分分析法避免了此现象的发生,因为在计算过程中,主成分分析法把各个指标进行了标准化处理,这就使得各个经济指标之间具有可比性即可加性;(3)客观性(科学的确定权重),在层次分析法计算过程中,通过专家打分来确定权重,也就是说在确定权重的问题上具有了人为因素,而主成分分析法在确定综合因子的权重时,克服了某些评价方法中人为确定权重的缺陷,使得综合评价结果唯一;(4)简单性(计算简介),随着电子计算机技术的发展,SPSS、SAS等计 1本课题得到高校博士点基金(20050213037)资助。

主成分分析法总结

主成分分析法总结 在实际问题研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。 因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息? 一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点: ↓主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关 通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性 总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。 主成分分析的具体步骤如下: (1)计算协方差矩阵 计算样品数据的协方差矩阵:Σ=(s ij )p ?p ,其中 1 1()() 1n ij ki i kj j k s x x x x n ==---∑i ,j=1,2,…,p (2)求出Σ的特征值 i λ及相应的正交化单位特征向量i a Σ的前m 个较大的特征值λ1≥λ2≥…λm>0,就是前m 个主成分对应的方差,i λ对应的单 位特征向量 i a 就是主成分Fi 的关于原变量的系数,则原变量的第i 个主成分Fi 为:

用主成分分析模型构造综合评价指数

用主成分分析模型构造中学考试综合评价指数 [摘要] 在中学考试的综合评价中,使用较多的指标进行描述使分析复杂化,难以对众多指标的影响作出正确的判断,需要少量几个“综合评价指标”。通过简单加权的合成方法,难以得到科学的结果。主成分分析是一种多元统计方法,可以将众多指标简化浓缩为少量几个甚至一个综合评价指标,使简化的指标既能基本包括全部指标具有的信息,又使指标之间相互无关,较好地解决了这一课题。 [关键词] 考试评价;主成分分析;数学模型;计算步骤,指数构造方法 一、问题的提出 在中学考试评价中,通常使用各学科的“平均分”、“优秀率”、“及格率”和“低分率”等指标。考虑到成绩的分布状况(“优秀率”与“及格率”之间的差距偏大,可能失去部分信息量),某些地区还使用了“良好率”指标。这样,k 个学科的考试评价的p 项指标将多达k ╳p 个。在对考试进行综合的评价时,使用较多的指标进行描述不仅会增加评价的工作量,而且会因评价指标间的相关性造成评价信息重叠,相互干扰,其结果使分析复杂化,难以对众多指标的影响作出正确的判断。因此,需要少数几个甚至一个“综合评价指标”来代替众多的且相互之间具有相关关系的指标,同时又需要不失去原有指标具有的信息量,这是考试评价中具有现实意义的课题。 某些地区采用一种“降维”的方法,较成功地把k ╳p 维指标降为p 维指标,即在使用“总分平均分”的同时,用“科平均╳╳率”取代各科的“╳╳率”(计算方法见备注1)。如何把p 维指标再合成为一个“综合评价指标”?采用一些简单加权的合成方法时,由于对各指标的影响不容易作出正确的定量化的判断,及权数产生的科学性等问题,往往难以得到令人信服的科学的结果。 主成分分析是一种多元统计方法,可以将众多指标简化浓缩为少数几个甚至一个综合评价指标,使简化的指标既能基本包括全部指标具有的信息,又使指标之间相互无关。较好地解决了这一课题。 二、主成分分析的数学模型 设有n 个样品,每个样品观测p 个指标(变量):X 1,X 2,…,X p , 得到原始数据矩阵: 用数据矩阵X 的p 个列向量(即p 个指标向量)作线形组合(即综合指标向量)为: 上述方程组要求: 且系数αij 由下列原则决定: ①、F i 与F j (i ≠j ,i ,j =1,…,p )不相关; ②、F 1是X 1,X 2,…,X p 的一切线性组合(系数满足上述方程组)中方差最大的,F 2是与F 1不相关的X 1,X 2,…,X p 的一切线性组合中方差最大的,…,F p 是是与F 1,F 2,…,F p-1都不相关的X 1,X 2,…,X p 的一切线性组合中方差最大的。 ?? ? ??? ? ???? ???=np n n p p x x x x x x x x x X 2122221 11211 ??? ?? ???????=ni i i i x x x X 2 1 ?? ???? ?+++=+++=+++=p pp p p p p p p p p X a X a X a F X a X a X a F X a X a X a F 22122221122122111111 2 2221=+++pi i i a a a

主成分分析法精华讲义及实例

主成分分析 类型:一种处理高维数据的方法。 降维思想:在实际问题的研究中,往往会涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。 一、总体主成分 1.1 定义 设 X 1,X 2,…,X p 为某实际问题所涉及的 p 个随机变量。记 X=(X 1,X 2,…,Xp)T ,其协方差矩阵为 ()[(())(())], T ij p p E X E X X E X σ?∑==-- 它是一个 p 阶非负定矩阵。设 1111112212221122221122T p p T p p T p p p p pp p Y l X l X l X l X Y l X l X l X l X Y l X l X l X l X ?==+++? ==+++?? ??==+++? (1) 则有 ()(),1,2,...,, (,)(,),1,2,...,. T T i i i i T T T i j i j i j V ar Y V ar l X l l i p C ov Y Y C ov l X l X l l j p ==∑===∑= (2) 第 i 个主成分: 一般地,在约束条件 1T i i l l =

及 (,)0,1,2,..., 1.T i k i k C ov Y Y l l k i =∑==- 下,求 l i 使 Var(Y i )达到最大,由此 l i 所确定的 T i i Y l X = 称为 X 1,X 2,…,X p 的第 i 个主成分。 1.2 总体主成分的计算 设 ∑是12(,,...,) T p X X X X =的协方差矩阵,∑的特征值及相应的正交单位化特 征向量分别为 120p λλλ≥≥≥≥ 及 12,,...,, p e e e 则 X 的第 i 个主成分为 1122,1,2,...,,T i i i i ip p Y e X e X e X e X i p ==+++= (3) 此时 (),1,2,...,,(,)0,. T i i i i T i k i k V ar Y e e i p C ov Y Y e e i k λ?=∑==??=∑=≠?? 1.3 总体主成分的性质 1.3.1 主成分的协方差矩阵及总方差 记 12(,,...,) T p Y Y Y Y = 为主成分向量,则 Y=P T X ,其中12(,,...,)p P e e e =,且 12()()(,,...,),T T p Cov Y Cov P X P P Diag λλλ==∑=Λ= 由此得主成分的总方差为 1 1 1 ()()()()(),p p p T T i i i i i i V ar Y tr P P tr P P tr V ar X λ ==== =∑=∑=∑= ∑∑∑ 即主成分分析是把 p 个原始变量 X 1,X 2,…,X p 的总方差

主成分分析法matlab实现,实例演示

利用Matlab 编程实现主成分分析 1.概述 Matlab 语言是当今国际上科学界 (尤其是自动控制领域) 最具影响力、也是 最有活力的软件。它起源于矩阵运算,并已经发展成一种高度集成的计算机语言。它提供了强大的科学运算、灵活的程序设计流程、高质量的图形可视化与界面设计、与其他程序和语言的便捷接口的功能。Matlab 语言在各国高校与研究单位起着重大的作用。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。 1.1主成分分析计算步骤 ① 计算相关系数矩阵 ?? ? ???? ???? ?? ?=pp p p p p r r r r r r r r r R 2 122221 11211 (1) 在(3.5.3)式中,r ij (i ,j=1,2,…,p )为原变量的xi 与xj 之间的相关系数,其计算公式为 ∑∑∑===----= n k n k j kj i ki n k j kj i ki ij x x x x x x x x r 1 1 2 2 1 )() () )(( (2) 因为R 是实对称矩阵(即r ij =r ji ),所以只需计算上三角元素或下三角元素即可。

② 计算特征值与特征向量 首先解特征方程0=-R I λ,通常用雅可比法(Jacobi )求出特征值 ),,2,1(p i i =λ,并使其按大小顺序排列,即0,21≥≥≥≥p λλλ ;然后分别求 出对应于特征值i λ的特征向量),,2,1(p i e i =。这里要求i e =1,即112 =∑=p j ij e ,其 中ij e 表示向量i e 的第j 个分量。 ③ 计算主成分贡献率及累计贡献率 主成分i z 的贡献率为 ),,2,1(1 p i p k k i =∑=λ λ 累计贡献率为 ) ,,2,1(11 p i p k k i k k =∑∑==λ λ 一般取累计贡献率达85—95%的特征值m λλλ,,,21 所对应的第一、第二,…,第m (m ≤p )个主成分。 ④ 计算主成分载荷 其计算公式为 ) ,,2,1,(),(p j i e x z p l ij i j i ij ===λ (3)

主成分分析法PCA的原理

主成分分析法原理简介 1.什么是主成分分析法 主成分分析也称主分量分析,是揭示大样本、多变量数据或样本之间内在关系的一种方法,旨在利用降维的思想,把多指标转化为少数几个综合指标,降低观测空间的维数,以获取最主要的信息。 在统计学中,主成分分析(principal components analysis, PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 2.主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 对同一个体进行多项观察时必定涉及多个随机变量X1,X2,…,X p,它们之间都存在着相关性,一时难以综合。这时就需要借助主成分分析来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。

如何有效利用主成分分析进行综合评价

如何有效利用主成分分析进行综合评价 摘要:由于主成分分析在多元统计分析中的降维作用,使之在社会、经济、医疗、生化等 各领域运用越来越广泛,但由于传统主成分分析方法的局限性导致了一些问题的产生。这些 问题吸引了许多领域专家的关注,并具有针对性的提出了一些不同的改进方法。本文介绍了 主成分分析的基本和性质,并整理了近年来主成分分析在综合评价应用中遇到的普遍问题并整理验证了认同率较强的一些改进方法,以供大家研究学习。 关键词:主成分分析;综合评价;均值化 1引言 1.1研究的背景和意义 随着生产力的不断进步,生产方式由外延式扩张转化为追求经济效益的内涵式发展,以 致在生产过程中必须考虑经济效益的各个方面,如生产力水平、技术进步、资源占用等情况, 并需要就综合各方面的因素进行综合评价。 评价是根据确定的目的来测定对象系统的属性,并将这种属性变为客观定量的计值或者主观效用行为,整个过程离不开评价者的参与,而综合评价作为评价的一种也需要评价者做出相应反应或指示,而很多综合评价过程易受到评价者的干预,使评价结果产生偏差。 主成分分析能将高维空间的问题转化到低维空间去处理【9】,使问题变得比较简单、直 观,而且这些较少的综合指标之间互不相关,又能提供原有指标的绝大部分信息。而且,伴 随主成分分析的过程,将会自动生成各主成分的权重,这就在很大程度上抵制了在评价过程 中人为因素的干扰,因此以主成分为基础的综合评价理论能够较好地保证评价结果的客观性,如实地反映实际问题。主成分综合评价提供了科学而客观的评价方法,完善了综合评价 理论体系,为管理和决策提供了客观依据,能在很大程度上减少了上述不良现象的产生。 所以在社会经济、管理、自然科学等众多领域的多指标体系中,如节约型社会指标体系、生态环境可持续型指标体系、和谐社会指标体系、投资环境指标体系等,主成分分析法常被应用于综合评价与监控【6】。 综上所述,对综合评价指标体系理论进行研究,既有理论上的必要性,更有实践中的迫 切性。 1.2研究的发展史

主成分分析计算方法和步骤

主成分分析计算方法和步骤: 在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。 主成分分析的应用目的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。 主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征根和特征向量; ④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。 结合数据进行分析 本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了0.963,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。 表5-6 相关系数矩阵 本科院校 数招生人数教育经费投入 相关性师生比0.279 0.329 0.252 重点高校数0.345 0.204 0.310 教工人数0.963 0.954 0.896 本科院校数 1.000 0.938 0.881 招生人数0.938 1.000 0.893 教育经费投 0.881 0.893 1.000 入

主成分分析PCA(含有详细推导过程以及案例分析matlab版)

主成分分析法(PCA) 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。 I. 主成分分析法(PCA)模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。 主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求 0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。 (二)主成分分析的数学模型 对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为: ??????? ??=np n n p p x x x x x x x x x X 21 222 21112 11()p x x x ,,21=

主成分分析法介绍(高等教育)

主成分分析方法 我们进行系统分析评估或医学上因子分析等时,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。 第一节 主成分分析方法的原理 主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。假定有n 样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的数据矩阵: 111212122212.....................p p n n np x x x x x x X x x x ?? ? ?= ? ? ??? (1)

如何从这么多变量的数据中抓住事物的内在规律性呢?要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。 如果记原来的变量指标为p x x x ,,21 ,它们的综合指标——新变量指标为 21,z z ,m z (m≤p)。则 )2.........(..........22112222121212121111??? ??? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 在(2)式中,系数l ij 由下列原则来决定: (1)z i 与 z j (i≠j;i ,j=1,2,…,m)相互无关; (2)z 1是x 1,x 2,…,x p 的一切线性组合中方差最大者;z 2是与z 1不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者;……;z m 是与z 1,z 2,……z m-1都不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者。

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 公司销售净利率(X1)资产净利率(X2)净资产收益率(X3)销售毛利率(X4) 歌华有线五粮液用友软件太太药业浙江阳光烟台万华方正科技红河光明贵州茅台中铁二局红星发展伊利股份青岛海尔湖北宜化雅戈尔福建南纸43.31 17.11 21.11 29.55 11.00 17.63 2.73 29.11 20.29 3.99 22.65 4.43 5.40 7.06 19.82 7.26 7.39 12.13 6.03 8.62 8.41 13.86 4.22 5.44 9.48 4.64 11.13 7.30 8.90 2.79 10.53 2.99 8.73 17.29 7.00 10.13 11.83 15.41 17.16 6.09 12.97 9.35 14.3 14.36 12.53 5.24 18.55 6.99 54.89 44.25 89.37 73 25.22 36.44 9.96 56.26 82.23 13.04 50.51 29.04 65.5 19.79 42.04 22.72 第一,将EXCEL中的原始数据导入到SPSS软件中; 注意: 导入Spss的数据不能出现空缺的现象,如出现可用0补齐。 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。 所做工作: a. 原始数据的标准化处理

主成分分析法实例

1、主成分法: 用主成分法寻找公共因子的方法如下: 假定从相关阵出发求解主成分,设有p 个变量,则可找出p 个主成分。将所得的p 个主成分按由大到小的顺序排列,记为1Y ,2Y ,…,P Y , 则主成分与原始变量之间存在如下关系: 11111221221122221122....................p p p p p p p pp p Y X X X Y X X X Y X X X γγγγγγγγγ=+++?? =+++??? ?=+++? 式中,ij γ为随机向量X 的相关矩阵的特征值所对应的特征向量的分量,因为特征向量之间彼此正交,从X 到Y 得转换关系是可逆的,很容易得出由Y 到 X 得转换关系为: 11112121212122221122....................p p p p p p p pp p X Y Y Y X Y Y Y X Y Y Y γγγγγγγγγ=+++?? =+++??? ?=+++? 对上面每一等式只保留钱m 个主成分而把后面的部分用i ε代替,则上式变为: 111121211 2121222221122................. ...m m m m p p p mp m p X Y Y Y X Y Y Y X Y Y Y γγγεγγγεγγγε=++++??=++++????=++++? 上式在形式上已经与因子模型相一致,且i Y (i=1,2,…,m )之间相互独立,且i Y 与i ε之间相互独立,为了把i Y 转化成合适的公因子,现在要做的工作只是把主成分i Y 变为方差为1的变量。为完成此变换,必须将i Y 除以其标准差,由主成分分析的知识知其标准差即为特征根的平方根 i λ/i i i F Y λ=, 1122m m λγλγλγ,则式子变为:

主成分分析法介绍教学文稿

主成分分析法介绍

主成分分析方法 我们进行系统分析评估或医学上因子分析等时,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。 第一节 主成分分析方法的原理 主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。假定有n 样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的数据矩阵: 11121212221 2 .....................p p n n np x x x x x x X x x x ?? ? ? = ? ? ??? (1)

如何从这么多变量的数据中抓住事物的内在规律性呢?要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。 如果记原来的变量指标为p x x x ,,21 ,它们的综合指标——新变量指标为 21,z z ,m z (m≤p)。则 )2.........(..........22112222121212121111??? ?? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 在(2)式中,系数l ij 由下列原则来决定: (1)z i 与 z j (i≠j;i ,j=1,2,…,m)相互无关; (2)z 1是x 1,x 2,…,x p 的一切线性组合中方差最大者;z 2是与z 1不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者;……;z m 是与z 1,z 2,……z m-1都

主成分进行综合评价 综合评价主成分分析方法与因子分析方法的比较

主成分进行综合评价综合评价主成分分析方法 与因子分析方法的比较 统计研究 主成分分析方法和因子分析方法都是寻求从高维空间到低维空间的映射的方法,其目的是起到降维的效果,以便于用几个较少的综合指标来综合所研究总体各方面的信息,且这几个指标所代表的信息不重叠,也就是说从高维空间到低维空间的映射仍保持高维空间的“序”的结构。但这两种综合评价方法往往易混淆,本文从这两种方法的统计依据、数学模型、计算方法、综合指标的选取等方面比较它们的异同,以供初学者参考。 1、统计依据不同。主成分分析方法的统计问题:依P个指标戈l,x2,A,戈P的/7,个观察值矩阵X=G0帅,能否找到能较好地综合反映这个P 、二 指标的线性函数Y=乞atxt,即 i=1 找到这个主成分的方法就是主成分分析方法。 因子分析方法的统计问题仍 口由P个指标戈。,戈:,A,却的几个观钱道察信息阵X=GF)忡,用有限个不翠

可观测的潜在变量来解释原始变量间的相关性或协方差关系,寻求这几个公因子的方法就是因子缉含汗价士气分析劣珐乡图分奸劣珐的火仪 分析法。它的原理源于已知信息的指标向量戈=0。,戈:,A,菇P)’,总存在正交变换戈=Qy使得记x=Az,这里正交阵Q是X=G0。巾的 协方差阵y的特征向量排成的,y的各分量是不相关的,若茹的方差集中在少数几个变量三,,A,缸上,即y的特征值A,,A,A。较大,后几个特征值A㈨,A,A。很小几乎为零,于是就有因子模型算=4厂+s。寻求公因子、厂及因子载荷阵A的方法就是因子分析法。 , 2、数学模型不同。主成分分析的数学模型:Y=Eat、、ri, 1=1 即主成分是原始指标的线性函数。因子分析的数学模型:戈=4厂+£,A为因子载荷阵。厂为公因子向量,£为随机误差项,Vnroq=I。,Var=o,Var I30圈羹堑绻过丝Q丝生皇塑万 方数据=D。从形式上看二者的模型不同,但主成分分析又为因子分析中因子的寻求提供了一个有效的途径。主成分分析与因子分析法最易混淆的地方在于,将主成分分析方法与因子分析

主成分分析法概念及例题

主成分分析法 主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法 目录 [显示] 1 什么是主成分分析法 2 主成分分析的基本思想 3 主成分分析法的基本原理 4 主成分分析的主要作用 5 主成分分析法的计算步骤 6 主成分分析法的应用分析 o案例一:主成分分析法在啤酒风味评价分析中的应用[1] 1 材料与方法 2 主成分分析法的基本原理 3 主成分分析法在啤酒质量一致性评价中的应用 4 结论 7 参考文献 [编辑] 什么是主成分分析法 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 [编辑] 主成分分析的基本思想

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [编辑] 主成分分析的主要作用

R语言主成分分析的案例

R 语言主成分分析的案例
R 语言也介绍到案例篇了,也有不少同学反馈说还是不是特别明白一些基础的东西,希望能 够有一些比较浅显的可以操作的入门。其实这些之前 SPSS 实战案例都不少,老实说一旦用 上了开源工具就好像上瘾了,对于以前的 SAS、clementine 之类的可视化工具没有一点 感觉了。本质上还是觉得要装这个、装那个的比较麻烦,现在用 R 或者 python 直接简单 安装下,导入自己需要用到的包,活学活用一些命令函数就可以了。以后平台上集成 R、 python 的开发是趋势,包括现在 BAT 公司内部已经实现了。 今天就贴个盐泉水化学分析资料的主成分分析和因子分析通过 R 语言数据挖掘的小李 子: 有条件的同学最好自己安装下 R,操作一遍。 今有 20 个盐泉,盐泉的水化学特征系数值见下表.试对盐泉的水化学分析资料作主成分分 析和因子分析.(数据可以自己模拟一份)
其中 x1:矿化度(g/L);

x2:Br?103/Cl; x3:K?103/Σ 盐; x4:K?103/Cl; x5:Na/K; x6:Mg?102/Cl; x7:εNa/εCl.
1.数据准备
导入数据保存在对象 saltwell 中 >saltwell<-read.table("c:/saltwell.txt",header=T) >saltwell
2.数据分析

1 标准误、方差贡献率和累积贡献率
>arrests.pr<- prcomp(saltwell, scale = TRUE) >summary(arrests.pr,loadings=TRUE)
2 每个变量的标准误和变换矩阵
>prcomp(saltwell, scale = TRUE)
3 查看对象 arests.pr 中的内容
>> str(arrests.pr)

主成分分析在STATA中的实现以及理论介绍

主成分分析在S T A T A 中的实现以及理论介绍 文件编码(TTU-UITID-GGBKT-POIU-WUUI-0089)

第十二章 主成分分析 主成分分分析也称作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降维的思想,在损失较少信息的前提下把多个指标转化为较少的综合指标。转化生成的综合指标即称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分互不相关。Stata 对主成分分析的主要内容包括:主成分估计、主成分分析的恰当性(包括负偏协方差矩阵和负偏相关系数矩阵、KMO(Kaiser-Meyer-Olkin)抽样充分性、复相关系数、共同度等指标测度)、主成分的旋转、预测、各种检验、碎石图、得分图、载荷图等。 p j n i b a y ij j i ij ,,2,1,,2,1,' ==+=ε 主成分的模型表达式为: p p j i i i i diag v v v v i p V V C λλλλλλλ≥≥≥=∧='' ==∧=∑ 2121),,,,(0 1 其中,a 称为得分,b 称为载荷。主成分分析主要的分析方法是对相关系数矩阵(或协方差矩阵)进行特征值分析。

Stata中可以通过负偏相关系数矩阵、负相关系数平方和KMO值对主成分分析的恰当性进行分析。负偏相关系数矩阵即变量之间两两偏相关系数的负数。非对角线元素则为负的偏相关系数。如果变量之间存在较强的共性,则偏相关系数比较低。因此,如果矩阵中偏相关系数较高的个数比较多,说明某一些变量与另外一些变量的相关性比较低,主成分模型可能不适用。这时,主成分分析不能得到很好的数据约化效果。 Kaiser-Meyer-Olkin抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标,是通过比较两个变量的相关系数与偏相关系数得到的。KMO介于0于1之间。KMO越高,表明变量的共性越强。如果偏相关系数相对于相关系数比较高,则KMO比较低,主成分分析不能起到很好的数据约化效果。根据Kaiser(1974),一般的判断标准如下:不能接受(unacceptable);非常差(miserable);,勉强接受(mediocre);可以接受(middling);,比较好(meritorious);非常好(marvelous)。 SMC即一个变量与其他所有变量的复相关系数的平方,也就是复回归方程的可决系数。SMC比较高表明变量的线性关系越强,共性越强,主成分分析就越合适。

基于主成分法的学生成绩综合评价

现代经济信息 一、引言 在经济全球化和社会分工越来越细化的当今社会,人力资源已成为人类的第一宝贵资源。作为高素质人才主要培养基地的高等院校,如何科学地评价大学生的综合成绩成为当前各高校在全面推进素质教育过程中所面临的问题之一。传统的以多门课程总平均分排名的评价方法,比较笼统,为了尽可能全面、科学地反映被评价对象的情况,往往需要选取众多的指标构成评价体系,但是,过多的指标不仅会增加评价的工作量,还会因评价指标间的相关性造成评价信息相互重叠、相互干扰,从而难以客观地反映被评价对象的真实水平。本文认为可以使用主成分分析法解决此类问题。 二、主成分分析方法简介 主成分分析,是利用降维的方法,将多个指标转化为少数几个综合指标,去解释原始资料中的大部分变异的一种方法。在实际问题中,为了全面、系统地分析问题,通常必须考虑众多的影响因素,这些影响因素一般被称为指标或者变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。因此,把这些变量转化成彼此不相关的变量,然后从中选出比原始变量个数少、却能解释原始资料中大部分变异的几个新变量,即所谓的主成分,从而达到降维和简化问题分析的目的。 具体而言,主成分分析法是通过数学变换把给定的一组相关变量通过线性变换转成另一组不相关的变量,并按方差依次递减的顺序排列,找到第一、第二、…第 k个主成分,然后计算因子载荷矩阵,建立主成分模型,最后按因子得分及贡献率的大小,计算综合得分并进行排序。 三、高校学生成绩综合评价应用 (一)研究的对象及指标的选择 本文以贵州航天职业技术学院11级社区管理与服务班在2011—2012学年的13门主要课程考试成绩为研究对象,借助统计软件进行主成分分析,计算出主成分得分,并按主成分得分对学生进行了排名。班上共有28名同学,将这28名同学作为总体,13门主要课程具体为:大学英语Ⅰ(x1)、思想道德修养与法律基础(x2)、管理学原理(x3)、社区管理学(x4)、社会工作法律实务(x5)、应用统计学(x6)、体育(x7)、社会心理学(x8)、服务礼仪(x9)、高等数学(x10)、团队建设(x11)、大学英语Ⅱ(x12)、大学语文(x13),学生姓名用序号1、2、… 28表示,用xij 表示第i个同学在第j 门课上的得分,则x=(xij)28×l3,这样就得到了一 个28×13的原始数据矩阵。见表1。 (二)主成分分析过程 将原始数据标准化,用计算机求出标准化矩阵的相关系数矩阵;求相关矩阵的特征值,确定主成分个数。(见表2) 基于主成分分析法的学生成绩综合评价 李 畅 贵州航天职业技术学院 摘要:以贵州航天职业技术学院2011级社区管理与服务班在2011—2012学年的13门主要课程考试成绩为研究对象,借助统计软件进行主成分分析,计算出主成分得分,并按主成分得分对学生进行了排名。为使成绩评价更具科学性、客观性和合理性,还将平均分和综合分比对,进行综合评价与分析,为教学研究、学生管理及就业指导提供科学依据。 关键词:主成分分析法;学习成绩;评价 中图分类号:G455 文献标识码:A 文章编号:1001-828X(2013)07-0408-03 408

相关文档
相关文档 最新文档