文档库 最新最全的文档下载
当前位置:文档库 › 主成分分析数据的标准化与非标准化的对比分析

主成分分析数据的标准化与非标准化的对比分析

主成分分析数据的标准化与非标准化的对比分析
主成分分析数据的标准化与非标准化的对比分析

主成分分析的基本理论

假设我们所讨论的实际问题中有p 个指标,我们把这p 个指标看作p 个随机变量,记为12,,

P X X X 。这p 个指标构成的p 维随机向量为12(,,

)'P X X X X =.

设随机向量X 的均值为μ,协方差为∑。

对X 进行线性转换,可以形成新的综合变量,用Y 表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足

11112121212122221122p p

p p p p p pp p

Y u X u X u X Y u X u X u X Y u X u X u X =+++=+++=++

+

由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量Y 的统计特征也不尽相同。因此为了取得较好的效果,我们总是希望

'i i Y u X =的方差尽可能大且各j Y 之间互相独立,由于

var()var(')'i i i i Y u X u u ==∑

而对任给的常数c ,有2var(')''i i i i i cu X cu u c c u u =∑=∑

因此对i u 不加限制时,可使var()i Y 任意增大,问题将变得没有意义。我们将线性变换约束在下面原则下:

1. 每个主成分的系数平方和为1,'1i i u u =即22

2121i i pi u u u ++

+=

2. 主成分之间相互独立,即无重叠的信息。即

012)i j Cov F F i j i j p =≠=(,),(;,,,

3. 主成分的方差依次递减,重要性依次递减,1Y 是12,,

P X X X 所有线性组合

中方差最大者;即2Y 是与1Y 不相关的12,,P X X X 所有线性组合中方差最大者;

1p Y -是与121,,

,p Y Y Y -不相关的12,,P X X X 所有线性组合中方差最大

者。12()()p Var

F Var F Var F ≥≥≥()

基于以上三条原则决定的综合变量12,,

,p Y Y Y 分别为原始变量的第一、二、

第p 主成分。其中,各综合变量在总方差中占得比重依次递减。

主成分分析基本思想是在力保数据信息损失最少的原则下,把多个指标转化为少数几个综合指标的一种对多变量数据进行最佳综合简化。对于随机变量

12,,

,P X X X 而言,其协方差矩阵或相关矩阵正是对个变量离散程度与变量之间

的相关程度的信息的反映,而相关矩阵是将原始变量标准化后的协方差矩阵。本

文所要讨论的主成分分析数据的标准化与非标准化的对比分析本质上就是对原始变量的协方差矩阵以及相关矩阵求解主成分进行对比分析。下面就对二者进行讨论。

主成分求解

一、从协方差矩阵出发求解主成分

(一)第一主成分:

设X 的协方差阵为: 1112121

22

212

P P X P P PP σσσσσσσσσ??????

∑=??

?

???

由于x ∑为非负定的对称阵,则有利用线性代数的知识可得,必存在正交

阵U ,使得 100p λλ???

?'=?

????

?

X U ΣU 其中12,,,p λλλ???为x ∑的特征根,不妨假设12p λλλ≥≥???≥。而U 恰好是由特征根相对应的特征向量所组成的正交阵。

1112

12122212(,,)p p p p pp u u u u u u u u u ??????==????????

1p U u u ()121,2,,i i pi u u u i P '

==i U ,,,

下面我们来看,是否由U 的第一列元素所构成为原始变量的线性组合是否有最大的方差。

设有P 维正交向量(

)111211,,

,p a a a '=a

11111'p p Y a X a X a X =++???+=

1

2

11111()p V Y λλλ??

?

?'''=∑=?????

?

a a a U U a

12

1

2

1111

111

()()p

i i i i p

i i i p

i i p

i i i λλλλλλλ====''='='≤''='''===∑∑∑∑a u u a

a u a u a u u a

a UU a a a

当且仅当11a u =时,即11111p p Y u X u X =++时,有最大的方差1λ。因为

1111()'Var F U xU λ=∑=如果第一主成分的信息不够,则需要寻找第二主成分。

(二) 第二主成分

在约束条件12cov(,)0Y Y =下,寻找第二主成分 21212p p Y u X u X =++

因为121221121cov(,)cov(,)0Y Y u x u x u u u u λ''''==∑== 所以210u u '=

则,对p 维向量2u ,有2

2222221

1

()()p p

i i i i i i i V Y u u λλ==''''=∑=

=∑∑u u u u u u 22222221

p

i i i λλλλ='''''====∑222u u u u u UU u u u

所以如果取线性变换:21212222p p Y u X u X u X =+++则2Y 的方差次大。

类推11112121212122221122p p

p p p p p pp p

Y u X u X u X Y u X u X u X Y u X u X u X

=+++=+++=+++

写为矩阵形式:Y '=U X

11

12

121

2221

2

(,

,)p p p p pp u u u u u u u u u ????==??????

1p U u u

12(,,

,)p X X X '=X

上述推导表明:变量x 的主成分y 是以∑的特征向量为系数的线性组合,它们互不相关,方差为∑的特征根。而∑得特征根120p λλλ≥≥???≥>,所以

12()()()0p Var y Var y Var y ≥≥???≥>。

二、由相关系数矩阵求解主成分

当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。

量纲对于主成分分析的影响及消除方法——对数据进行标准化处理,以使每一个变量的均值为0,方差为1。

()*()

i i i i X E X X D X -=

数据标准化后,总体的协方差矩阵与总体的相关系数相等。

********

121**1221212112212cov(,)(())(())(())

1

1cov(,)11

1

1i j i i j j i j p p ij i j p p p p p p X X E X E X X E X E X X X X ρρρρρρρρρρρρρ'=--=????===??????????=??????

案例背景

根据35个主要城市2001年关于年底总人口数、国内生产总值、工业总产值、客运总量、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民年底储蓄余额、在岗职工人数总额10个指标的数据,分别用原始变量的协方差矩阵和相关矩阵求解主成分。(数据见附页)

数据来源及说明

采用的数据主要是中华人民共和国统计局网上搜集的,关于35个主要城市2001年年底总人口数、国内生产总值、工业总产值、客运总量、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民年底储蓄余额、在岗职工人数总额10个指标的数据。

分析样例

分别从协方差矩阵和相关矩阵出发对求解主成分(对比)的步骤: 根据原始数据计算协方差矩阵 命令代码:

得到原始数据协方差矩阵是:

利用标准化数据求解的协方差矩阵(原始数据的相关矩阵)的命令代码就只需将上面的代码中b=cov(a);改为b=corrcoef(zscore(a));即可。

得到原始数据相关矩阵是:

由上面的协方差矩阵可以看出各个变量之间的离散程度很大,说明变量之间

相关程度不大。然而在相关矩阵中可以看出除了第四个变量与其他变量离散程度大,其余变量之间都有很强的相关性,相关系数在0.7以上。这个结果与协方差

矩阵有截然不同的解释。这是因为原始数据各项指标的受不同度量尺度的影响。

由原始数据协方差出发求解主成分,得到如下结果:

特征根解释方差比例累积比例

2.32E+14 0.92807854916 0.92807854916

1.75E+13 0.070005925045 0.99808447421

3.58E+11 0.0014321212095 0.99951659542

8.76E+10 0.00035042965908 0.99986702507

3.31E+10 0.0001324112068 0.99999943628

1.17E+08 4.6803961315E-07 0.99999990432

2.39E+07 9.5608091918E-08 0.99999999993

13259 5.3040489152E-11 0.99999999998

4326.9 1.7309064976E-11 1

87.357 3.4945757681E-13 1

其对应特征值的标准正交特征向量见下表:

特征根1 特征根2 特征根3 特征根4 特征根5 1.47E-05 1.43E-05 -8.70E-05 -0.0001590.0005036 6.09E-05 1.12E-05 -8.71E-05 -0.000267-0.000159 0.85463 -0.50078 0.13407 -0.0035160.029032 9.71E-05 0.0008170-0.004133-0.018148 0.012006 0.0005517 0.0001702-0.001924-0.0061540.015777 0.081264 0.039067 -0.19233 0.61971 -0.75514 0.23758 0.16555 -0.90746 -0.30384 0.015577 0.44485 0.83641 0.29955 -0.094259 -0.062501 3.66E-06 8.62E-06 -6.56E-06 2.97E-05 0.0001047 0.093096 0.14387 -0.17836 0.7172 0.65145 特征根6 特征根7 特征根8 特征根9 特征根10 0.0023663 -0.009481-0.82762 0.55588 0.077126 -0.001383-0.008246-0.55461 -0.83118 0.038452 0.00026260.0007210 1.60E-05 1.91E-05 -9.78E-07

0.9531 0.30182 -0.002622-0.002828-1.21E-05 0.30157 -0.95321 0.01229 0.0007504-8.25E-05 0.023198 -0.008721-0.0002620.0001939-2.37E-05 -0.010379 0.00093730.00018939.05E-05 -1.63E-05 -0.000248-0.000702 1.37E-05 5.30E-05 -2.41E-06 9.31E-05 -0.000976-0.085475 0.010953 -0.99628 0.0022321 0.0072965 -3.98E-05 -0.0003748.50E-05 因此所得的主成分的表达式是

))(0550.8())(0778.9())(038452.0())(077126.0()(14387.0)(50078.0))(0512.1)()(0543.1()

(093096.0)(85463.0))(0509.6())(0547.1(1010332211101010332211210103322111X X E X X E X X X X Y X X X X X X E X X E Y X X X X X X E X X E Y --++----+-=-++------=-++-+--+--=

其中第一主成分保留了原有变量的92.8%的信息,所以在分析中可以把第二主成分舍掉,这样就达到了简化问题的目的。第一主成分与原是变量的因子负荷分别

0.9069

/,0.7823/,0.8880/,0.9712/, 0.9709/,0.7789/,0.1161/,0.9871/,0.987805+8.82E /14+2.32E 05)-6.09E (/,0.790504+8.04E /14+2.32E )0547.1(/,10,10110,1101991199188118817711771661166155115514411441331133122112211111111=================?===?-==σλγρσλγρσλγρσλγρσλγρσλγρσλγρσλγρσλγρσλγρ)()()()()()()()()()(X Y X Y X Y X Y X Y X Y X Y X Y X Y E X Y

注:其中i λ为第i 个特征根ij γ为标准正交化后的特征向量阵中第i 行第j 列元素,ii σ为第i 个变量的方差(i ,j=1,2, (10)

由此可见,第一主成分反映了年底总人口数指标的79.05%、国内生产总值指标的98.78%、工业总产值指标的98.71%、货运总量指标的77.89%、地方财政预算内收入指标的97.09%、固定资产投资总额指标的97.12%、城乡居民年底储蓄余额指标的88.8%、在岗职工平均人数指标的78.23%、在岗职工人数总额90.69%。所以第一主成分可以看成是年底总人口数、国内生产总值、工业总产值、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民年底储蓄余额、在岗职工平均人数、在岗职工人数总额的综合变量。它在很大程度上起到了及降维的作用,利用一个综合变量解释了九个原始变量。而主成分分析是利用利用降维的思想,在力保数据信息损失最少的原则下,把多个指标转化为少数几个综合指标的一种对多变量数据进行最佳综合简化的多元统计方法,本次主成分提取为解释原有的所有变量。因此此次用协方差矩阵求解的主成分不是很好。现就对原始数据相关矩阵进行分析。

而由原始数据相关矩阵得到如下结果:

特征根 解释方差比例 累积比例 7.905 0.79052396843 0.79052396843 1.140 0.11396057208 0.90448454051 0.444 0.044361222693 0.94884576321 0.316 0.0315******** 0.98041992171 0.113 0.011269056571 0.99168897828 0.040 0.0039539198487 0.99564289813 0.025 0.0025293126971 0.99817221082 0.009 0.00090781455723 0.99908002538 0.008 0.00076104382044 0.9998410692 0.002 0.00015893079783 1 其对应特征值的标准正交特征向量见下表: 特征根1 特征根2 特征根3 特征根4 特征根5 0.31814 -0.20773 0.017309 0.57143 -0.63586 0.34386 0.11973 -0.26907 -0.10769 -0.1784 0.32335 0.1947 -0.49469 -0.13234 -0.13858 0.09221 -0.87202 -0.02776-0.45025 -0.1076 0.30271 -0.29124 -0.36861 0.45627 0.68279 0.33953 0.20376 -0.07807-0.2786 0.055802 0.35057 0.080886 -0.05628-0.17786 -0.10276 0.3389 0.04747 0.34361 -0.22268 0.14908 0.3233 -0.039680.56563 0.24114 0.070397 0.34396 0.08645 0.31413 -0.12828 0.1613 特征根6 特征根7 特征根8 特征根9 特征根10 0.083609 0.19101 0.28379 -0.01355 0.016935 0.36397 -0.15598 -0.51073 -0.368 0.44555 -0.34795 -0.56966 0.26936 0.20629 -0.12414 -0.10798 -0.04878-0.01277-0.03723 0.020233 0.079401 0.080728 0.0048450.006211-0.02020-0.3313 0.51701 0.19396 -0.55239 -0.1912 0.11647 0.36385 -0.43056 0.58624 -0.38753 0.63387 -0.2398 0.40302 -0.06921-0.25789 -0.39587 -0.35638 -0.39327 -0.17326 -0.20607 -0.19917 0.14688 0.21397 0.36984 0.69947 因此所得的主成分的表达式是

)(69947.0)(12414.0)(44555.0)(016935.0)(08645.0)(1947.0)(11973.0)(20773.0)

(34396.0)(32335.0)(34386.0)(31814.01010332211101010332211210103322111X X X X X X X X Y X X X X X X X X Y X X X X X X X X Y -++---+-=-++-+-+--=-++-+-+-=

其中第一、二主成分保留了原有变量90.45%的信息,所以在分析中可以把第一、二主成份提取出来,这样就达到了降维的目的。第一、二主成分与原是变量的因子负荷分别为

利用上面求因子负荷方法求得下表

第一主成分第二主成分

0.89448838939 0.22175603172

0.96680322366 -0.33663511304

0.90913692308 -0.54742217079

0.25925936501 0.93089921909

0.85110511206 0.31090466798

0.95462891447 -0.21751797537

0.98566918548 -0.086347462484

0.95285759466 -0.050675197737

0.90899634214 0.042364550709

0.96708438553 -0.092287146499

由上表可知第一主成分反映了年底总人口数指标的89.45%、国内生产总值指标的96.68%、工业总产值指标的90.91%、货运总量指标的85.11%、地方财政预算内收入指标的95.46%、固定资产投资总额指标的98.57%、城乡居民年底储蓄余额指标的95.29%、在岗职工平均人数指标的90.90%、在岗职工人数总额96.71%。所以第一主成分可以看成是年底总人口数、国内生产总值、工业总产值、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民年底储蓄余额、在岗职工平均人数、在岗职工人数总额的综合变量。第二主成份反映了客运总量指标的93.09%。这说明第一、二两个主成分共同解释了原是变量的所有指标,也就是起到了降维作用,而不想协方差矩阵求解主成分那样,并没有把所有变量解释完整。

总结

一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标不直接由其协方差矩阵出发进行主成分分析,而应该考虑对数据的标准化。在本文中采用的例子就是度量单位不同,有万人、万吨、万元、亿元,而数据见的差异性也非常大,小则65.49大则13618179,。因此在用协方差矩阵求解主成分时存在协方差矩阵中数据的差异性很大。在后面提取主成分时发现,只提取了一个主成分,而此时并不能将所有的变量都解释到,这就没有真正起到降维的作用。但是在用相关矩阵求解主成分时发现,提取了两个主成分后可以很好地将所有变量都解释了,进而起到降维的作用,这就实现主成分分析的最终目的。

但是对原始数据进行标准化后更倾向于各个指标的作用在主成分分析夫人构成中相等。对于数据取值范围不大或是度量单位相同的指标进行标准化处理后,其主成分分析的结果与仍由协方差矩阵出发求得的结果有较大区别。这是因为对数据标准化的过程实际上就是抹杀原是变量离散程度差异的过程,标准化后方差均为1,而实际上方差是对数据信息的重要概括形式,也就是说,对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在主成分构成中的作用趋于相等。因此,对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。

附录

年末总人口数(万人)

地区生

产总值

(GDP)

(亿元)

限额以上

工业总产

值(万元)

客运总

量(万

吨)

货运总量

(万吨)

地方财

政预算

内收入

(万元)

固定资产

投资总额

(万元)

城乡居民

储蓄年末

余额(万

元)

在岗职

工平均

人数(万

人)

在岗职工

工资总额

(万元)

北京市988.1 2697.94 27383005 22469 30550 4541676 13618179 35363232 385 7511091 天津市747.99 1649.94 26635642 3302 28151 1575648 5957854 11483600 178.52 2580319 石家庄195 462.8204674185 12718 12415 267217 1622339 3943653 57.57 668230 太原市239.2 328.871 3041318 2670 15170 191258 1116902 4212482 76.44 741534 呼和浩108.38 147.459822266 2859 2415 115899 694792 1561842 25.28 314460 沈阳市487.68 1057.157290387 6742 15156 786436 2697189 9848906 109.36 1270250 大连市270.68 933.131******** 11232 19736 837902 2363574 6452031 73.2 1047008 长春市298.02 732.6299002623 7522 10346 52159 1862037 5064461 74.56 919125 哈尔滨307.39 633.6584027314 6374 8814 524742 2417127 6318358 129.13 1343357 上海市1262.41 4893.01 69355680 6324 49499 6138500 18132746 27818200 235.09 6152145 南京市371.89 981.75915792063 16198 14120 1016425 3681075 6473958 88.15 1517214 杭州市379.49 1195.1616156245 20342 15841 884738 4132806 7976400 67.49 1279750 宁波市126.13 581.3157515766 23224 11182 605456 2156258 2939154 31.79 633904 合肥市137.95 269.2993301429 5141 2903 230490 1142612 1860466 33.71 364216 福州市153.77 507.3443795136 10172 7280 486042 1485363 3510487 45.71 617604 厦门市134.36 558.3268032877 4700 2547 653090 1842512 2622327 49.4 823834 南昌市174.68 343.5872388150 4351 3246 173281 627397 2497600 44.63 480685 济南市322.45 820.1276169652 6300 13057 490001 2388062 4474051 65.85 836911 青岛市237.62 700.83412120173 15166 29068 738006 2020380 4017218 63.5 949555 郑州市229.03 388.1232618010 11589 7373 379797 1440263 5011382 57.4 650500 武汉市758.23 1347.8010208352 11703 16244 861586 4855027 8019988 137.12 1551442 长沙市180.77 468.8732417588 8578 7550 346070 1890677 3576237 44.93 584165 广州市576.97 2448.9924469713 24451 24500 2382192 9422360 24515484 155.59 3661564 深圳市132.04 1954.17 30796298 9869 5167 2656532 6466933 13733900 94.13 2441713 南宁市137.85 242.2581093949 5266 3371 202679 804615 2427374 32.91 365956 海口市60.2 145.6451001338 6635 2018 163632 721010 1801381 17.87 233317 重庆市903.09 879.82 8708192 60087 29470 393000 3313288 7209600 123.47 1283975 成都市341.52 777.5254122258 52467 23724 503207 3877200 6665800 81.32 1096987 贵阳市191.05 249.0022079492 17334 4885 246106 1331253 2193291 41.2 438633 昆明市215.2 523.002 3037762 6437 12084 499548 1672584 4123894 61.32 780846 西安市400.08 634.94 4491390 9079 7728 515126 2269105 7140541 101.25 1130403 兰州市187.06 306.4883543034 2141 5401 180841 1541532 3155479 49.62 525485 西宁市95.89 70.6574 380018 2400 1837 63801 515987 1110932 16.69 204063 银川市65.49 82.8467 777427 2551 1573 103303 481797 989652 19.09 209061 乌鲁木159.13 310.4762511914 2346 9283 295986 1393667 2815947 48.97 633932

主成分分析法matlab实现,实例演示

利用Matlab 编程实现主成分分析 1.概述 Matlab 语言是当今国际上科学界 (尤其是自动控制领域) 最具影响力、也是 最有活力的软件。它起源于矩阵运算,并已经发展成一种高度集成的计算机语言。它提供了强大的科学运算、灵活的程序设计流程、高质量的图形可视化与界面设计、与其他程序和语言的便捷接口的功能。Matlab 语言在各国高校与研究单位起着重大的作用。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。 1.1主成分分析计算步骤 ① 计算相关系数矩阵 ?? ? ???? ???? ?? ?=pp p p p p r r r r r r r r r R 2 122221 11211 (1) 在(3.5.3)式中,r ij (i ,j=1,2,…,p )为原变量的xi 与xj 之间的相关系数,其计算公式为 ∑∑∑===----= n k n k j kj i ki n k j kj i ki ij x x x x x x x x r 1 1 2 2 1 )() () )(( (2) 因为R 是实对称矩阵(即r ij =r ji ),所以只需计算上三角元素或下三角元素即可。

② 计算特征值与特征向量 首先解特征方程0=-R I λ,通常用雅可比法(Jacobi )求出特征值 ),,2,1(p i i =λ,并使其按大小顺序排列,即0,21≥≥≥≥p λλλ ;然后分别求 出对应于特征值i λ的特征向量),,2,1(p i e i =。这里要求i e =1,即112 =∑=p j ij e ,其 中ij e 表示向量i e 的第j 个分量。 ③ 计算主成分贡献率及累计贡献率 主成分i z 的贡献率为 ),,2,1(1 p i p k k i =∑=λ λ 累计贡献率为 ) ,,2,1(11 p i p k k i k k =∑∑==λ λ 一般取累计贡献率达85—95%的特征值m λλλ,,,21 所对应的第一、第二,…,第m (m ≤p )个主成分。 ④ 计算主成分载荷 其计算公式为 ) ,,2,1,(),(p j i e x z p l ij i j i ij ===λ (3)

SPSS主成分分析操作步骤,详细的很啊^_^==

SPSS主成分分析操作步骤,详细的很啊^_^ SPSS在调用Factor Analyze过程进行分析时,SPSS会自动对原始数据进行标准化处理,所以在得到计算结果后指的变量都是指经过标准化处理后的变量,但SPSS不会直接给出标准化后的数据,如需要得到标准化数据,则需调用Descriptives过程进行计算。 图表 3 相关系数矩阵

图表 4 方差分解主成分提取分析表 主成分分析在SPSS中的操作应用(3) 图表 5 初始因子载荷矩阵

从图表3可知GDP与工业增加值,第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系,与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强,证明他们存在信息上的重叠。 主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。注:特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1作为纳入标准。通过图表4(方差分解主成分提取分析)可知,提取2个主成分,即m=2,从图表5(初始因子载荷矩阵)可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷,说明第一主成分基本反映了这些指标的信息;人均GDP和农业增加值指标在第二主成分上有较高载荷,说明第二主成分基本反映了人均GDP和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息,所以决定用两个新变量来代替原来的十个变量。但这两个新变量的表达还不能从输出窗口中直接得到,因为“Component Matrix”是指初始因子载荷矩阵,每一个载荷量表示主成分与对应变量的相关系数。用图表5(主成分载荷矩阵)中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数[2]。将初始因子载荷矩阵中的两列数据输入(可用复制粘贴的方法)到数据编辑窗口(为变量B1、B2),然后利用“TransformàCompute Variable”,在Compute Variable对话框中输入“A1=B1/SQR(7.22)” [注:第二主成分SQR后的括号中填1.235],即可得到特征向量A1(见图表6)。同理,可得到特征向量A2。将得到的特征向量与标准化后的数据相乘,然后就可以得出主成分表达式[注:因本例只是为了说明如何在SPSS进行主成分分析,故在此不对提取的主成分进行命名,有兴趣的读者可自行命名]: F 1=0.353ZX 1 +0.042ZX 2 -0.041ZX 3 +0.364ZX 4 +0.367ZX 5 +0.366ZX 6 +0.352ZX 7 +0.364ZX 8+0.298ZX 9 +0.355ZX 10

主成分分析法总结

主成分分析法总结 在实际问题研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。 因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息? 一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点: ↓主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关 通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性 总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。 主成分分析的具体步骤如下: (1)计算协方差矩阵 计算样品数据的协方差矩阵:Σ=(s ij )p ?p ,其中 1 1()() 1n ij ki i kj j k s x x x x n ==---∑i ,j=1,2,…,p (2)求出Σ的特征值 i λ及相应的正交化单位特征向量i a Σ的前m 个较大的特征值λ1≥λ2≥…λm>0,就是前m 个主成分对应的方差,i λ对应的单 位特征向量 i a 就是主成分Fi 的关于原变量的系数,则原变量的第i 个主成分Fi 为:

SPSS进行主成分分析的步骤 图文

主成分分析的操作过程 原始数据如下(部分) 调用因子分析模块(Analyze―Dimension Reduction―Factor),将需要参与分析的各个原始变量放入变量框,如下图所示: 单击Descriptives按钮,打开Descriptives次对话框,勾选KMO and Bartlett’s test of sphericity选项(Initial solution选项为系统默认勾选的,保持默认即可),如下图所示,然后点击Continue按钮,回到主对话框: 其他的次对话框都保持不变(此时在Extract次对话框中,SPSS已经默认将提取公因子的方法设置为主成分分析法),在主对话框中点OK按钮,执行因子分析,得到的主要结果如下面几张表。 ①KMO和Bartlett球形检验结果: KMO为0.635>0.6,说明数据适合做因子分析;Bartlett球形检验的显着性P值为 0.000<0.05,亦说明数据适合做因子分析。 ②公因子方差表,其展示了变量的共同度,Extraction下面各个共同度的值都大于0.5,说明提取的主成分对于原始变量的解释程度比较高。本表在主成分分析中用处不大,此处列出来仅供参考。 ③总方差分解表如下表。由下表可以看出,提取了特征值大于1的两个主成分,两个主成分的方差贡献率分别是55.449%和29.771%,累积方差贡献率是85.220%;两个特征值分别是3.327和1.786。 ④因子截荷矩阵如下: 根据数理统计的相关知识,主成分分析的变换矩阵亦即主成分载荷矩阵U与因子载荷矩阵A以及特征值λ的数学关系如下面这个公式: 故可以由这二者通过计算变量来求得主成分载荷矩阵U。 新建一个SPSS数据文件,将因子载荷矩阵中的各个载荷值复制进去,如下图所示: 计算变量(Transform-Compute Variables)的公式分别如下二张图所示: 计算变量得到的两个特征向量U1和U2如下图所示(U1和U2合起来就是主成分载荷矩阵):所以可以得到两个主成分Y1和Y2的表达式如下: Y1=0.456X1+0.401X2+0.428X3+0.490X4+0.380X5+0.253X6 Y2=-0.367X1+0.322X2-0.323X3-0.303X4+0.453X5+0.602X6 由上面两个表达式,可以通过计算变量来得到Y1、Y2的值。需要注意的是,在计算变量之前,需要对原始变量进行标准化处理,上述Y1、Y2表达式中的X1~X9应为各原始变量的标准分,而不是原始值。(另外需注意,本操作需要在SPSS原始文件中来进行,而不是主成分载荷矩阵的那个SPSS数据表中。) 调用描述统计:描述模块(Analyze-Descriptive Statistics-Descriptives),将各个原始变量放入变量框,并勾选Save standardized values as variables框,如下图所示: 得到各个原始变量的标准分如下图(部分): Z人均GDP即为X1,Z固定资产投资即为X2,其余类推。 调用计算变量模块(Transform-Compute Variables),输入公式如下图所示: 计算出来的主成分Y1、Y2如下图所示:

主成分分析法精华讲义及实例

主成分分析 类型:一种处理高维数据的方法。 降维思想:在实际问题的研究中,往往会涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。 一、总体主成分 1.1 定义 设 X 1,X 2,…,X p 为某实际问题所涉及的 p 个随机变量。记 X=(X 1,X 2,…,Xp)T ,其协方差矩阵为 ()[(())(())], T ij p p E X E X X E X σ?∑==-- 它是一个 p 阶非负定矩阵。设 1111112212221122221122T p p T p p T p p p p pp p Y l X l X l X l X Y l X l X l X l X Y l X l X l X l X ?==+++? ==+++?? ??==+++? (1) 则有 ()(),1,2,...,, (,)(,),1,2,...,. T T i i i i T T T i j i j i j V ar Y V ar l X l l i p C ov Y Y C ov l X l X l l j p ==∑===∑= (2) 第 i 个主成分: 一般地,在约束条件 1T i i l l =

及 (,)0,1,2,..., 1.T i k i k C ov Y Y l l k i =∑==- 下,求 l i 使 Var(Y i )达到最大,由此 l i 所确定的 T i i Y l X = 称为 X 1,X 2,…,X p 的第 i 个主成分。 1.2 总体主成分的计算 设 ∑是12(,,...,) T p X X X X =的协方差矩阵,∑的特征值及相应的正交单位化特 征向量分别为 120p λλλ≥≥≥≥ 及 12,,...,, p e e e 则 X 的第 i 个主成分为 1122,1,2,...,,T i i i i ip p Y e X e X e X e X i p ==+++= (3) 此时 (),1,2,...,,(,)0,. T i i i i T i k i k V ar Y e e i p C ov Y Y e e i k λ?=∑==??=∑=≠?? 1.3 总体主成分的性质 1.3.1 主成分的协方差矩阵及总方差 记 12(,,...,) T p Y Y Y Y = 为主成分向量,则 Y=P T X ,其中12(,,...,)p P e e e =,且 12()()(,,...,),T T p Cov Y Cov P X P P Diag λλλ==∑=Λ= 由此得主成分的总方差为 1 1 1 ()()()()(),p p p T T i i i i i i V ar Y tr P P tr P P tr V ar X λ ==== =∑=∑=∑= ∑∑∑ 即主成分分析是把 p 个原始变量 X 1,X 2,…,X p 的总方差

主成分分析法PCA的原理

主成分分析法原理简介 1.什么是主成分分析法 主成分分析也称主分量分析,是揭示大样本、多变量数据或样本之间内在关系的一种方法,旨在利用降维的思想,把多指标转化为少数几个综合指标,降低观测空间的维数,以获取最主要的信息。 在统计学中,主成分分析(principal components analysis, PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 2.主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 对同一个体进行多项观察时必定涉及多个随机变量X1,X2,…,X p,它们之间都存在着相关性,一时难以综合。这时就需要借助主成分分析来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。

主成分分析法实例

1、主成分法: 用主成分法寻找公共因子的方法如下: 假定从相关阵出发求解主成分,设有p 个变量,则可找出p 个主成分。将所得的p 个主成分按由大到小的顺序排列,记为1Y ,2Y ,…,P Y , 则主成分与原始变量之间存在如下关系: 11111221221122221122....................p p p p p p p pp p Y X X X Y X X X Y X X X γγγγγγγγγ=+++?? =+++??? ?=+++? 式中,ij γ为随机向量X 的相关矩阵的特征值所对应的特征向量的分量,因为特征向量之间彼此正交,从X 到Y 得转换关系是可逆的,很容易得出由Y 到 X 得转换关系为: 11112121212122221122....................p p p p p p p pp p X Y Y Y X Y Y Y X Y Y Y γγγγγγγγγ=+++?? =+++??? ?=+++? 对上面每一等式只保留钱m 个主成分而把后面的部分用i ε代替,则上式变为: 111121211 2121222221122................. ...m m m m p p p mp m p X Y Y Y X Y Y Y X Y Y Y γγγεγγγεγγγε=++++??=++++????=++++? 上式在形式上已经与因子模型相一致,且i Y (i=1,2,…,m )之间相互独立,且i Y 与i ε之间相互独立,为了把i Y 转化成合适的公因子,现在要做的工作只是把主成分i Y 变为方差为1的变量。为完成此变换,必须将i Y 除以其标准差,由主成分分析的知识知其标准差即为特征根的平方根 i λ/i i i F Y λ=, 1122m m λγλγλγ,则式子变为:

spss进行主成分分析及得分分析

spss进行主成分分析及得分分析 1 将数据录入spss 1. 2 数据标准化:打开数据后选择分析→描述统计→描述,对数据进行标准化,选中将标准化得分另存为变量: 2.3 进行主成分分析:选择分析→降维→因子分析,

3.4设置描述性,抽取,得分和选项:

4.5 查看主成分分析和分析: 相关矩阵表明,各项指标之间具有强相关性。比如指标GDP总量与财政收入、固定资产投资总额、第二产业增加值、第三产业增加值、工业增加值的相关系数较大。这说明他们之间指标信息之间存在重叠,适合采用主成分分析法。(下表非完整呈现)

5.6 由Total Variance Explained(主成分特征根和贡献率)可知,特征根λ1=9.092,特征根λ2=1.150前两个主成分的累计方差贡献率达93.107%,即涵盖了大部分信息。这表明前两个主成分能够代表最初的11个指标来分析河南各个城市经济综合实力的发展水平,故提取前两个指标即可。主成分,分别记作F1、F2。 6.7

指标X1、X2、X3、X4、X5、X6、X7、X8、X9、X10在第一主成分上有较高载荷,相关性强。第一主成分集中反映了总体的经济总量。X11在第二主成分上有较高载荷,相关性强。第二主成分反映了人均的经济量水平。但是要注意: 这个主成分载荷矩阵并不是主成分的特征向量,也就是说并不是主成分1和主成分2的系数,主成分系数的求法是:各自主成分载荷向量除以各自主成分特征值的算术平方根。

7.8 成分得分系数矩阵(因子得分系数)列出了强两个特征根对应的特征向量,即各主要成分解析表达式中的标准化变量的系数向量。故各主要成分解析表达式分别为:F1=0.32ZX11+0.33ZX12+0.31ZX13+0.31ZX14+0.32ZX15+0.32ZX16+0.32ZX17+0.32ZX18+0. 32ZX19+0.21ZX110+0.15ZX111 F2=8.46ZX21+0.02ZX22-0.02ZX23-0.20ZX24-0.23Z25-0.04ZX26-0.15ZX27-0.02ZX28+0.10Z X29+0.47ZX210+0.78ZX211 8.9 主成分的得分是相应的因子得分乘以相应的方差的算术平方根。即:主成分1得分=因子1得分乘以9.092的算术平方根主成分2得分=因子2得分乘以1.150的算术平方根例如郑州:主成分因子=FAC1_1*9.092的算术平方根=3.59386*9.092的算术平方根=10.83,将各指标的标准化数据带入个主成分解析表达式中,分别计算出2个主成分得分(F1、F2),再以个主成分的贡献率为全书对主成分得分进行加权平均,即:H=(82.672*F1+10.497*F2)/93.124,求得主成分综合得分。

主成分分析法介绍(高等教育)

主成分分析方法 我们进行系统分析评估或医学上因子分析等时,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。 第一节 主成分分析方法的原理 主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。假定有n 样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的数据矩阵: 111212122212.....................p p n n np x x x x x x X x x x ?? ? ?= ? ? ??? (1)

如何从这么多变量的数据中抓住事物的内在规律性呢?要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。 如果记原来的变量指标为p x x x ,,21 ,它们的综合指标——新变量指标为 21,z z ,m z (m≤p)。则 )2.........(..........22112222121212121111??? ??? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 在(2)式中,系数l ij 由下列原则来决定: (1)z i 与 z j (i≠j;i ,j=1,2,…,m)相互无关; (2)z 1是x 1,x 2,…,x p 的一切线性组合中方差最大者;z 2是与z 1不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者;……;z m 是与z 1,z 2,……z m-1都不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者。

主成分分析案例

姓名:XXX 学号:XXXXXXX 专业:XXXX 用SPSS19软件对下列数据进行主成分分析: ……

一、相关性 通过对数据进行双变量相关分析,得到相关系数矩阵,见表1。 表1 淡化浓海水自然蒸发影响因素的相关性 由表1可知: 辐照、风速、湿度、水温、气温、浓度六个因素都与蒸发速率在0.01水平上显著相关。 分析:各变量之间存在着明显的相关关系,若直接将其纳入分析可能会得到因多元共线性影响的错误结论,因此需要通过主成份分析将数据所携带的信息进行浓缩处理。 二、KMO和球形Bartlett检验 KMO和球形Bartlett检验是对主成分分析的适用性进行检验。 KMO检验可以检查各变量之间的偏相关性,取值范围是0~1。KMO的结果越接近1,表示变量之间的偏相关性越好,那么进行主成分分析的效果就会越好。实际分析时,KMO统计量大于0.7时,效果就比较理想;若当KMO统计量小于0.5时,就不适于选用主成分分析法。 Bartlett球形检验是用来判断相关矩阵是否为单位矩阵,在主成分分析中,若拒绝各变量独立的原假设,则说明可以做主成分分析,若不拒绝原假设,则说明这些变量可能独立提供一些信息,不适合做主成分分析。

由表2可知: 1、KMO=0.631<0.7,表明变量之间没有特别完美的信息的重叠度,主成分分析得到的模型又可能不是非常完善,但仍然值得实验。 2、显著性小于0.05,则应拒绝假设,即变量间具有较强的相关性。 三、公因子方差 公因子方差表示变量共同度。表示各变量中所携带的原始信息能被提取出的主成分所体现的程度。 由表3可知: 几乎所有变量共同度都达到了75%,可认为这几个提取出的主成分对各个变量的阐释能力比较强。 四、解释的总方差 解释的总方差给出了各因素的方差贡献率和累计贡献率。

主成分分析法介绍教学文稿

主成分分析法介绍

主成分分析方法 我们进行系统分析评估或医学上因子分析等时,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。 第一节 主成分分析方法的原理 主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。假定有n 样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的数据矩阵: 11121212221 2 .....................p p n n np x x x x x x X x x x ?? ? ? = ? ? ??? (1)

如何从这么多变量的数据中抓住事物的内在规律性呢?要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。 如果记原来的变量指标为p x x x ,,21 ,它们的综合指标——新变量指标为 21,z z ,m z (m≤p)。则 )2.........(..........22112222121212121111??? ?? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 在(2)式中,系数l ij 由下列原则来决定: (1)z i 与 z j (i≠j;i ,j=1,2,…,m)相互无关; (2)z 1是x 1,x 2,…,x p 的一切线性组合中方差最大者;z 2是与z 1不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者;……;z m 是与z 1,z 2,……z m-1都

主成分分析PCA(含有详细推导过程以及案例分析matlab版)

主成分分析法(PCA) 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。 I. 主成分分析法(PCA)模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。 主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求 0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。 (二)主成分分析的数学模型 对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为: ??????? ??=np n n p p x x x x x x x x x X 21 222 21112 11()p x x x ,,21=

一组空气污染数据的主成分分析

一组空气污染数据的主成分分析 【说明】下面的多元统计分析练习题摘自R.A. Johnson等编写的《应用多元统计分析(第五版)》,原书为:Richard A. Johnson and Dean W. Wichern. Applied Multivariate Statistical Analysis(5th Ed). Pearson Education, Inc. 2003。我看的是中国统计出版社(China Statistics Press)2003年发行的影印本。 第一题为原书第1.6题,即第1章的第6题,第二题为原书第8.12题,即第8章的第12题。 第二题用的是第一题的数据。 1 习题 1.6. The data in Table 1.5 are 42 measurements on air-pollution variables recorded at 12:00 noon in the Los Angeles area on different days. (a)Plot the marginal dot diagrams for all the variables. (b)Construct the x, S n, and R arrays, and interpret the entries in R. TABLE 1.5 AIR-POLLUTION DATA Wind (x1)Solar radiation (x2)CO (x3)NO (x4)NO2 (x5)O3 (x6)HC (x7) 8 98 7 2 12 8 2 7 107 4 3 9 5 3 7 103 4 3 5 6 3 10 88 5 2 8 15 4 6 91 4 2 8 10 3 8 90 5 2 12 12 4 9 84 7 4 12 15 5 5 72 6 4 21 14 4 7 82 5 1 11 11 3 8 64 5 2 13 9 4 6 71 5 4 10 3 3 6 91 4 2 12 7 3 7 72 7 4 18 10 3 10 70 4 2 11 7 3 10 72 4 1 8 10 3 9 77 4 1 9 10 3 8 76 4 1 7 7 3 8 71 5 3 16 4 4 9 67 4 2 13 2 3 9 69 3 3 9 5 3

R语言主成分分析的案例

R 语言主成分分析的案例
R 语言也介绍到案例篇了,也有不少同学反馈说还是不是特别明白一些基础的东西,希望能 够有一些比较浅显的可以操作的入门。其实这些之前 SPSS 实战案例都不少,老实说一旦用 上了开源工具就好像上瘾了,对于以前的 SAS、clementine 之类的可视化工具没有一点 感觉了。本质上还是觉得要装这个、装那个的比较麻烦,现在用 R 或者 python 直接简单 安装下,导入自己需要用到的包,活学活用一些命令函数就可以了。以后平台上集成 R、 python 的开发是趋势,包括现在 BAT 公司内部已经实现了。 今天就贴个盐泉水化学分析资料的主成分分析和因子分析通过 R 语言数据挖掘的小李 子: 有条件的同学最好自己安装下 R,操作一遍。 今有 20 个盐泉,盐泉的水化学特征系数值见下表.试对盐泉的水化学分析资料作主成分分 析和因子分析.(数据可以自己模拟一份)
其中 x1:矿化度(g/L);

x2:Br?103/Cl; x3:K?103/Σ 盐; x4:K?103/Cl; x5:Na/K; x6:Mg?102/Cl; x7:εNa/εCl.
1.数据准备
导入数据保存在对象 saltwell 中 >saltwell<-read.table("c:/saltwell.txt",header=T) >saltwell
2.数据分析

1 标准误、方差贡献率和累积贡献率
>arrests.pr<- prcomp(saltwell, scale = TRUE) >summary(arrests.pr,loadings=TRUE)
2 每个变量的标准误和变换矩阵
>prcomp(saltwell, scale = TRUE)
3 查看对象 arests.pr 中的内容
>> str(arrests.pr)

主成分分析在STATA中的实现以及理论介绍

主成分分析在S T A T A 中的实现以及理论介绍 文件编码(TTU-UITID-GGBKT-POIU-WUUI-0089)

第十二章 主成分分析 主成分分分析也称作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降维的思想,在损失较少信息的前提下把多个指标转化为较少的综合指标。转化生成的综合指标即称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分互不相关。Stata 对主成分分析的主要内容包括:主成分估计、主成分分析的恰当性(包括负偏协方差矩阵和负偏相关系数矩阵、KMO(Kaiser-Meyer-Olkin)抽样充分性、复相关系数、共同度等指标测度)、主成分的旋转、预测、各种检验、碎石图、得分图、载荷图等。 p j n i b a y ij j i ij ,,2,1,,2,1,' ==+=ε 主成分的模型表达式为: p p j i i i i diag v v v v i p V V C λλλλλλλ≥≥≥=∧='' ==∧=∑ 2121),,,,(0 1 其中,a 称为得分,b 称为载荷。主成分分析主要的分析方法是对相关系数矩阵(或协方差矩阵)进行特征值分析。

Stata中可以通过负偏相关系数矩阵、负相关系数平方和KMO值对主成分分析的恰当性进行分析。负偏相关系数矩阵即变量之间两两偏相关系数的负数。非对角线元素则为负的偏相关系数。如果变量之间存在较强的共性,则偏相关系数比较低。因此,如果矩阵中偏相关系数较高的个数比较多,说明某一些变量与另外一些变量的相关性比较低,主成分模型可能不适用。这时,主成分分析不能得到很好的数据约化效果。 Kaiser-Meyer-Olkin抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标,是通过比较两个变量的相关系数与偏相关系数得到的。KMO介于0于1之间。KMO越高,表明变量的共性越强。如果偏相关系数相对于相关系数比较高,则KMO比较低,主成分分析不能起到很好的数据约化效果。根据Kaiser(1974),一般的判断标准如下:不能接受(unacceptable);非常差(miserable);,勉强接受(mediocre);可以接受(middling);,比较好(meritorious);非常好(marvelous)。 SMC即一个变量与其他所有变量的复相关系数的平方,也就是复回归方程的可决系数。SMC比较高表明变量的线性关系越强,共性越强,主成分分析就越合适。

主成分分析计算方法和步骤

主成分分析计算方法和步骤: 在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。 主成分分析的应用目的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。 主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征根和特征向量; ④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。 结合数据进行分析 本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了0.963,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。 表5-6 相关系数矩阵 本科院校 数招生人数教育经费投入 相关性师生比0.279 0.329 0.252 重点高校数0.345 0.204 0.310 教工人数0.963 0.954 0.896 本科院校数 1.000 0.938 0.881 招生人数0.938 1.000 0.893 教育经费投 0.881 0.893 1.000 入

主成分分析法概念及例题

主成分分析法 [ 编辑 ] 什么是主成分分析法 主成分分析也称 主分量分析 ,旨在利用降维的思想,把多 指标 转化为少数几个综合指标。 在 统计学 中,主成分分析( principal components analysis,PCA )是一种简化数据集的技 术。它是一个线性变换。 这个变换把数据变换到一个新的坐标系统中, 使得任何数据投影的第一 大方差 在第一个坐标 (称为第一主成分 )上,第二大方差在第二个坐标 (第二主成分 )上,依次类推。 主成分分析经常用减少数据集的维数, 同时保持数据集的对 方差 贡献最大的特征。 这是通过保留 低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是, 这也不是一定的,要视具体应用而定。 [ 编辑 ] , PCA ) 又称: 主分量分析,主成分回归分析法 主成分分析( principal components analysis

主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [ 编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [ 编辑] 主成分分析的主要作用

主成分分析分析法

第四节 主成分分析方法 地理环境是多要素的复杂系统,在我们进行地理系统分析时,多变量问题 是经常会遇到的。 变量太多, 无疑会增加分析问题的难度与复杂性, 而且在许多 实际问题中, 多个变量之间是具有一定的相关关系的。 因此,我们就会很自然地 想到,能否在各个变量之间相关关系研究的基础上, 用较少的新变量代替原来较 多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信 息?事实上, 这种想法是可以实现的, 本节拟介绍的主成分分析方法就是综合处 理这种问题的一种强有力的方法。 第一节 主成分分析方法的原理 主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法, 从数学角度来看, 这是一种降维处理技术。 假定有 n 个地理样本, 每个样本共有 p 个变量描述,这样就构成了一个 n ×p 阶的地理数据矩阵: 如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问 题,自然要在 p 维空间中加以考察,这是比较麻烦的。为了克服这一困难,就需 要进行降维处理, 即用较少的几个综合指标来代替原来较多的变量指标, 而且使 这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息, 同时它们之 间又是彼此独立的。那么,这些综合指标(即新变量 ) 应如何选取呢?显然,其 最简单的形式就是取原来变量指标的线性组合, 适当调整组合系数, 使新的变量 指标之间相互独立且代表性最好。 如果记原来的变量指标为 x 1, 为 x 1,x 2,?, zm (m ≤p ) 。则 x 2 ,?, x p ,它们的综合指标——新变量指标

在(2)式中,系数l ij 由下列原则来决定: (1)z1 2与z j(i ≠j ;i ,j=1 ,2,?,m)相互无关; (2)z 1是x1,x2,?,x p的一切线性组合中方差最大者;z2是与z1不相关的x1,x2,?,x p的所有线性组合中方差最大者;??;z m是与z1,z2,??z m-1 都不相关的x1,x2,?,x p的所有线性组合中方差最大者。 这样决定的新变量指标z1,z2,?,zm分别称为原变量指标x1,x2,?,x p 的第一,第二,?,第m主成分。其中,z1在总方差中占的比例最大,z2,z3,?,z m的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。 从以上分析可以看出,找主成分就是确定原来变量x j(j=1 ,2,?,p)在诸主成分z i (i=1 ,2,?,m)上的载荷l ij (i=1 ,2,?,m;j=1 ,2,?,p),从数学上容易知道,它们分别是x1,x2,?,x p的相关矩阵的m个较大的特征值所对应的特征向量。 第二节主成分分析的解法 主成分分析的计算步骤 通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如下:在公式(3)中,r ij (i ,j=1 ,2,?,p)为原来变量x i与x j的相关系数,其计 算公式为 因为R是实对称矩阵(即r ij =r ji ),所以只需计算其上三角元素或下三角元素即可。 1 计算相关系数矩阵 2 计算特征值与特征向量

相关文档