文档库 最新最全的文档下载
当前位置:文档库 › 主成分分析

主成分分析

主成分分析
主成分分析

基于主成分分析的空气污染研究

摘要本文主要运用主成分分析方法对某城市空气污染数据进行分析,选择出几个适当的主成分,使其保留所有污染指标的主要信息,成为衡量城市污染状况的主要指标,以方便地获得一个城市的空气污染状况,采取相应的措施治理该城市的空气污染,保护人们的身体健康。最后对模型进行了正反两方面的评价并适当推广。

关键词主成分分析;贡献率;标准化;MATLAB

一、问题重述

随着经济发展和城市化进程的加快,空气污染物的排放量不断增加,污染范围不断扩大,空气污染问题日趋严重。环境污染对经济建设和人体健康造成了极大危害,人们必须重视环境空气质量问题。为了研究空气污染物对空气污染程度的影响,根据题目中所给数据,解决以下问题:

问题一:利用尽可能少的变量提取原数据集的信息,分别利用样本协方差矩阵([1])和样本相关矩阵([1])做主成分分析([1]),区分二者结果的差异性;

问题二:讨论并研究原始数据的变化可否由三个或者更少的主成分反映,并且对所选取的主成分做出解释。

二、问题分析

主成分分析旨在利用降维的思想,把多指标转化为少数几个综合指标。在实际问题研究中,为了系统、全面地分析问题,我们必须考虑众多影响因素。因为每个因素都在不同程度上反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得到的统计数据反映的信息在一定程度上有重叠。本文中所研究的问题变量较多,因此利用主成分分析法研究本问题,减少计算量和降低分析问题的复杂性。

针对问题一,首先将数据标准化,利用MATLAB程序计算样本协方差矩阵和相关矩阵,然后分别计算样本协方差矩阵和相关矩阵的特征值和特征向量,贡献率和累计贡献率,确定选取主成分个数,列出主成分方程并解释主成分意义。

针对问题二,考虑主成分的贡献率,只要主成分的累计贡献率达到80%,就可以反映原始数据的变化,并且对所选取的主成分做出解释。

三、模型假设

1、影响污染程度的变量只有本文中所提到的变量;

2、随机选取42天;

3、题中所提到的城市的发展是平衡发展,政府对环境治理干预较小,即此城市

的环境不会出现强烈波动;

4、题目中所给的污染物浓度及气象参数有效数据都准确可靠。同时不考虑人为

因素,检测仪器精确度不同的影响。

四、符号表示

五、 模型建立与求解

由问题可知,为了选择出一个适当的主成分,通过一系列定性和定量分析,使其保留所有污染指标的主要信息,成为衡量城市污染状况的唯一指标。需要从协方差矩阵和相关矩阵两方面进行求解。 5.1 对问题一求解如下

在本题的研究中,涉及到七个有关的变量。但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。因此,利用降维的思想,基于变量(x )的观测值,综合运用MATLAB 程序语句,分别从样本协方差矩阵和样本相关矩阵出发,做主成分分析。

5.1.1 从协方差矩阵出发对所有变量进行主成分分析

由MATLAB 程序(见附录中程序)得到样本协方差矩阵为

??

?

?

??

????

?

???

???

??

??

?=0.4790.5951.0440.1770.1420.6240.1710.59530.9793.1270.811-2.82230.7912.232- 1.0443.12711.3641.0882.3156.7630.585-0.1770.811-1.0881.1820.6741.387-0.463

- 0.1422.8222.3150.6741.5223.9090.378-0.62430.7916.7631.387-3.909300.5162.781-0.1712.232- 0.585-0.463- 0.378-2.781-2.500S

运用MATLAB 程序(见附录中程序1),得出了协方差矩阵的全部特征值和特

征向量,每个主成分的贡献率和累计贡献率,如表1所示。

表1 S 的特征值、特征向量及贡献率

由表1可知,第7主成分和第6主成分的累积贡献率为95.4%。因此,对其

他主成分完全可以忽略不计,用这两个主成分就可以很好地概括这组数据。MATLAB 程序还输出了全部特征值所对应的特征向量,它们是线性无关的单位向量。第一列表示第一主成分的得分系数,第二列表示第二主成分的得分系数,以此类推。据此可以写出各主成分的关系式:

765432110023.01124.00243.00047.00141.09932.001.0x x x x x x x y +++-++-= 765432120238.09734.01504.00132.00996.01162.00762.0x x x x x x x y ---+-+= 5.1.2 从相关矩阵出发对所有变量进行主成分分析

由MATLAB 程序(见附录中程序)得到样本均值向量和样本相关矩阵为

T ]10.340.905.1019.255.486.735.7[=x

???

???

????

?

???

???

??

???= 1.0000.1550.4480.2350.1660.0520.1560.1551.0000.1670.134-0.4110.3200.254-0.4480.1671.0000.2970.5570.1160.110-0.2350.134-0.2971.0000.5020.074-0.270

-0.1660.4110.5570.5021.0000.1830.194-0.0520.3200.1160.074-0.1831.0000.101-0.1560.254-0.110-0.270-0.194-0.101-1.000R

运用MATLAB 程序(见附录中程序)得到相关矩阵的全部特征值和特征向量,

每个主成分的贡献率和累计贡献率,如表2所示。

以忽略不计,用这几个主成分就可以很好地概括这组数据。MATLAB 程序还输出了全部特征值所对应的特征向量,它们是线性无关的单位向量。第一列表示第一主成分的得分系数,第二列表示第二主成分的得分系数,以此类推。据此可以写出由标准化变量所表达的各主成分的关系式:

*

7

*6*5*4*3*2*113194.03246.04980.03776.05511.02056.02368.0x x x x x x x y ++++++-=*

7

*6*5*4*3*2*133079.05670.01998.04347.00068.05266.02784.0x x x x x x x y +-++--=*

7*

6*

5*

4*

3*

2*

145410.01598.01966.04071.01136.02245.06435.0x x x x x x x y +++--+=*7

*6*5*4*3*2*171431.05079.00424.02905.00053.07781.01727.0x x x x x x x y ---+++=*

7*

6*

54*

3*

2*

165661.00802.00502.00567.05734.01561.05605.0x x x x x x x y -++-+-=5.1.3 差异性

从协方差矩阵出发对所有变量进行主成分分析和从相关矩阵出发做主成分分析两个方向得出的结果显示,原变量在第一主成分和第二主成分中的相对重要性由于标准化而有很大变化。从协方差矩阵出发分析所得第一主成分中,权重系

数分别为-0.01、0.9932、0.941、-0.0047、0.0243、0.1124、0.0023,而从相关矩阵出发分析所得的第一主成分中,权重系数分别为-0.238、0.2056、0.5511、0.3776、0.498、0.3246、0.3194。两者差距很大,而且在第二主成分中的两个系数相差更远。因此,由协方差矩阵和相关矩阵所得的主成分一般是不同的。

为了满足样本主成分累计贡献率达到80%以上,从相关矩阵R 出发做主成分分析应保留五个主成分;而从协方差矩阵S 出发做主成分分析应保留两个成分。由此可知,从协方差矩阵S 出发做主成分分析更能简化运算。在本文中,由于涉及的各变量的变化范围差异不大,因此应从相关矩阵出发求主成分比较合理. 5.2 对问题二求解如下

由问题一可知,第7主成分和第6主成分的累计贡献率为95.4%。因此,对其他主成分完全可以忽略不计,用这两个主成分就可以很好地概括这组数据。

从协方差矩阵出发做主成分分析时,在第一主成分1y 的表达式中,风速1x 和NO 4x 前的系数为负,而其他变量前的系数为正,当某一天的1y 值较大时,说明1x ,4x 的值较小,而其他变量的值相对较大,即当某一天污染程度较重时,主要是由太阳辐射、CO 、2NO 、3O 、HC 这些变量导致的。第二主成分2y 的表达式中,风速1x 和太阳辐射2x 、NO 4x 前的系数为正,而其他变量前的系数为负,当某一天的2y 值较大时,说明3x ,5x ,6x ,7x 的值较小,而其他变量的值相对较大,即当某一天污染程度较重时,主要是由风速、太阳辐射、NO 这些变量导致的。

从相关矩阵出发做主成分分析时,在第一主成分1y 的表达式中,风速1x 前的系数为负,而其他变量前的系数为正,当某一天的1y 值较大时,说明1x 的值较小,而其他变量的值相对较大,即当某一天污染程度较重时,主要是由太阳辐射、CO 、2NO 、3O 、HC 、NO 这些变量导致的。由于1y 的贡献率最大,故若用1y 的得分值来对1-42天的空气污染程度进行排序,能从整体上反映这些天空气质量的差别。将协方差矩阵S 中ii S 的值及-

x 中各-

i x 的值以及42天关于i x 的观测值代入1y 的表达式中,可求得1-42天1y 的得分及其按其得分由大到小的排序结果,见表3(见附录中程序)。

由表可以看出,第2天的空气污染程度最重,第15天的空气污染程度最低。

六、模型评价与推广

6.1 模型评价

6.1.1模型优点:

(1)用主成分分析方法能够较好地揭示污染物与污染程度之间的关系;

(2)该模型所用工具较易操作;

(3)主成分分析法是从定量的角度出发,充分利用全部数据当中所包含的信息。

所确定的指标权数是基于数据分析而得到的指标间的内在结构关系,具有较好的客观性;它能有效消除不相关指标的影响,从而可进行有针对性的定量化评价;得出的综合指标之间相互独立,不仅简化了评价体系,而且减少了信息的交叉和冗余。另外,方法计算简便,数学物理意义明确,在计算机普及的今天有较强的可操作性和一定的推广应用价值。

6.1.2 模型缺点:

(1)尚未考虑到其他变量的影响,存在预测误差;

(2)该模型未给出图像,难以反映各变量对空气污染程度的影响;

(3)从主成分分析方法本身来看,还有许多方面是不能替代定性分析方法的,只能说它在定性向定量转化过程中发挥了一定的效能。

6.2 模型推广

利用主成分综合原始变量的信息,达到降低原始变量维数的目的,进而利用前几个主成分的得分的低维数据作进一步分析,由主成分分析法构造回归模型,把各成分作为新的自变量代替原来自变量x作回归分析。

参考文献

[1] 姜启源,谢金星,《数学建模第四版》,北京:高等教育出版社,2003.

附录

clc;

x1=[8 7 7 10 6 8 9 5 7 8 6 6 7 10 10 9 8 8 9 9 10 9 8 5 6 8 6 8 6 10 8 ...

7 5 6 10 8 5 5 7 7 6 8]';

x2=[98 107 103 88 91 90 84 72 82 64 71 91 72 70 72 77 76 71 67 69 62 88 ...

80 30 83 84 78 79 62 37 71 52 48 75 35 85 86 86 79 79 68 40]';

x3=[7 4 4 5 4 5 7 6 5 5 5 4 7 4 4 4 4 5 4 3 5 4 4 3 5 3 4 2 4 3 4 4 6 4 ...

4 4 3 7 7

5

6 4]';

x4=[2 3 3 2 2 2 4 4 1 2 4 2 4 2 1 1 1 3 2 3 3 2 2 3 1 2 2 1 3 1 1 1 5 1 ...

1 1 1

2 4 2 2 3]';

x5=[12 9 5 8 8 12 12 21 11 13 10 12 18 11 8 9 7 16 13 9 14 7 13 5 10 7 ...

11 7 9 7 10 12 8 10 6 9 6 13 9 8 11 6]';

x6=[8 5 6 15 10 12 15 14 11 9 3 7 10 7 10 10 7 4 2 5 4 6 11 2 23 6 11 10 ...

8 2 7 8 4 24 9 10 12 18 25 6 14 5]';

x7=[2 3 3 4 3 4 5 4 3 4 3 3 3 3 3 3 3 4 3 3 4 3 4 3 4 3 3 3 3 3 3 4 3 3 ...

2 2 2 2

3 2 3 2]';

x=[x1 x2 x3 x4 x5 x6 x7];

for j=1:7

y(j)=sum(x(:,j))/length(x(:,j));

end

y=vpa(y,4) %样本均值向量

S=cov(x)

R=corrcoef(x)

[dS,vS]=eig(S)

[dR,vR]=eig(R)

s=diag(S);

for i=1:42

xx(i,:)=(x(i,:)-sum(x(i,:))/length(x(i,:)))./sqrt(s');

y1(i)=sum(xx(i,:).*dR(:,1)');

end

y1,sort(y1,'descend')

y =

[ 7.5, 73.86, 4.548, 2.19, 10.05, 9.405, 3.095]

S =

2.5000 -2.7805 -0.3780 -0.4634 -0.5854 -2.2317 0.1707

-2.7805 300.5157 3.9094 -1.3868 6.7631 30.7909 0.6237

-0.3780 3.9094 1.5221 0.6736 2.3148 2.8217 0.1417

-0.4634 -1.3868 0.6736 1.1823 1.0883 -0.8107 0.1765

-0.5854 6.7631 2.3148 1.0883 11.3635 3.1266 1.0441

-2.2317 30.7909 2.8217 -0.8107 3.1266 30.9785 0.5947

0.1707 0.6237 0.1417 0.1765 1.0441 0.5947 0.4785

R =

1.0000 -0.1014 -0.1938 -0.2695 -0.1098 -0.2536 0.1561

-0.1014 1.0000 0.1828 -0.0736 0.1157 0.3191 0.0520

-0.1938 0.1828 1.0000 0.5022 0.5566 0.4109 0.1660

-0.2695 -0.0736 0.5022 1.0000 0.2969 -0.1340 0.2347

-0.1098 0.1157 0.5566 0.2969 1.0000 0.1666 0.4478

-0.2536 0.3191 0.4109 -0.1340 0.1666 1.0000 0.1545

0.1561 0.0520 0.1660 0.2347 0.4478 0.1545

1.0000

dS =

-0.1697 0.0118 0.3424 0.9203 -0.0309 0.0762 0.0100

-0.0018 0.0034 0.0022 -0.0002 -0.0066 0.1162 -0.9932

0.4436 -0.5639 0.6501 -0.1383 0.1828 -0.0996 -0.0141

-0.4629 0.4975 0.6432 -0.3278 0.1302 0.0132 0.0047

-0.1050 -0.0090 -0.2066 0.1024 0.9553 -0.1504 -0.0243

-0.0670 0.0511 -0.0003 0.0632 -0.1698 -0.9734

-0.1124

0.7380 0.6570 0.0620 0.1095 0.0852 -0.0238

-0.0023

vS =

0.2096 0 0 0 0 0 0

0 0.5287 0 0 0 0 0

0 0 1.2795 0 0 0 0

0 0 0 2.5243 0 0 0

0 0 0 0 11.4645 0 0

0 0 0 0 0 28.2761 0

0 0 0 0 0 0

304.2579

dR =

0.2368 -0.2415 0.2784 -0.6435 0.2236 -0.5605

0.1727

-0.2056 -0.0113 -0.5266 -0.2245 0.0057 0.1561

0.7781

-0.5511 0.5852 -0.0068 0.1136 0.1095 -0.5734

0.0053

-0.3776 -0.4609 0.4347 0.4071 0.4502 0.0567

0.2905

-0.4980 -0.3378 0.1998 -0.1966 -0.7450 -0.0502

-0.0424

-0.3246 -0.4171 -0.5670 -0.1598 0.3306 -0.0802

-0.5079

-0.3194 0.3139 0.3079 -0.5410 0.2665 0.5661

-0.1431

vR =

2.3368 0 0 0 0 0 0

0 0.1559 0 0 0 0 0

0 0 1.3860 0 0 0 0

0 0 0 1.2041 0 0 0

0 0 0 0 0.5367 0

0 0 0 0 0 0.6535 0

0 0 0 0 0 0

0.7271

y1 =

Columns 1 through 7

18.9611 20.0429 19.2991 18.5863 17.6387 18.0362

16.5998

Columns 8 through 14

13.8890 16.5378 13.0764 12.6867 17.4118 13.9344

15.0035

Columns 15 through 21

15.7845 16.3733 15.3819 13.6291 13.5616 14.2424

12.6288

Columns 22 through 28

17.5590 16.4317 5.4158 17.6318 16.7686 15.5892

16.8213

Columns 29 through 35

12.1197 8.7501 14.6198 10.8539 7.9032 16.8747

9.2849

Columns 36 through 42

17.7251 17.2807 17.1667 16.7649 15.3423 13.6939

8.6539

ans =

Columns 1 through 7

20.0429 19.2991 18.9611 18.5863 18.0362 17.7251

17.6387

Columns 8 through 14

17.6318 17.5590 17.4118 17.2807 17.1667 16.8747

16.8213

Columns 15 through 21

16.7686 16.7649 16.5998 16.5378 16.4317 16.3733

15.7845

Columns 22 through 28

15.5892 15.3819 15.3423 15.0035 14.6198 14.2424

13.9344

Columns 29 through 35

13.8890 13.6939 13.6291 13.5616 13.0764 12.6867

12.6288

Columns 36 through 42

12.1197 10.8539 9.2849 8.7501 8.6539 7.9032

5.4158

各个国家和地区的女子径赛项目的主成分分析

摘要本文主要运用主成分分析法对55个国家和地区1984年以前的7个女子径赛项目进行分析,选择出几个适当的主成分,使其保留所有指标的主要信息,成为衡量国家和地区的女运动员的优秀程度和各竞赛项目上的相对实力的重要指标,以方便地获得一个国家和地区的女运动员径赛状况,采取相应的措施提高女运动员的径赛水平,保证国家各项径赛水平都能得到提高,为训练提供依据。最后对模型进行了正反两方面的评价并适当推广。

关键词主成分分析;贡献率;标准化;MATLAB

一、问题重述

随着综合国力的提升,国家对影响综合国力的每一个因素都提高重视,为了研究女运动员径赛水平对国家整体运动员水平的影响,根据题目中所给数据,解决以下问题:

问题一:通过尽可能少的变量提取原数据集的信息,利用样本相关矩阵([1])做主成分分析([1]),并求前两个标准化样本主成分及其累计贡献率,同时解释主成分意义;

问题二:基于第一样本主成分的得分对各国家和地区排序,判断与从原始数据中得到的直观看法是否一致。

二、问题分析

主成分分析旨在利用降维的思想,把多指标转化为少数几个综合指标。在实际问题研究中,为了系统、全面地分析问题,我们必须考虑众多影响因素。因为每个因素都在不同程度上反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得到的统计数据反映的信息在一定程度上有重叠。本文主要探讨这55个国家女子运动员径赛项目中的主成分,为训练提供依据。所研究的问题变量较多,因此利用主成分分析法研究本问题,减少计算量和降低分析问题的复杂性。

针对问题一:题中给出了55个国家和地区1984年前在7个径赛项目上的女子记录,分别为100、200、400、800、1500、3000米和马拉松。其中每一项(随机变量)的记录可表示为一个向量,因此有7个随机变量,7个列向量,则可将7个向量表示成一个矩阵,并用MATLAB中的corrcoef函数计算其相关矩阵,最后由MATLAB中的eig函数计算出其相关矩阵的特征值和特征向量;求一个相关矩阵的主成分,根据得出相关矩阵的特征值与特征向量,计算贡献率和累计贡献率,而贡献率(某一特征值占所有特征值综合的比例)最大的成分为第一主成

分,将

i

x替换为

ii i

i S x

x-

(7,6,5,4,3,2,1

=

i)

ii

S为协方差矩阵的对角线元素,即标准化的主成分y可表示为:

x

R

y

i

i

=

其中???

?

??-------=7777666655554444333322221111,

,,,,,S x x S x x S x x S x x S x x S x x S x x x

即可计算出相关矩阵的主成分y ,并且解释前两个主成分的意义。

针对问题二 :利用MATLAB 程序计算第一样本主成分的得分,并对得分排序,最后与从原始数据中的得到的直观看法相比较,判断是否吻合。

三、模型假设

1、评估国家径赛女运动员整体水平的只有本文中所提到的变量;

2、题中所提到的国家的发展是平衡发展,政府对运动员干预较小,即此国家或地区运动员水平一定时间内波动不大;

3、题目中所给的有效数据都准确可靠。同时不考虑人为因素,检测仪器精确度不同的影响。

四、 符号表示

五、 模型建立与求解

由问题可知,先求样本的相关矩阵及其特征值和特征向量,从中选择出两个适当的主成分,以便反应各国家和地区的运动员的优秀程度和度量各国家和地区在各径赛项目上的相对实力。 5.1 对问题一求解如下

在本题的研究中,涉及到七个有关的变量。但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。因此,利用降维的思想,基于变量(x )的观测值,综合运用MATLAB 程序语句,从样本相关矩阵出发,做主成分分析。

5.1.1求解比赛记录的相关矩阵及特征值与特征向量

题中给出了55个国家和地区1984年前在7个径赛项目上的女子记录,分别为100、200、400、800、1500、3000米和马拉松。其中每一项(随机变量)的记录可表示为一个向量,因此有7个随机变量,7个列向量,则可将7个向量表示成一个矩阵,并用MATLAB 中的corrcoef 函数计算其相关矩阵,最后由MATLAB 中的eig 函数计算出其相关矩阵的特征值和特征向量。 计算相关矩阵:(程序见附录)

],,,,,,[7654321x x x x x x x x =

则可由MATLAB 中的corrcoef 函数计算出其相关矩阵 相关矩阵为:

?????????

?

? ??= 1.0000 0.8998 0.8633 0.7793 0.7055 0.6856 0.66640.8998 1.0000 0.9538 0.8636 0.7776 0.7099 0.71630.8633 0.9538 1.0000 0.8653 0.7735 0.6926 0.70730.7793 0.8636 0.8653 1.0000 0.8984 0.7241 0.70400.7055 0.7776 0.7735 0.8984 1.0000 0.8570 0.81720.6856 0.7099 0.6926 0.7241 0.8570 1.0000 0.9123

0.6664 0.7163 0.7073 0.7040 0.8172 0.9123 1.0000

R

协方差矩阵为:

??????????

? ??=925.9832 22.5721 8.4180 2.5665 57.4969 23.1804 8.8982 22.5721 0.6795 0.2520 0.0770 1.7169 0.6502 0.2591 8.4180 0.2520 0.1027 0.0300 0.6639 0.2466 0.0995 2.5665 0.0770 0.0300 0.0117 0.2604 0.0871 0.0334 57.4969 1.7169 0.6639 0.2604 7.1735 2.5501 0.9604 23.1804 0.6502 0.2466 0.0871 2.5501 1.2345 0.4448 8.8982 0.2591 0.0995 0.0334 0.9604 0.4448 0.1925

S

进而由MATLAB 的[]()x eig vR dR =,计算出R 的特征值与特征向量 特征值为:(主对角线上的值为特征值)

??????????

? ??=0.0415 0 0 0 0 0 0 0 0.0511 0 0 0 0 0 0 0 0.0763 0 0 0 0 0 0 0 0.1424 0 0 0 0 0 0 0 0.3010 0 0 0 0 0 0 0 0.6484 0 0 0 0 0 0 0 5.7392

vR

特征向量为:

????????

?

?

? ??=0.1731 0.0569 0.2508- 0.6564- 0.4421- 0.3760 0.3691- 0.7738- 0.1109 0.1713 0.2523 0.1326- 0.3545 0.3908- 0.6088 0.0871 0.2801 0.5145 0.0475- 0.3562 0.3866- 0.0137- 0.6222- 0.2780- 0.0593- 0.6028 0.1423 0.3851- 0.0215 0.6822 0.0441 0.2298- 0.5171 0.2541- 0.3840- 0.0008 0.3518- 0.6194 0.2152- 0.2107- 0.5172- 0.3665- 0.0003- 0.0236 0.6053- 0.3717 0.3311- 0.5037- 0.3626

-dR

5.1.2 前两个标准化样本主成分及其累计贡献率

5.1.1中已经计算出相关矩阵及其对应的特征值及特征向量,而标准化样本的主成分即贡献率最大的特征值所对应的特征向量与x 矩阵的乘积,将i x 替换为

ii

i

i R x x - 7,6,5,4,3,2,1=i ii R 为R 矩阵的对角线元素,即标准化的主成分y 可表示为:

x R y i i =

其中???

?

??-------=7777666655554444333322221111,,,,,,S x x S x x S x x S x x S x x S x x S x x x 由5.1.1知,特征向量的贡献率及其累计贡献率如表1所示:

表1 R 的特征值、特征向量及贡献率

由表可知:特征值7392.51=λ,6484.02=λ的贡献率分别为第一和第二个。

则由7392.51=λ和6484.02=λ对应求出的主成分分别为第一,二主成分。当7392.51=λ时,对应的主成分为标准化的第一主成分,所以第一主成分为1y : x R y 11= 1R 是1λ的特征向量;

???

?

??-------=777766665555444433332222111111,

,,,,,S x x S x x S x x S x x S x x S x x S x x R y 代入数值得:

1y =[0.5335 -2.1112 -1.3906 -1.5232 0.3962

-0.1159 1.6977 -2.6324 0.5513 0.6476 0.0602 6.1309 2.5245 -3.0761 -1.1268 2.3201 -2.2021 -1.9091 -3.5390 -2.9521 -2.8088 0.8212 2.6567 -1.4902 1.0222 2.0119 -1.0577 -0.1466 -2.1613 -0.0578 -0.4362 1.2452 0.4674 1.3135 2.3674 4.2693 -0.0629 -1.8125 -1.5227 -1.4991 4.0203 1.6577 -2.6972 -0.2287 -2.0502 1.9909 -0.3609 -1.8453 -1.3611 -0.5032 1.9750 1.6205 -2.5415 -3.5056 8.4264]

第二主成分为2y :

x R y 22= 2R 是2λ的特征向量

???

?

??-------=777766665555444433332222111122,

,,,,,S x x S x x S x x S x x S x x S x x S x x R y 代入数值得:

2y =[-0.6895 -0.5738 -0.3204 0.0567 -1.0073 -0.9597 0.5828 -0.7430 1.1543 0.9634 0.0053 1.3953 0.4029 -1.0741 0.5079 -0.6384 -0.7113 -0.4880 -1.2648 -0.4907 -0.6229 0.2029 -0.3973 0.0266 0.2280 -0.2903 0.4173 0.1274 0.3137 0.6364 0.4461 0.8033 1.6722 1.1575 -0.0054 -1.2357 0.5561 -0.0855 0.3550 0.8922 -0.3642 -0.8992 -0.7512 1.2421 0.5725 0.9390 0.9081 -0.2979 0.4871 -1.2778 -0.1723 0.5827 0.4129 -0.3072 -2.3799]

5.1.3 两个标准化主成分的意义

第一个主成分1y 近似是7个标准化变量的等权重之和,是反映各国家或地区女运动员优秀程度的综合指标,1y 的值越大,则这个国家或地区的女运动员优秀

程度越低;

第二个主成分2y 可以度量各国家和地区在各径赛项目上的相对实力,由数据可知,运动员最优秀的国家实力不一定最强。 5.2 对问题二求解如下

由于1y 的贡献率高达81.99%,故若用1y 的得分值对各国家和地区进行排序。能从整体上反映各国家和地区之间的女运动员优秀程度差别,将S 中ii S 的值及x 中各i x 的值以及各国家和地区关于i x 的观测值代入1y 的表达式中,可求得1y 的得分和按得分由大到小的排序结果,如表2所示。

表2 各国家和地区得分排序表

由表2可见,原东德运动员的1y 得分最低,所以其运动员优秀程度最高;西沙摩亚运动员的1y 得分最高,所以其运动员优秀程度最低;毛里求斯运动员居于

西沙摩亚之上,而西沙摩亚运动员在55个国家中最差。在原数据表中(见附录中表1),仅由数据分析,原东德在运动项目中,每一项用时最少,所以其运动员优秀程度最高;西沙摩亚运动员在运动项目中,每一项用时最多,所以其运动员优秀程度最低,和主成分分析之后所得的结果相符。

六、模型评价与推广

6.1 模型评价

6.1.1模型优点:

(1)该模型所用工具较易操作;

(2)用主成分分析方法能够较好地揭示女运动员径赛水平与国家女运动员优秀程度的关系;

(3)主成分分析法是从定量的角度出发,充分利用全部数据当中所包含的信息。

所确定的指标权数是基于数据分析而得到的指标间的内在结构关系,具有较好的客观性;它能有效消除不相关指标的影响,从而可进行有针对性的定量化评价;得出的综合指标之间相互独立,不仅简化了评价体系,而且减少了信息的交叉和冗余。另外,方法计算简便,数学物理意义明确,在计算机普及的今天有较强的可操作性和一定的推广应用价值。

6.1.2 模型缺点:

(1)尚未考虑到其他变量的影响,存在预测误差;

(2)该模型未给出图像,难以反映各变量对国家女运动水平的影响;

(3)从主成分分析方法本身来看,还有许多方面是不能替代定性分析方法的,只能说它在定性向定量转化过程中发挥了一定的效能。

6.2 模型推广

利用主成分综合原始变量的信息,达到降低原始变量维数的目的,进而利用前几个主成分的得分的低维数据作进一步分析,由主成分分析法构造回归模型,把各成分作为新的自变量代替原来自变量x作回归分析。

同时此方法可以推广到获得一个国家和地区的运动员径赛状况,采取相应的措施提高运动员的径赛水平,保证国家各项径赛水平都能得到提高,为训练提供依据。

参考文献

[1] 姜启源,谢金星,《数学建模第四版》,北京:高等教育出版社,2003.

附录

clc;

x1=[11.6100 11.2000 11.4300 11.4100 11.4600 11.3100 ...

12.1400 11.0000 12.0000 11.9500 11.5000 12.9000 ...

11.9600 11.0900 11.4200 11.7900 11.1300 11.1500 ...

10.8100 11.0100 11.0000 11.7900 11.8400 ...

11.4500 11.9500 11.8500 11.4300 11.4500 ...

11.2900 11.7300 11.7300 11.9600 12.2500 ...

12.0300 12.2300 11.7600 11.8900 11.2500 ...

11.5500 11.5800 12.2500 11.7600 11.1300 11.8100 ...

11.4400 12.3000 11.8000 11.1600 11.4500 ...

11.2200 11.7500 11.9800 11.7900 11.0500 12.7400]'; x2=[ 22.9400 22.3500 23.0900 23.0400 23.0500 ...

23.1700 24.4700 22.2500 24.5200 24.4100 ...

24.0000 27.1000 24.6000 21.9700 23.5200 ... 24.0500 22.3900 22.5900 21.7100 22.3900 22.1300...

24.0800 24.5400 23.0600 24.2800 24.2400 ...

23.5100 23.5700 23.0000 24.0000 23.8800 ...

24.4900 25.7800 24.9600 24.2100 25.0800 ...

23.6200 22.8100 23.1300 23.3100 25.0700 ...

23.5400 22.2100 24.2200 23.4600 25.0000 ...

23.9800 22.8200 23.3100 22.6200 24.4600 ...

24.4400 21.8300 22.1900 25.8500]';

x3=[54.5000 51.0800 50.6200 52.0000 53.3000 ...

52.8000 55.0000 50.0600 54.9000 54.9700 ...

53.2600 60.4000 58.2500 47.9900 53.6000 ...

56.0500 50.1400 51.7300 48.1600 49.7500 ... 50.4600 54.9300 56.0900 51.5000 53.6000 ... 55.3400 53.2400 54.9000 52.0100 53.7300 ...

52.7000 55.7000 51.2000 56.1000 55.0900 ...

58.1000 53.7600 52.3800 51.6000 53.1200 ... 56.9600 54.6000 49.2900 54.3000 51.2000 ...

55.0800 53.5900 51.7900 53.1100 52.5000 ...

主成分分析法总结

主成分分析法总结 在实际问题研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。 因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息? 一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点: ↓主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关 通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性 总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。 主成分分析的具体步骤如下: (1)计算协方差矩阵 计算样品数据的协方差矩阵:Σ=(s ij )p ?p ,其中 1 1()() 1n ij ki i kj j k s x x x x n ==---∑i ,j=1,2,…,p (2)求出Σ的特征值 i λ及相应的正交化单位特征向量i a Σ的前m 个较大的特征值λ1≥λ2≥…λm>0,就是前m 个主成分对应的方差,i λ对应的单 位特征向量 i a 就是主成分Fi 的关于原变量的系数,则原变量的第i 个主成分Fi 为:

主成分分析案例

姓名:XXX 学号:XXXXXXX 专业:XXXX 用SPSS19软件对下列数据进行主成分分析: ……

一、相关性 通过对数据进行双变量相关分析,得到相关系数矩阵,见表1。 表1 淡化浓海水自然蒸发影响因素的相关性 由表1可知: 辐照、风速、湿度、水温、气温、浓度六个因素都与蒸发速率在0.01水平上显著相关。 分析:各变量之间存在着明显的相关关系,若直接将其纳入分析可能会得到因多元共线性影响的错误结论,因此需要通过主成份分析将数据所携带的信息进行浓缩处理。 二、KMO和球形Bartlett检验 KMO和球形Bartlett检验是对主成分分析的适用性进行检验。 KMO检验可以检查各变量之间的偏相关性,取值范围是0~1。KMO的结果越接近1,表示变量之间的偏相关性越好,那么进行主成分分析的效果就会越好。实际分析时,KMO统计量大于0.7时,效果就比较理想;若当KMO统计量小于0.5时,就不适于选用主成分分析法。 Bartlett球形检验是用来判断相关矩阵是否为单位矩阵,在主成分分析中,若拒绝各变量独立的原假设,则说明可以做主成分分析,若不拒绝原假设,则说明这些变量可能独立提供一些信息,不适合做主成分分析。

由表2可知: 1、KMO=0.631<0.7,表明变量之间没有特别完美的信息的重叠度,主成分分析得到的模型又可能不是非常完善,但仍然值得实验。 2、显著性小于0.05,则应拒绝假设,即变量间具有较强的相关性。 三、公因子方差 公因子方差表示变量共同度。表示各变量中所携带的原始信息能被提取出的主成分所体现的程度。 由表3可知: 几乎所有变量共同度都达到了75%,可认为这几个提取出的主成分对各个变量的阐释能力比较强。 四、解释的总方差 解释的总方差给出了各因素的方差贡献率和累计贡献率。

PCA主成分分析原理及应用

主元分析(PCA)理论分析及应用 什么是PCA? PCA是Principal component analysis的缩写,中文翻译为主元分析/主成分分析。它是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字:主元分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用与各个场合。因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地。被誉为应用线形代数最价值的结果之一。 在以下的章节中,不仅有对PCA的比较直观的解释,同时也配有较为深入的分析。首先将从一个简单的例子开始说明PCA应用的场合以及想法的由来,进行一个比较直观的解释;然后加入数学的严格推导,引入线形代数,进行问题的求解。随后将揭示PCA与SVD(Singular Value Decomposition)之间的联系以及如何将之应用于真实世界。最后将分析PCA理论模型的假设条件以及针对这些条件可能进行的改进。 一个简单的模型 在实验科学中我常遇到的情况是,使用大量的变量代表可能变化的因素,例如光谱、电压、速度等等。但是由于实验环境和观测手段的限制,实验数据往往变得极其的复杂、混乱和冗余的。如何对数据进行分析,取得隐藏在数据背后的变量关系,是一个很困难的问题。在神经科学、气象学、海洋学等等学科实验中,假设的变量个数可能非常之多,但是真正的影响因素以及它们之间的关系可能又是非常之简单的。 下面的模型取自一个物理学中的实验。它看上去比较简单,但足以说明问题。如图表 1所示。这是一个理想弹簧运动规律的测定实验。假设球是连接在一个无质量无摩擦的弹簧之上,从平衡位置沿轴拉开一定的距离然后释放。

主成分分析PCA(含有详细推导过程以及案例分析matlab版)

主成分分析法(PCA) 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。 I. 主成分分析法(PCA)模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。 主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求 0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。 (二)主成分分析的数学模型 对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为: ??????? ??=np n n p p x x x x x x x x x X 21 222 21112 11()p x x x ,,21=

主成分分析法运用

统计学简介及在实践中的应用 --以主成分分析法分析影响房价因素为例 姓名:阳飞 学号:2111601015 学院:经济管理学院 指导教师:吴东武 时间:二〇一七年一月六日

1 简介 统计语源最早出现于中世界拉丁语的Status,意思指各种现象的状态和状况。后来由这一语根组成意大利语Stato,有表示“国家”的概念,也含有国家结构和 国情知识的意思。根据这一语根,最早作为学名使用的“统计”的是在十八世纪德国政治学教授亨瓦尔(G.Achenwall)。他在1749年所著《近代欧洲各国国家学纲要》一书的绪言中,就把国家学名定义为“Statistika”(统计)这个词。原意是 指“国家显著事项的比较和记述”或“国势学”,认为统计是关于国家应注意事项的学问。自此以后,各国就相继沿用“统计”这个词,更把这个词译成各国的文字,其中,法国译为Statistique;意大利译为Statistica;英国译为Statistics;日本最初译为“政表”、“政算”、“国势”、“形势”等,直到1880年在太政官中设立了统计院,这个时候才确定以“统计”二字正名。 在我国近代史上首次出现是在1903年(清光绪廿九年)由钮永建、林卓南等翻译了四本由横山雅南所著的《统计讲义录》一书,这个时候才把“统计”这个词从日本传到我国。1907年(清光绪卅三年),由彭祖植编写的《统计学》在日本出版,同时在国内发行。这本书是我国最早的一本“统计学”书籍。自此以后“统计”一词就成了记述国家和社会状况的数量关系的总称。 关于“统计”这个词,后来又引申到了各种各样的组合,包括:统计工作、统计资料、统计科学。 统计工作是指利用科学的方法搜集、整理、分析和提供关于社会经济现象数量资料的工作的总称,它是统计的基础,也称统计实践或统计活动。是在一定统计理论指导下,采用科学的方法,搜集、整理、分析统计资料的一系列活动过程。

主成分分析

确定权重方法之一:主成分分析 什么是权重呢?所谓权重,是指某指标在整体评价中的相对重要程度。权重越大则该指标的重要性越高,对整体的影响就越高。 权重要满足两个条件:每个指标的权重在0、1之间。所有指标的权重和为1。 权重的确定方法有很多,这里我们学习用主成分分析确定权重。 一、主成分基本思想: 图1 主成分基本思想的问与答

二、利用主成分确定权重 如何利用主成分分析法确定指标权重呢?现举例说明。 假设我们对反映某卖场表现的4项指标(实体店、信誉、企业形象、服务)进行消费者满意度调研。调研采取4级量表,分值越大,满意度越高。现回收有效问卷2000份,并用SPSS 录入了问卷数据。部分数据见下图(详细数据见我的微盘,下载地址为 https://www.wendangku.net/doc/f6352733.html,/s/yR83T)。 图2 主成分确定权重示例数据(部分)

1、操作步骤: Step1:选择菜单:分析——降维——因子分析 Step2:将4项评价指标选入到变量框中 Step3:设置选项,具体设置如下: 2、输出结果分析 按照以上操作步骤,得到的主要输出结果为表1——表3,具体结果与分析如下:表1 KMO 和Bartlett 的检验

表1是对本例是否适合于主成分分析的检验。KMO的检验标准见图3。 图3 KMO检验标准 从图3可知,本例适合主成分分析的程度为…一般?,基本可以用主成分分析求权重。 表2 解释的总方差 从表2可知,前2个主成分对应的特征根>1,提取前2个主成分的累计方差贡献率达到94.513% ,超过80%。因此前2个主成分基本可以反映全部指标的信息,可以代替原来的4个指标(实体店、信誉、企业形象、服务)。

R语言主成分分析的案例

R 语言主成分分析的案例
R 语言也介绍到案例篇了,也有不少同学反馈说还是不是特别明白一些基础的东西,希望能 够有一些比较浅显的可以操作的入门。其实这些之前 SPSS 实战案例都不少,老实说一旦用 上了开源工具就好像上瘾了,对于以前的 SAS、clementine 之类的可视化工具没有一点 感觉了。本质上还是觉得要装这个、装那个的比较麻烦,现在用 R 或者 python 直接简单 安装下,导入自己需要用到的包,活学活用一些命令函数就可以了。以后平台上集成 R、 python 的开发是趋势,包括现在 BAT 公司内部已经实现了。 今天就贴个盐泉水化学分析资料的主成分分析和因子分析通过 R 语言数据挖掘的小李 子: 有条件的同学最好自己安装下 R,操作一遍。 今有 20 个盐泉,盐泉的水化学特征系数值见下表.试对盐泉的水化学分析资料作主成分分 析和因子分析.(数据可以自己模拟一份)
其中 x1:矿化度(g/L);

x2:Br?103/Cl; x3:K?103/Σ 盐; x4:K?103/Cl; x5:Na/K; x6:Mg?102/Cl; x7:εNa/εCl.
1.数据准备
导入数据保存在对象 saltwell 中 >saltwell<-read.table("c:/saltwell.txt",header=T) >saltwell
2.数据分析

1 标准误、方差贡献率和累积贡献率
>arrests.pr<- prcomp(saltwell, scale = TRUE) >summary(arrests.pr,loadings=TRUE)
2 每个变量的标准误和变换矩阵
>prcomp(saltwell, scale = TRUE)
3 查看对象 arests.pr 中的内容
>> str(arrests.pr)

主成分案例分析

主成分案例分析 主成分分析案例 ---我国各地区普通高等教育发展水平综合评价 (一)案例教学目的 主成分分析试图在力保数据信息丢失最少的原则下,对多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。本案例运用主成分分析方法综合评价我国各地区普通高等教育的发展水平。通过本案例的教学,力图使学生加深对主成分分析的统计思想和实际意义的理解,明确主成分分析方法的适用环境,掌握主成分分析软件实现操作方法,提高学生思考、分析和解决实际问题的能力。 (二)案例研究背景 近年来,我国普通高等教育得到了迅速发展,为国家培养了大批人才。但由于我国各地区经济发展水平不均衡,加之高等院校原有布局使各地区高等教育发展的起点不一致,因而各地区普通高等教育的发展水平存在一定的差异。对我国各地区普通高等教育的发展水平进行综合评价,明确各地区的差异,有利于管理和决策部门从宏观上把握各地区普通高等教育的发展现状,更好的指导和规划高教事业的健康发展。 (三)案例研究过程 1、建立综合评价指标体系 高等教育是依赖高等院校进行的,高等教育的发展状况主要体现在高等院校的相关方面。遵循选取评价指标的目的性和可比性原则,从高等教育的五个方面选取十项评价指标,具体如下:

2、数据资料 指标的原始数据取自《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以各地区相应的人口数得到十项指标值见表1。其中:x为每百万人口高等院校数;x为每十万人口高等院校毕业生数;x123为每十万人口高等院校招生数;x为每十万人口高等院校在校生数;4 x 为每十万人口高等院校教职工数;x 为每十万人口高等院校专职56 教师数;x为高级职称占专职教师的比例;x为平均每所高等院校的78 在校生数;x为国家财政预算内普通高教经费占国内生产总值的比9 重;x为生均教育经费。 10 表1-1 我国各地区普通高等教育发展状况数据地区 x x x x x x x x x x 12345678910北京1 5.96 310 461 1557 931 319 44.36 2615 2.2 13631 上海2 3.39 234 308 1035 498 161 35.02 3052 0.9 12665 天津3 2.35 157 229 713 295 109 38.4 3031 0.86 9385 陕西4 1.35 81 111 364 150 58 30.45 2699 1.22 7881 辽宁5 1.5 88 128 421 144 58 34.3 2808 0.54 7733 吉林6 1.67 86 120 370 153 58 33.53 2215 0.76 7480 黑龙江7 1.17 63 93 296 117 44 35.22 2528 0.58 8570 湖北8 1.05 67 92 297 115 43 32.89

主成分分析法及其在SPSS中的操作

一、主成分分析基本原理 概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。 思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。 原理:假定有n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵, 记原变量指标为x 1,x 2,…,x p ,设它们降维处理后的综合指标,即新变量为 z 1,z 2,z 3,… ,z m (m ≤p),则 系数l ij 的确定原则: ①z i 与z j (i ≠j ;i ,j=1,2,…,m )相互无关; ②z 1是x 1,x 2,…,x P 的一切线性组合中方差最大者,z 2是与z 1不相关的x 1,x 2,…,x P 的所有线性组合中方差最大者; z m 是与z 1,z 2,……,z m -1都不相关的x 1,x 2,…x P , 的所有线性组合中方差最大者。 新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x P 的第1,第2,…,第m 主成分。 从以上的分析可以看出,主成分分析的实质就是确定原来变量x j (j=1,2 ,…, p )在诸主成分z i (i=1,2,…,m )上的荷载 l ij ( i=1,2,…,m ; j=1,2 ,…,p )。 ?????? ? ???????=np n n p p x x x x x x x x x X 2 1 2222111211 ?? ??? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111............

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 公司销售净利率(X1)资产净利率(X2)净资产收益率(X3)销售毛利率(X4) 歌华有线五粮液用友软件太太药业浙江阳光烟台万华方正科技红河光明贵州茅台中铁二局红星发展伊利股份青岛海尔湖北宜化雅戈尔福建南纸43.31 17.11 21.11 29.55 11.00 17.63 2.73 29.11 20.29 3.99 22.65 4.43 5.40 7.06 19.82 7.26 7.39 12.13 6.03 8.62 8.41 13.86 4.22 5.44 9.48 4.64 11.13 7.30 8.90 2.79 10.53 2.99 8.73 17.29 7.00 10.13 11.83 15.41 17.16 6.09 12.97 9.35 14.3 14.36 12.53 5.24 18.55 6.99 54.89 44.25 89.37 73 25.22 36.44 9.96 56.26 82.23 13.04 50.51 29.04 65.5 19.79 42.04 22.72 第一,将EXCEL中的原始数据导入到SPSS软件中; 注意: 导入Spss的数据不能出现空缺的现象,如出现可用0补齐。 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。 所做工作: a. 原始数据的标准化处理

主成分分析法matlab实现,实例演示

利用Matlab 编程实现主成分分析 1.概述 Matlab 语言是当今国际上科学界 (尤其是自动控制领域) 最具影响力、也是 最有活力的软件。它起源于矩阵运算,并已经发展成一种高度集成的计算机语言。它提供了强大的科学运算、灵活的程序设计流程、高质量的图形可视化与界面设计、与其他程序和语言的便捷接口的功能。Matlab 语言在各国高校与研究单位起着重大的作用。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。 1.1主成分分析计算步骤 ① 计算相关系数矩阵 ?? ? ???? ???? ?? ?=pp p p p p r r r r r r r r r R 2 122221 11211 (1) 在(3.5.3)式中,r ij (i ,j=1,2,…,p )为原变量的xi 与xj 之间的相关系数,其计算公式为 ∑∑∑===----= n k n k j kj i ki n k j kj i ki ij x x x x x x x x r 1 1 2 2 1 )() () )(( (2) 因为R 是实对称矩阵(即r ij =r ji ),所以只需计算上三角元素或下三角元素即可。

② 计算特征值与特征向量 首先解特征方程0=-R I λ,通常用雅可比法(Jacobi )求出特征值 ),,2,1(p i i =λ,并使其按大小顺序排列,即0,21≥≥≥≥p λλλ ;然后分别求 出对应于特征值i λ的特征向量),,2,1(p i e i =。这里要求i e =1,即112 =∑=p j ij e ,其 中ij e 表示向量i e 的第j 个分量。 ③ 计算主成分贡献率及累计贡献率 主成分i z 的贡献率为 ),,2,1(1 p i p k k i =∑=λ λ 累计贡献率为 ) ,,2,1(11 p i p k k i k k =∑∑==λ λ 一般取累计贡献率达85—95%的特征值m λλλ,,,21 所对应的第一、第二,…,第m (m ≤p )个主成分。 ④ 计算主成分载荷 其计算公式为 ) ,,2,1,(),(p j i e x z p l ij i j i ij ===λ (3)

主成分分析法的原理应用及计算步骤..

一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点: ↓主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关 通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性 总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。 二、基本原理 主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP (比如p 个指标),重新组合成一组较少个数的互不相关的综合指标Fm 来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp 所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。 设F1表示原变量的第一个线性组合所形成的主成分指标,即 11112121...p p F a X a X a X =+++,由数学知识可知,每一个主成分所提取的信息量可 用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,…,XP 的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p 个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以F2是与F1不

主成分分析 实例

§8 实例 实例1 计算得 1x =71.25,2x =67.5 分析1:基于协差阵∑ 求主成分。 369.6117.9117.9214.3S ?? = ??? 特征根与特征向量(S无偏,用SPSS ) Factor 1 Factor 2 11x x - 0.880 -0.474 22x x - 0.474 0.880 特征值 433.12 150.81 贡献率 0.7417 0.2583 注:样本协差阵为无偏估计11(11)1n n n S X I X n n ''= --, 所以,第一、二主成分的表达式为 112212 0.88(71.25)0.47(67.5) 0.47(71.25)0.88(67.5)y x x y x x =-+-?? =--+-? 第一主成分是英语与数学的加权和(反映了综合成绩),且英语的权数要大于数学的权数。1y 越大,综合成绩越好。(综合成分) 第二主成分的两个系数异号(反映了两科成绩的均衡性)。不妨将英语称为文科,数学称为理科。2y 越大,说明偏科(文、理成绩不均衡),2y 越小,越接近于零,说明不偏科(文、理成绩均衡)。(结构成分)

问题:英语的权数为何大?如何解释? 分析2: 基于相关阵R 求主成分。因为 1x =71.25,2x =67.5 所以相关阵 11R ? =? ? ? 解得R 的特征根为:1λ=1.419,2λ=0.581,对应的单位特征向量分别为: Factor 1 Factor 2 11 1x x s - 0.707 0.707 22 2 x x s - 0.707 -0.707 特征根 1.419 0.581 贡献率 0.709 0.291 所以,第一、二主成分的表达式为 12112271.2567.50.7070.70717.9813.6971.2567.50.7070.70717.9813.69x x y x x y --? =+=+?? ? --?=-=-?? 1122120.039(71.25)0.052(67.5) 0.039(71.25)0.052(67.5)y x x y x x =-+-?? =---? 112212 0.0390.052 6.273 0.0390.0520.671y x x y x x =+-?? =-+? * 2*11707.0707.0x x y += *2*12707.0707.0x x y -= 基于相关阵的更说明了: 第一主成分是英语与数学的加权总分。 第二主成分是对两科成绩均衡性的度量。 此例说明:基于协差阵与基于相关阵的主成分分析的结果不一致。结合此例的实际背景,经对比分析可知,基于协差阵的主成分分析更符合实际。

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 第一,将EXCEL中的原始数据导入到SPSS软件中; 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。

数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性,可以举个简单的例子,一个百分制的变量与一个5分值的变量在一起怎么比较?只有通过数据标准化,都把它们标准到同一个标准时才具有可比性,一般标准化采用的是Z标准化,即均值为0,方差为1,当然也有其他标准化,比如0--1标准化等等,可根据自己的研究目的进行选择,这里介绍怎么进行数据的Z标准化。 所的结论: 标准化后的所有指标数据。 注意: SPSS 在调用Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但SPSS 并不直接给出标准化后的数据, 如需要得到标准化数据, 则需调用Descriptives 过程进行计算。 factor过程对数据进行因子分析(指标之间的相关性判定略)。 【1】“分析”|“降维”|“因子分析”选项卡,将要进行分析的变量选入“变量”列表;

【2】设置“描述”,勾选“原始分析结果”和“KMO与Bartlett球形度检验”复选框; 【3】设置“抽取”,勾选“碎石图”复选框; 【4】设置“旋转”,勾选“最大方差法”复选框; 【5】设置“得分”,勾选“保存为变量”和“因子得分系数”复选框; 【6】查看分析结果。 所做工作: a.查看KMO和Bartlett 的检验 KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析; Bartlett 球度度检验的Sig值越小于显著水平0.05,越说明变量之间存在相关关系。 所的结论: 符合因子分析的条件,可以进行因子分析,并进一步完成主成分分析。 注意: 1.KMO(Kaiser-Meyer-Olkin) KMO统计量是取值在0和1之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。 Kaiser给出了常用的kmo度量标准: 0.9以上表示非常适合;0.8表示适合;0.7表示一般; 0.6表示不太适合;0.5以下表示极不适合。 2.Bartlett 球度检验: 巴特利特球度检验的统计量是根据相关系数矩阵的行列式得到的,如果该值较大,且其对应的相伴概率值小于用户心中的显著性水平,那么应该拒绝零假设,认为相关系数矩阵不可能是单位阵,即原始变量之间存在相关性,适合于做主成份分析;相反,如果该统计量比较小,且其相对应的相伴概率大于显著性水平,则不能拒绝零假设,认为相关系数矩阵可能是单位阵,不宜于做因子分析。 Bartlett 球度检验的原假设为相关系数矩阵为单位矩阵,Sig值为0.001小于显著水平0.05,因此拒绝原假设,说明变量之间存在相关关系,适合做因子分析。 所做工作: b. 全部解释方差或者解释的总方差(Total Variance Explained)

主成分分析原理

主成分分析原理 (一)教学目的 通过本章的学习,对主成分分析从总体上有一个清晰地认识,理解主成分分析的基本思想和数学模型,掌握用主成分分析方法解决实际问题的能力。 (二)基本要求 了解主成分分析的基本思想,几何解释,理解主成分分析的数学模型,掌握主成分分析方法的主要步骤。 (三)教学要点 1、主成分分析基本思想,数学模型,几何解释 2、主成分分析的计算步骤及应用 (四)教学时数 3课时 (五)教学内容 1、主成分分析的原理及模型 2、主成分的导出及主成分分析步骤 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。 第一节主成分分析的原理及模型 一、主成分分析的基本思想与数学模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。

主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。 (二)主成分分析的数学模型 对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为: ?? ? ? ? ? ? ??=np n n p p x x x x x x x x x X 2 1 22221 11211 ()p x x x ,,21= 其中:p j x x x x nj j j j ,2,1, 21=???? ?? ? ??= 主成分分析就是将 p 个观测变量综合成为p 个新的变量(综合变量),即 ?? ???? ?+++=+++=+++=p pp p p p p p p p x a x a x a F x a x a x a F x a x a x a F 22112222121212121111 简写为: p jp j j j x x x F ααα+++= 2211 p j ,,2,1 = 要求模型满足以下条件:

主成分分析法概念及例题

主成分分析法 主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法 [编辑] 什么是主成分分析法 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 [编辑] 主成分分析的基本思想

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [编辑] 主成分分析的主要作用

主成分分析计算方法和步骤

主成分分析计算方法和步骤: 在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。 主成分分析的应用目的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。 主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征根和特征向量; ④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。 结合数据进行分析 本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了0.963,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。 表5-6 相关系数矩阵 本科院校 数招生人数教育经费投入 相关性师生比0.279 0.329 0.252 重点高校数0.345 0.204 0.310 教工人数0.963 0.954 0.896 本科院校数 1.000 0.938 0.881 招生人数0.938 1.000 0.893 教育经费投 0.881 0.893 1.000 入

主成分分析也称主分量分析

主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 [编辑] 主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的

相关文档