文档库 最新最全的文档下载
当前位置:文档库 › EDX安装培训:EDX分析线的重叠

EDX安装培训:EDX分析线的重叠

EDX分析线的重叠

方法:因子分析法

因子分析基础理论知识 1 概念 因子分析(Factor analysis ):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 主成分分析(Principal component analysis ):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。 两者关系:主成分分析(PCA )和因子分析(FA )是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。 2 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显着的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显着的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。 3 类型 根据研究对象的不同,把因子分析分为R 型和Q 型两种。 当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。 但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。 4分析原理 假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 : ?????? ????? ???=np n n p p x x x x x x x x x X ΛM M M M ΛΛ212222111211

(完整版)SPSS因子分析法-例子解释

因子分析的基本概念和步骤 一、因子分析的意义 在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在: 计算量的问题 由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。 变量间的相关性问题 收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。类似的问题还有很多。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富和完善。 因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。通常,因子有以下几个特点: ↓因子个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓因子能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓因子之间的线性关系并不显著 由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。 ↓因子具有命名解释性 通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解

因子分析方法

因子分析法 1.因子分析(Factor Analysis) 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。 因子分析法与其他一些多元统计方法的区别: 2.主成分分析 主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到。所以这种区分不是绝对的。 总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。

SPSS探索性因子分析的过程

S P S S探索性因子分析的 过程 Company Document number:WUUT-WUUY-WBBGB-BWYTT-1982GT

现要对远程学习者对教育技术资源和使用情况进行了解,设计一个李克特量表,如下图所示: 一.因子分析的定义 在现实研究过程中,往往需要对所反映事物、现象从多个角度进行观测。因此研究者往往设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律。多变量大样本虽然会为我们的科学研究提供丰富的信息,但却增加了数据采集和处理的难度。更重要的是许多变量之间存在一定的相关关系,导致了信息的重叠现象,从而增加了问题分析的复杂性。 因子分析是将现实生活中众多相关、重叠的信息进行合并和综合,将原始的多个变量和指标变成较少的几个综合变量和综合指标,以利于分析判定。用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间彼此是不相关的,代表各类信息的综合指标成为因子。因子分析就是用少数几个因子来描述许多指标之间的联系,以较少几个因子反应原资料的大部分信息的统计方法。 二.数学模型 Z为第i个变量的标准化分数;(标准分是一种由原始分出来的,它是用来说明原始分i 在所属的那批分数中的相对位置的。)

m F 为共同因子; m 为所有变量共同因子的数目; i U 为变量i Z 的唯一因素; im α为因子负荷。(也叫因子载荷,统计意义就是第i 个变量与第m 个公共因子的相关 系数,它反映了第i 个变量在第m 个公共因子上的相对重要性也就是第m 个共同因子对第i 个变量的解释程度。) 因子分析的理想情况,在于个别因子负荷im α不是很大就是很小,这样每个变量才能与较少的共同因子产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则i U 彼此间不能有关联存在。 所谓的因子负荷就是因子结构中原始变量与因子分析时抽取出共同因子的相关,即在各个因子变量不相关的情况下,因子负荷im α就是第i 个原有变量和第m 个因子变量间的相关系数,也就是i Z 在第m 个共同因子变量上的相对重要性,因此,im α绝对值越大则公共因子和原有变量关系越强。在因子分析中有两个重要指针:一为“共同性”,二为“特征值”。 所为共同性,也称变量共同度或者公共方差,就是每个变量在每个共同因子的负荷量的平方总和(一横列中所有因子负荷的的平方和),也就是个别变量可以被共同因子解释的变异量百分比,这个值是个别变量与共同因子间多元相关的平方。从共同性的大小可以判断这个原始变量与共同因子间的关系程度。如果大部分变量的共同度都高于,则说明提取出的共同因子已经基本反映了各原始变量80%以上的信息,仅有较少的信息丢失,因子分析效果较好。而各变量的唯一因素就是1减掉该变量共同性的值,就是原有变量不能被因子变量所能解释的部分。 所谓特征值,是每个变量在某一共同因子的因子负荷的平方总和(一直行所有因子

SPSS因子分析法22

实验课:因子分析 实验目的 理解主成分(因子)分析的基本原理,熟悉并掌握SPSS中的主成分(因子)分析方法及其主要应用。 因子分析 一、基础理论知识 1 概念 因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。 两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。 2 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。

3 类型 根据研究对象的不同,把因子分析分为R 型和Q 型两种。 当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。 但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。 4分析原理 假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 : 当p 较大时,在p 维空间中考察问题比较麻烦。这就需要进行降维处理,即用较少几个 综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。 线性组合:记x1,x2,…,xP 为原变量指标,z1,z2,…,zm (m ≤p )为新变量指标(主成分),则其线性组合为: Lij 是原变量在各主成分上的载荷 无论是哪一种因子分析方法,其相应的因子解都不是唯一的,主因子解仅仅是无数因子解中之一。 zi 与zj 相互无关; z1是x1,x2,…,xp 的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…的所有线性组合中方差最大者。则,新变量指标z1,z2,…分别称为原变量指标的第一,第二,…主成分。 Z 为因子变量或公共因子,可以理解为在高维空间中互相垂直的m 个坐标轴。 主成分分析实质就是确定原来变量xj (j=1,2 ,…,p )在各主成分zi (i=1,2,…,m )上的荷载 lij 。 从数学上容易知道,从数学上也可以证明,它们分别是相关矩阵的m 个较大的特征值所对应的特征向量。 ?? ? ??? ????? ???=np n n p p x x x x x x x x x X 2 1 222 21 11211?? ? ?? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111?? ? ?? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111

因子分析法详解和实例

第 12 章因子分析 12.1 因子分析的理论与方法 12.1.1 因子分析的基本思想 多元统计分析处理的是多变量问题。由于变量较多,增加了分析问题的复杂性。但在实 际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。 因子分析(factor analysis)就是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。这几个抽象的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。例如,在商业企业的形象评价中,消费者可以通过一系列指标构成的一个评价指标体系,评价百货商场的各个方面的优劣。但消费者真正关心的只是三个方面:商店的环境、商店的服务和商品的价格。这三个方面除了价格外,商店的环境和服务质量,都是客观存在的、抽象的影响因素,都不便于直接测量,只能通过其它具体指标进行间接反映。 因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。又比如,在研究区域社会经济发展中,描述社会与经济现象的指标很多,过多的指标容易导致分析过程复杂化。一个合适的做法就是从这些关系错综复杂的社会经济指标中提取少数几个主要因子,每一个主要因子都能反映相互依赖的社会经济指标间共同作用,抓住这些主要因素就可以帮助我们对复杂的社会经济发展问题进行深入分析、合理解释和正确评价。 12.1.2 因子分析的数学模型 因子分析中的公共因子是不可直接观测但又客观存在的共同影响因素,每一个变量都可 以表示成公共因子的线性函数与特殊因子之和,即 1122iiiimmXaFaFaFε=++++L,(1,2,,ip=L) 式中的,,称为公共因子,1FL,2FmFiε 称为的特殊因子。该模型可用矩阵表示 为: iX

主成分分析与因子分析的主要方法和思想

1.(10分)数据中心化和标准化在回归分析中的意义是什么? 在多元线性回归分析中,因为涉及多个自变量,自变量的单位往往不同,会给分析带来一定的困难,又由于涉及的数据量很大,就可能会以舍入误差而使得计算结果不理想. 1.中心化处理后可以减少一个未知参数,减少了计算的工作量,对手工计算尤为重要. 2.标准化处理后有利于消除量纲不同和数量级的差异所带来的影响,避免不必要的误差. 2.(10分)在实际问题中运用多元线性回归应注意哪些问题? 在实际问题中,人们用复相关系数R来表示回归方程对原有数据拟合程度的好坏,但是拟合优度并不是检验模型优劣的唯一标准,有时为了使模型从结构上有较合理的经济解释,R2等于0.7左右也给回归模型以肯定的态度. 在多元线性回归分析中,我们并不看重简单相关系数,而认为偏相关系数才是真正反映因变量y与自变量x i以及自变量x i与x j的相关性的数量. 用相关系数R2大小来衡量模型的拟合优度,不能仅由R2值很大来推断模型优劣. 在实际应用回归方程进行控制和预测时,给定的x0值不能偏离样本均值太大,如果太大,用回归方程无论是作因素分析还是经济预测,效果都不会理想. 得到实际问题的经验回归方程后,还不能马上用它去作分析和预测,还需运用统计方法对回归方程进行检验. 3.(15分)主成分分析与因子分析的主要方法和思想是什么?两者有何联系与区别? 求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知),采用的方法只有主成分法。 一、主成分分析的基本思想 在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。这样就产

因子分析步骤范例

因子分析步骤 范例来源:语言研究应用SPSS软件实例大全 某对外汉语培训中心对在该中心学习的外国留学生进行了一项汉语学习动机问卷调查。使用李克特五级式量表。第一级为最不喜欢,第五级为最喜欢。随机抽取18人参加调查。其中—个项目调查的是“内在动机”或称“内在兴趣动机”,了解留学生对汉语语言、文化的兴迎与喜爱。该项目分为六个问题。整理数据如下 一、建立数据集

二、打开Factor analysis主对话框 1. Analyze(分析)—Deta reduction (数据化简)--factor (因素) 2. 所有数据放入variable框内

三、进入Factor analysis主对话框右边的子对话框 (一) Descriptive子对话框 1. 选择Univariables(单变量描述统计量):会输出每个变量的平均数、标准差和观测量 2.选择Initial solution(初步结果):会输出原始分析结果:公因子方差、协方差、各因子的特征值、所占总方差的百分比、累计百分比。这是默认系统,应该保留。 3. Correlation Matrix(相关矩阵)围栏,选项含可选择的相关指标与相关检验:常常选择(1)(4) (1)coeffieient (相关系数),列出各变量间的相关系数矩阵。 (2)Significance level(显著性水平),列出各变量单侧检验的P值。 (3)Determinant(行列式)选项,输出相关系数矩阵的行列式。 (4)KMO and Barlett’s tests of sphericity (开塞-梅耶-欧巴金和巴莱特球性检验)选项(K-Kaiser, M-Meyer, O-Olkin): 列出球性检验的结果,显示因素模型是否合理。 (5)Inverse (逆矩阵):列出相关系数的逆矩阵。 (6)Reproduced (在生相关矩阵),列出因子分析后估计的相关矩阵与残差。

因子分析的步骤

因子分析的步骤 1、评价指标体系: 我国31个省市自治区2006年的6项主要经济指标数据: 人均GDP、财政收入、固定资产投资、年末总人口、居民消费水平、社会消费品零售总额 2、考察数据是否适合做因子分析 运用因子分析方法的前提是,变量之间存在线性的关系,这样才能够达到减少变量,方便分析的目的。通过变量的相关矩阵可知,大多数变量的相关系数大于0.3,具有较强的相关性。 同时,对上述变量进行KMO测试度和Baetlett球体检验,见下表: ,相应的概率P接近0.如果显著性水平为0.05,由于概率P小于显著性水平0.05,应拒绝原假设,认为相关矩阵与单位矩阵有显著差异。同时,KMO值为0.695,较好的达到了标准,可以运用因子分析的方法。 3、提取因子 根据原来变量的相关系数矩阵,采用主成分分析法提取因子并选取大于1的特征根。

表中第3列是根据因子分析最终解计算出的变量共同度。可以看出,变量的绝大部分信息可被因子分析,信息丢失较少。因子提取的总体效果比较好。 看表的第2列,变量相关系数矩阵有2个特征根大于1,它们分别是:3.963,1.771。它们一起解释了各省市综合发展情况的95.57%。也就是说前2个因子集中体现了原始数据大部分的信息,因此,提取2个公共因子是合适的,能够比较全面的反映情况。同时可以参考碎石图来验证。

该图的横坐标为因子数目,纵坐标为特征根。曲线迅速下降,然后下降变得平缓,从第3个因子开始变成近似一条直线,特征根值小于1,解释原有的变量贡献小。曲线变平开始的前一个点被认为是提取的最大因子数,即提取2个公因子。第3个因子后面的这些散点像山脚下的碎石,可以舍去,不会损失太多信息。 4、因子的命名与解释 计算输出因子载荷矩阵,是用标准化的公因子近似表示标准化原始变量的系数矩阵,见下表:

因子分析的基本思想、基本步骤、数学模型及求解

一、因子分析 1因子分析的基本思想 1.1因子分析的基本出发点 将原始指标综合成较少的指标,这些指标能够反映原始指标的绝大部分信息(方差),这些综合指标之间没有相关性。 1.2因子变量的特点 (1)这些综合指标称为因子变量,是原变量的重造; (2)个数远远少于原变量个数,但可反映原变量的绝大部分方差; (3)不相关性; (4)可命名解释性。 2因子分析的基本步骤 (1)确认待分析的原始变量是否适合作因子分析; (2)构造因子变量; (3)利用旋转方法使因子变量具有可解释性; (4)计算每个样本的因子变量得分。 3因子分析的数学模型 数学模型3为标准化的原始变量;F|为因子变量;k

4因子分析的相关概念 (1)因子载荷 在因子变量不相关的条件下,,就是第i个原始变量与第j个因子变量的相关系数。询绝对值越大,则X与R的关系越强。 (2)变量的共同度(Communality) 也称公共方差。\的变量共同度为因子载荷矩阵A中第i行元素的平方和。 ? = 2站可见:K的共同度反应了全部因子变量对为总方差的解释能力。 (3)因子变量Fj的方差贡献 因子变量Fj的方差贡献为因子载荷矩阵A中第j列各元素的平方和 P S产£站可见:因子变量Fj的方差贡献体现了同一因子Fj对原始所有变量f=l 总方差的解释能力,Sj/p表示了第j个因子解释原所有变量总方差的比例。 5原有变量是否适合作因子分析 计算原有变量的相关系数矩阵,一般小于0.3就不适合作因子分析。 6确定因子变量-■主成份分析 6.1主成份分析法的数学模型 凹=外西+"】2工2 +岡3另+…卩料 夕2 =+“22工2 +“23毛+—/Z2p X p 外=,3』+〃32工2 +〃33毛+??/3p" 丹=,「祈+卩pg +卩p3…,,卩ppXp 将原有的P个相关变量Xi作线性变换后转成另一组不相关的变量Yi 该方程组要求:身;+间+活=1。= 1,2,3…〃) 系数与依照两个原则来确定: 1、吊与方(同,侦=1,2,3,??叩)互不相关; 2、y i是XU2,X3,…,冲的一切线性组合(系数满足上述方程组)中方差最大的;y2是与yi不相关的乂叫叫,…,冲的一切线性组合中方差次大的;yp是与yi, y2, y3,…孙都不相关的Xi,X2,X3,…,%的一切线性组合中方差最小的;

浅谈主成分分析与因子分析-基本思想-主要性质-应用举例-计算步骤-主要区别

浅谈主成分分析与因子分析 1、主成分分析 主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析,也是数学上处理降维的一种方法。主成分分析的一般目的是:(1)变量的降维;(2)主成分的解释。 1.1基本思想 主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。这些主成分不仅不相关,而且他们的方差依次递减。 1.2计算步骤 设有n个样品,每个样品观测P个指标,将原始数据写成矩阵。

(1)将原始数据标准化,即将每个指标的原始数据减去这个指标的均值后,再 除以这个指标的标准差。 (2)建立变量的相关系数阵:。 (3)求R 的特征根及相应的单位特征向量。 在解决实际问题时,一般不是取p 个主成分,而是根据累计贡献率的大小 取前k 个,称第一主成分的贡献率为 ,这个值越大,表明第一主成分综合信息的能力越强。前k 个主成分的累计贡献率达到85%,表明取前k 个主成分基本包含了全部测量指标所具有的信息。 1.3算法原理 (1)对资料阵 ??????????????=np n p p x x x x x x X ...................................1221111标准化,得??????????????=np n p p a a a a a a A ................................1221111 其中 2 )(1/)(j ij j ij ij x x n X x a --= i=1,2......n, j=1,2,......P 。 (2)求出相关矩阵??????????????=pp n p p r r r r r r R .. (1221111)

相关文档
相关文档 最新文档