文档库 最新最全的文档下载
当前位置:文档库 › 因子分析的基本概念和步骤

因子分析的基本概念和步骤

因子分析的基本概念和步骤
因子分析的基本概念和步骤

因子分析的基本概念和步骤

一、因子分析的意义

在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在:

计算量的问题

由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。

变量间的相关性问题

收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。类似的问题还有很多。

为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。

因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富和完善。

因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。通常,因子有以下几个特点:

↓因子个数远远少于原有变量的个数

原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。

↓因子能够反映原有变量的绝大部分信息

因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。

↓因子之间的线性关系并不显著

由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。

↓因子具有命名解释性

通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解

释性有助于对因子分析结果的解释评价,对因子的进一步应用有重要意义。例如,对高校科研情况的因子分析中,如果能够得到两个因子,其中一个因子是对科研人力投入、经费投入、立项项目数等变量的综合,而另一个是对结项项目数、发表论文数、获奖成果数等变量的综合,那么,该因子分析就是较为理想的。因为这两个因子均有命名可解释性,其中一个反映了科研投入方面的情况,可命名为科研投入因子,另一个反映了科研产出方面的情况,可命名为科研产出因子。

总之,因子分析是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。

二、因子分析的基本概念

1、因子分析模型

因子分析模型中,假定每个原始变量由两部分组成:共同因子(common factors )和唯一因子(unique factors )。共同因子是各个原始变量所共有的因子,解释变量之间的相关关系。唯一因子顾名思义是每个原始变量所特有的因子,表示该变量不能被共同因子解释的部分。原始变量与因子分析时抽出的共同因子的相关关系用因子负荷(factor loadings )表示。

因子分析最常用的理论模式如下:

j m jm j j j j U F a F a F a F a Z ++???+++=332211(j=1,2,3…,n ,n 为原始变量总数) 可以用矩阵的形式表示为U AF Z +=。其中F 称为因子,由于它们出现在每个原始变量的线性表达式中(原始变量可以用j X 表示,这里模型中实际上是以F 线性表示各个原始变量的标准化分数j Z ),因此又称为公共因子。因子可理解为高维空间中互相垂直的m 个坐标轴,A 称为因子载荷矩阵,)...3,2,1,...3,2,1(m i n j a ji ==称为因子载荷,是第j 个原始变量在第i 个因子上的负荷。如果把变量j Z 看成m 维因子空间中的一个向量,则ji a 表示j Z 在坐标轴i F 上的投影,

相当于多元线性回归模型中的标准化回归系数;U 称为特殊因子,表示了原有变量不能被因子解释的部分,其均值为0,相当于多元线性回归模型中的残差。

其中,

(1)j Z 为第j 个变量的标准化分数; (2)i F (i=1,2,…,m )为共同因素; (3)m 为所有变量共同因素的数目; (4)j U 为变量j Z 的唯一因素; (5)ji a 为因素负荷量。

2、因子分析数学模型中的几个相关概念 因子载荷(因素负荷量factor loadings )

所谓的因子载荷就是因素结构中,原始变量与因素分析时抽取出共同因素的相关。可以证明,在因子不相关的前提下,因子载荷ji a 是变量j Z 和因子i F 的相关系数,反映了变量j Z 与因子i F 的相关程度。因子载荷ji a 值小于等于1,绝对值越接近1,表明因子i F 与变量j Z 的相关性越强。同时,因子载荷ji a 也反映了因子i F 对解释变量j Z 的重要作用和程度。因子载荷作为因子分析模型中的重要统计量,表明了原始变量和共同因子之间的相关关系。因素分析的理想情况,在于个别因素负荷量ji a 不是很大就是很小,这样每个变量才能与较少的共同因素产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则j U 彼此间或与共同因素间就不能有关联存在。一般说来,负荷量为0.3或更大被认为有意义。所以,当要判断一个因子的意义时,需要查看哪些变量的负荷达到了0.3或0.3以上。

↓变量共同度(共同性,Communality )

变量共同度也就是变量方差,就是指每个原始变量在每个共同因子的负荷量的平方和,也就是指原始变量方差中由共同因子所决定的比率。变量的方差由共同因子和唯一因子组成。共同性表明了原始变量方差中能被共同因子解释的部分,共同性越大,变量能被因子说明的程度越高,即因子可解释该变量的方差越多。共同性的意义在于说明如果用共同因子替代原始变量后,原始变量的信息被保留的程度。因子分析通过简化相关矩阵,提取可解释相关的少数因子。一个因子解释的是相关矩阵中的方差,而解释方差的大小称为因子的特征值。一个因子的特征值等于所有变量在该因子上的负荷值的平方总和。变量j Z 的共同度2

h 的数学定义为:∑==m

i ji a h 1

2

2

,该式表明变量j Z 的共同度是因子

载荷矩阵A 中第j 行元素的平方和。由于变量j Z 的方差可以表示成122=+u h ,因此变量j Z 的方差可由两个部分解释:第一部分为共同度2h ,是全部因子对变量j Z 方差解释说明的比例,体现了因子全体对变量j Z 的解释贡献程度。变量共同度2h 越接近1,说明因子全体解释说明了变量j Z 的较大部分方差,如果用因子全体刻画变量j Z ,则变量j Z 的信息丢失较少;第二部分为特殊因子U 的平方,反应了变量j Z 方差中不能由因子全体解释说明的比例,2u 越小则说明变量j Z 的信息丢失越少。

总之,变量d 共同度刻画了因子全体对变量j Z 信息解释的程度,是评价变量j Z 信息丢失程度的重要指标。如果大多数原有变量的变量共同度均较高(如高于0.8),则说明提取的因子能够反映原有变量的大部分信息(80%以上)信息,仅有较少的信息丢失,因子分析的效果较好。因子,变量共同度是衡量因子分析效果的重要依据。

↓因子的方差贡献(特征值eigenvalue )

因子的方差贡献(特征值)的数学定义为:2

1

2

∑==n

j ji i a S ,该式表明,因子i F 的方差

贡献是因子载荷矩阵A 中第i 列元素的平方和。因子i F 的方差贡献反映了因子i F 对原有变量总方差的解释能力。该值越高,说明相应因子的重要性越高。因此,因子的方差贡献和方差贡献率是衡量因子重要性的关键指标。

为了便于说明,以三个变量抽取两个共同因素为例,三个变量的线性组合分别为:

12121111U F a F a Z ++= 22221212U F a F a Z ++=

32321313U F a F a Z ++=

素负荷量的平方和),也就是个别变量可以被共同因素解释的变异量百分比,这个值是个别变量与共同因素间多元相关的平方。从共同性的大小可以判断这个原始变量与共同因素之间关系程度。而各变量的唯一因素大小就是1减掉该变量共同性的值。(在主成分分析中,有多少个原始变量便有多少个“component ”成分,所以共同性会等于1,没有唯一因素)。

至于特征值是每个变量在某一共同因素之因素负荷量的平方总和(一直行所有因素负荷量的平方和)。在因素分析之共同因素抽取中,特征值大的共同因素会最先被抽取,其次是次大者,最后抽取的共同因素之特征值最小,通常会接近0(在主成分分析中,有几个题项,便有几个成分,因而特征值的总和刚好等于变量的总数)。将每个共同因素的特征值除以总题数,为此共同因素可以解释的变异量,因素分析的目的,即在因素结构的简单化,希望以最少的共同因素,能对总变异量作最大的解释,因而抽取的因素越少越好,但抽取因素之累积解释的变异量则越大越好。

3、社会科学中因素分析通常应用在三个层面: (1)显示变量间因素分析的组型(pattern )

(2)侦测变量间之群组(clusters ),每个群组所包括的变量彼此相关很高,同构型较大,亦即将关系密切的个别变量合并为一个子群。

(3)减少大量变量数目,使之称为一组涵括变量较少的统计自变量(称为因素),每个因素与原始变量间有某种线性关系存在,而以少数因素层面来代表多数、个别、独立的变量。

因素分析具有简化数据变量的功能,以较少层面来表示原来的数据结构,它根据变量间彼此的相关,找出变量间潜在的关系结构,变量间简单的结构关系称为“成份”(components )或“因素”(factors ).

三、因素分析的主要方式

围绕浓缩原有变量提取因子的核心目标,因子分析主要涉及以下五大基本步骤:

1、因子分析的前提条件

由于因子分析的主要任务之一是对原有变量进行浓缩,即将原有变量中的信息重叠部分提取和综合成因子,进而最终实现减少变量个数的目的。因此它要求原有变量之间应存在较强的相关关系。否则,如果原有变量相互独立,相关程度很低,不存在信息重叠,它们不可能有共同因子,那么也就无法将其综合和浓缩,也就无需进行因子分析。本步骤正是希望通过各种方法分析原有变量是否存在相关关系,是否适合进行因子分析。

SPSS 提供了四个统计量可帮助判断观测数据是否适合作因子分析: (1)计算相关系数矩阵Correlation Matrix

在进行提取因子等分析步骤之前,应对相关矩阵进行检验,如果相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析;当原始变量个数较多时,所输出的相关系数矩阵特别大,观察起来不是很方便,所以一般不会采用此方法或即使采用了此方法,也不方便在结果汇报中给出原始分析报表。

(2)计算反映象相关矩阵Anti-image correlation matrix

反映象矩阵重要包括负的协方差和负的偏相关系数。偏相关系数是在控制了其他变量对两变量影响的条件下计算出来的净相关系数。如果原有变量之间确实存在较强的相互重叠以及传递影响,也就是说,如果原有变量中确实能够提取出公共因子,那么在控制了这些影响后的偏相关系数必然很小。

反映象相关矩阵的对角线上的元素为某变量的MSA (Measure of Sample Adequacy )统计量,其数学定义为:

∑∑∑≠≠≠+=

i

j i

j ij

ij

i

j ij

i p r

r MSA 2

2

2

,其中,ij r 是变量i x 和其他变量j x (i j ≠)间的简单相关系

数,ij p 是变量j x (i j ≠)在控制了剩余变量下的偏相关系数。由公式可知,某变量i x 的

i MSA 统计量的取值在0和1之间。当它与其他所有变量间的简单相关系数平方和远大于偏相关系数的平方和时,i MSA 值接近1。i MSA 值越接近1,意味变量i x 与其他变量间的相关性越强;当它与其他所有变量间的简单相关系数平方和接近0时,i MSA 值接近0。

i MSA 值越接近0,意味变量i x 与其他变量间的相关性越弱。

观察反映象相关矩阵,如果反映象相关矩阵中除主对角元素外,其他大多数元素的绝对值均小,对角线上元素的值越接近1,则说明这些变量的相关性较强,适合进行因子分析。与(1)中最后所述理由相同,一般少采用此方法。

(3)巴特利特球度检验Bartlett test of sphericity

Bartlett球体检验的目的是检验相关矩阵是否是单位矩阵(identity matrix),如果是单位矩阵,则认为因子模型不合适。Bartlett球体检验的虚无假设为相关矩阵是单位阵,如果不能拒绝该假设的话,就表明数据不适合用于因子分析。一般说来,显著水平值越小(<0.05)表明原始变量之间越可能存在有意义的关系,如果显著性水平很大(如0.10以上)可能表明数据不适宜于因子分析。

(4)KMO(Kaiser-Meyer-Oklin Measure of Smapling Adequacy)

KMO是Kaiser-Meyer-Olkin的取样适当性量数。KMO测度的值越高(接近1.0时),表明变量间的共同因子越多,研究数据适合用因子分析。通常按以下标准解释该指标值的大小:KMO值达到0.9以上为非常好,0.8~0.9为好,0.7~0.8为一般,0.6~0.7为差,0.5~0.6为很差。如果KMO测度的值低于0.5时,表明样本偏小,需要扩大样本。

综上所述,经常采用的方法为巴特利特球度检验Bartlett test of sphericity和KMO (Kaiser-Meyer-Oklin Measure of Smapling Adequacy)。

2、抽取共同因子,确定因子的数目和求因子解的方法

将原有变量综合成少数几个因子是因子分析的核心内容。本步骤正是研究如何在样本数据的基础上提取和综合因子。决定因素抽取的方法,有“主成份分析法”(principal components analysis)、主轴法、一般化最小平方法、未加权最小平方法、最大概似法、Alpha因素抽取法与映象因素抽取法等。使用者最常使用的是主成份分析法与主轴法,其中,又以主成份分析法使用最为普遍,在SPSS使用手册中,也建议研究者多采用主成份分析法来估计因素负荷量(SPSS Inc,1998)。所谓主成份分析法,就是以较少的成份解释原始变量方差的较大部分。进行主成份分析时,先要将每个变量的数值转换成标准值。主成份分析就是用多个变量组成一个多维空间,然后在空间内投射直线以解释最大的方差,所得的直线就是共同因子,该直线最能代表各个变量的性质,而在此直线上的数值所构

成的一个变量就是第一个共同因子,或称第一因子(

F)。但是在空间内还有剩余的方差,

1

所以需要投射第二条直线来解释方差。这时,还要依据第二条准则,即投射的第二条直线与第一条直线成直交关系(即不相关),意为代表不同的方面。第二条直线上的数值所

F)。依据该原理可以求出第三、第四或更多的因子。构成的一个变量,称为第二因子(

2

原则上,因子的数目与原始变量的数目相同,但抽取了主要的因子之后,如果剩余的方差很小,就可以放弃其余的因子,以达到简化数据的目的。

因子数目的确定没有精确的定量方法,但常用的方法是借助两个准则来确定因子的个数。一是特征值(eigenvalue)准则,二是碎石图检验(scree test)准则。特征值准则就是选取特征值大于或等于1的主成份作为初始因子,而放弃特征值小于1的主成份。因为每个变量的方差为1,该准则认为每个保留下来的因子至少应该能解释一个变量的方差,否则达不到精简数据的目的。碎石检验准则是根据因子被提取的顺序绘出特征值随因子个数变化的散点图,根据图的形状来判断因子的个数。散点曲线的特点是由高到低,先陡后平,最后几乎成一条直线。曲线开始变平的前一个点被认为是提取的最大因子数。后面的散点类似于山脚下的碎石,可舍弃而不会丢失很多信息。

3、使因子更具有命名可解释性

通常最初因素抽取后,对因素无法作有效的解释。这时往往需要进行因子旋转

(rotation),通过坐标变换使因子解的意义更容易解释。转轴的目的在于改变题项在各因素负荷量的大小,转轴时根据题项与因素结构关系的密切程度,调整各因素负荷量的大小,转轴后,使得变量在每个因素的负荷量不是变大(接近1)就是变得更小(接近0),而非转轴前在每个因素的负荷量大小均差不多,这就使对共同因子的命名和解释变量变得更容易。转轴后,每个共同因素的特征值会改变,但每个变量的共同性不会改变。常用的转轴方法,有最大变异法(Varimax)、四次方最大值法(Quartimax)、相等最大值法(Equamax)、直接斜交转轴法(Direct Oblimin)、Promax转轴法,其中前三者属于“直交转轴法”(orthogonal rotations),在直交转轴法中,因素(成份)与因素(成份)间没有相关,亦即其相关为0,因素轴间夹角为90°;而后二者(直接斜交转轴、Promax转轴法)属“斜交转轴”(oblique rotations),采用斜交转轴法,表示因素与因素间彼此有某种程度的相关,亦即因素轴间的夹角不是90°。

直交转轴法的优点是因素间提供的信息不会重叠,观察体在某一个因素的分数与在其它因素的分数,彼此独立不相关;而其缺点是研究者迫使因素间不相关,但在实际情境中,它们彼此有相关的可能性很高。因而直交转轴方法偏向较多人为操控方式,不需要正确响应现实世界中自然发生的事件(Bryman&Cramer,1997)。

所谓直交旋转法(orthogonal rotations),就是要求各个因子在旋转时都要保持直角关系,即不相关。在直交旋转时,每个变量的共同性(commonality)是不变的。不同的直交旋转方法有不同的作用。在直交旋转法中,常用于社会科学研究的方式是Varimax旋转法。该方法是在旋转时尽量弄清楚在每一个因子上各个变量的因子负荷情况,也即让因子矩阵中每一列的 的值尽可能变成1或0,该旋转法的作用是突出每个因子的性质,可以更清楚哪些变量是属于它的。由此可见,Varimax旋转法可以帮助找出多个因子,以澄清概念的内容。Quartimax旋转法可以则可以尽量弄清楚每个变量在各个因子上的负荷情况,即让每个变量在某个因子上的负荷尽可能等于1,而在其它因子上则尽可能等于0。该方法可以增强第一因子的解释力,而使其它因子的效力减弱。可见Quartimax旋转法适合于找出一个最强效力的因子。Equamax旋转法则是一种折中的做法,即尽可能简化因子,也可弄清楚负荷情况。其缺点是可能两方面都未照顾好。

斜交旋转(oblique rotarion)方法是要求在旋转时各个因子之间呈斜交的关系,表示允许该因子与因子之间有某种程度上的相关。斜交旋转中,因子之间的夹可以是任意的,所以用斜交因子描述变量可以使因子结构更为简洁。选择直接斜交旋转时,必须指定Delta值。该值的取值范围在0~-1之间,0值产生最高相关因子,大的负数产生旋转的结果与直交接近。Promax斜交旋转方法也允许因子彼此相关,它比直接斜交旋转更快,因此适用于大数据集的因子分析。

综上所述,不同的因子旋转方式各有其特点。因此,究竟选择何种方式进行因子旋转取决于研究问题的需要。如果因子分析的目的只是进行数据简化,而因子的确切含义是什么并不重要,就应该选择直交旋转。如果因子分析的目的是要得到理论上有意义的因子,应该选择斜交因子。事实上,研究中很少有完全不相关的变量,所以,从理论上看斜交旋转优于直交旋转。但是斜交旋转中因子之间的斜交程度受研究者定义的参数的影响,而且斜交选装中所允许的因子之间的相关程度是很小的,因为没有人会接受两个高度相关的共同因子。如果两个因子确实高度相关,大多数研究者会选取更少的因子重新进行分析。因此,斜交旋转的优越性大打折扣。在实际研究中,直交旋转(尤其是Varimax 旋转法)得到更广泛的运用。

4、决定因素与命名

转轴后,要决定因素数目,选取较少因素层面,获得较大的解释量。在因素命名与结果解释上,必要时可将因素计算后之分数存储,作为其它程序分析之输入变量。

5、计算各样本的因子得分

因子分析的最终目标是减少变量个数,以便在进一步的分析中用较少的因子代替原有变量参与数据建模。本步骤正是通过各种方法计算各样本在各因子上的得分,为进一步的分析奠定基础。

此外,在因素分析中,研究者还应当考虑以下几个方面(Bryman&Cramer,1997):(1)可从相关矩阵中筛选题项

题项间如果没有显著的相关,或相关太小,则题项间抽取的因素与研究者初始构建的层面可能差距很大。相对的题项间如果有极其显著的正/负相关,则因素分析较易构建成有意义的内容。因素分析前,研究者可从题项间相关矩阵分布情形,简扼看出哪些题项间有密切关系。

(2)样本大小

因素分析的可靠性除与预试样本的抽样有关外,预样本数的多少更有密切关系。进行因素分析时,预试样本应该多少才能使结果最为可靠,学者间没有一致的结论,然而多数学者均赞同“因素分析要有可靠的结果,受试样本数要比量表题项数还多”,如果一个分量表有40个预试题项,则因素分析时,样本数不得少于40。

此外,在进行因素分析时,学者Gorshch(1983)的观点可作为参考:

①题项与受试者的比例最好为1:5;

②受试总样本总数不得少于100人。如果研究主要目的在找出变量群中涵括何种因素,样本数要尽量大,才能确保因素分析结果的可靠性。

(3)因素数目的挑选

进行因素分析,因素数目考虑与挑选标准,常用的准则有两种:一是学者Kaiser所提的准则标准:选取特征值大于1的因素,Kaiser准则判断应用时,因素分析的题项数最好不要超过30题,题项平均共同性最好在0.70以上,如果受试样本数大于250位,则平均共同性应在0.60以上(Stevens,1992),如果题项数在50题以上,有可能抽取过多的共同因素(此时研究者可以限定因素抽取的数目);二为CATTELL(1996)所倡导的特征值图形的陡坡检验(scree test),此图根据最初抽取因素所能解释的变异量高低绘制而成。

“陡坡石”(scree)原是地质学上的名词,代表在岩石斜坡底层发现的小碎石,这些碎石价值性不高。应用于统计学之因素分析中,表示陡坡图底端的因素不具重要性,可以舍弃不用。因而从陡坡图的情形,也可作为挑选因素分析数目的标准。

在多数的因素分析中,根据Kaiser选取的标准,通常会抽取过多的共同因素,因而陡坡图是一个重要的选取准则。在因素数目准则挑选上,除参考以上两大主要判断标准外,还要考虑到受试者多少、题项数、变量共同性的大小等。

四、因素分析的操作说明

Statistics/Data Reduction/Factor…

(统计分析/数据缩减/因子…)

出现“Factor Analysis”(因子分析)对话框,将左边框中鉴别度达显著性的a1~a22选如右边“Variables”(变量)下的空框中。

其中五个按钮内的图标意义如下:

?Descriptives(描述性统计量)按钮,会出现“Factor Analysis:Descriptives”(因子分析:描述性统计量)对话窗口

1.“Statistics”(统计量)选项框

(1)“ Univariate descriptives”(单变量描述性统计量):显示每一题项的平均数、标准差。

(2)“ Initial solution”(未转轴之统计量):显示因素分析未转轴前之共同性(communality)、特征值(eigenvalues)、变异数百分比及累积百分比。

2.“Correlation Matric”(相关矩阵)选项框

(1)“ Coefficients”(系数):显示题项的相关矩阵;

(2)“ Significance levels”(显著水准):求出前述矩阵的显著水准;

(3)“ Determinant”(行列式):求出前述相关矩阵的行列式值;

(4)“ KMO and Bartlett’s test of sphericity”(KMO与Bartlett的球形检定):显示KMO抽样适当性参数与Bartlett的球形检定;

(5)“ Inverse”(倒数模式):求出相关矩阵的反矩阵;

(6)“ Reproduced”(重制的):显示重制相关矩阵,上三角形矩阵代表残差值;而主对角线及下三角形代表相关系数;

(7)“ Anti-image”(反映象):求出反映象的共变量及相关矩阵;

在“Factor Analysis:Descriptives”对话窗口中,选取“ Initial solution”、“ KMO and Bartlett’s test of sphericity”二项。

?Extraction…(萃取…)按钮,会出现“Factor Analysis:Extraction”(因子分析:萃取)对话窗口

1.“Method”(方法)选项框:下拉式选项内有7种选取因素的方法

(1)“Principal components”法:主成份分析法抽取因素,此为SPSS内定方法;

(2)“Unweighted least squares”法:未加权最小平方法;

(3)“Ggeneralized least square”法:一般化最小平方法;

(4)“Mmximum likelihood”法:最大概似法;

(5)“Principal-axis factoring”法:主轴法;

(6)“Alpha factoring”法: 因素抽取法;

(7)“Image factoring”法:映象因素抽取法;

2.“Analyze”(分析)选项方框

(1)“ Correlation matrix”(相关矩阵):以相关矩阵来抽取因素;

(2)“ Covariance matrix”(共变异系数矩阵):以共变量矩阵来抽取因素。

3.“Display”(显示)选项方框

(1)“ Unrotated factor solution”(未旋转因子解):显示未转轴时因素负荷量、特征值及共同性;

(2)“ Screet plot”(陡坡图):显示陡坡图

4.“Extract”(萃取)选项方框

(1)“ Eigenvalue over:”(特征值):后面的空格内定为1,表示因素抽取时,只抽取特征值大于1者,使用者可随意输入0至变量总数之间的值;

(2)“Number of factors”(因子个数):选取此项时,后面的空格内输入限定之因

素个数。

在“Factor Analysis:Extraction”对话窗口中,抽取因素方法选择“Principal components”,选取“ Correlation matrix”、并勾选“ Unrotated factor solution”、 Screet plot”等项,在抽取因素时限定在特征值大于1者,在“ Eigenvalue over:”后面的空格内输入1。

?Rotation…(萃取…)按钮,会出现“Factor Analysis:Rotation”(因子分析:旋转)对话窗口

1.“Method”(方法)选项框内有6中因素转轴方法

(1)“ None”:不需要转轴;

(2)“ Varimax”:最大变异法,属正交转轴法之一;

(3)“ Quarimax”:四次方最大值法,属正交转轴法之一;

(4)“ Equamax”:相等最大值法,属正交转轴法之一;

(5)“ Direct Oblimin”:直接斜交转轴法,属斜交转轴法之一;

(6)“ Promax”:Promax转轴法,属斜交转轴法之一。

2.“Display”(显示)选项框:

(1)“ Rotated solution”(转轴后的解):显示转轴后的相关信息,正交转轴显示因素组型(pattern)矩阵及因素转换矩阵;斜交转轴则显示因素组型、因素结构矩阵与因素相关矩阵。

(2)“ Loading plot”(因子负荷量):绘出因素的散布图。

3.“Maximum Iterations for Convergence”:转轴时执行的叠代(iterations)最多次数,后面内定的数字25(算法执行转轴时,执行步骤的次数上限)。

在“Factor Analysis:Rotation”对话窗中,选取“ Varimax”、“ Rotated solution”等项。研究者要勾选“ Rotated solution”选项,才能显示转轴后的相关信息。

?Score…(分数)按钮

1.“ Save as variable”(因素存储变量)框

勾选时可将新建立的因素分数存储至数据文件中,并产生新的变量名称(内定为fact_1、fact_2等)。在“Method”框中表示计算因素分数的方法有三种:(1)“ Regression”:使用回归法;

(2)“ Bartlett”:使用Bartlette法;

(3)“ Anderson-Robin”:使用Anderson-Robin法;

2.“ Display factor score coefficient matrix”(显示因素分数系数矩阵)选项勾选时可显示因素分数系数矩阵。

?Options…(选项)按钮,会出现“Factor Analysis:Options”(因子分析:选项)对话窗口

1.“Missing Values(遗漏值)框选项:遗漏值的处理方式。

(1)“ Exclude cases listwise”(完全排除遗漏值):观察值在所有变量中没有遗漏者才加以分析;

(2)“ Exclude cases pairwise”(成对方式排除):在成对相关分析中出现遗漏值的观察值舍弃;

(3)“ Replace with mean”(用平均数置换):以变量平均值取代遗漏值。

2.“Coefficient Display Format(系数显示格式)框选项:因素负荷量出现的格式。

(1)“ Sorted by size”(依据因素负荷量排序):根据每一因素层面之因素负荷量的大小排序;

(2)“ Suppress absolute values less than”(绝对值舍弃之下限):因素负荷量小于后面数字者不被显示,内定的值为0.1。

在“Factor Analysis:Options”对话窗口中,勾选“ Exclude cases listwise”、“ Sorted by size”等项,并勾选“ Suppress absolute values less than”选项,正式的论文研究中应呈现题项完整的因素负荷量较为适宜。

按Continue按钮,再按OK确定。

五、因素分析的结果解释

1.报表1——KMO测度和Bartlett球形检验表

KMO and Bartlett's Test

KMO是Kaiser-Meyer-Olkin的取样适当性量数。KMO测度的值越高(接近1.0时),表明变量间的共同因子越多,研究数据适合用因子分析。通常按以下标准解释该指标值的大小:KMO值达到0.9以上为非常好,0.8~0.9为好,0.7~0.8为一般,0.6~0.7为差,0.5~0.6为很差。如果KMO测度的值低于0.5时,表明样本偏小,需要扩大样本,此处的KMO值为0.857,表示适合进行因素分析。Bartlett球体检验的目的是检验相关矩阵是否是单位矩阵(identity matrix),如果是单位矩阵,则认为因子模型不合适。Bartlett球体检验的虚无假设为相关矩阵是单位阵,如果不能拒绝该假设的话,就表明数据不适合用于因子分析。一般说来,显著水平值越小(<0.05)表明原始变量之间越可能存在有意义的关系,如果显著性水平很大(如0.10以上)可能表明数据不适宜于因子分析。本例中,

Bartlett球形检验的2 值为1187.740(自由度为231),伴随概率值为0.000<0.01,达到了

显著性水平,说明拒绝零假设而接受备择假设,即相关矩阵不是单位矩阵,代表母群体的相关矩阵间有共同因素存在,适合进行因素分析。

2.报表2——共同因子方差(共同性)表

Communalities

a5 1.000 .612

a6 1.000 .755

a7 1.000 .631

a8 1.000 .572

a9 1.000 .706

a10 1.000 .784

a11 1.000 .756

a12 1.000 .774

a13 1.000 .564

a14 1.000 .706

a15 1.000 .662

a16 1.000 .500

a17 1.000 .748

a18 1.000 .554

a19 1.000 .502

a20 1.000 .767

a21 1.000 .654

a22 1.000 .471

Extraction Method: Principal Component Analysis.

上表报告的是共同因子方差,即表明每个变量被解释的方差量。初始共同因子方差(Initial Communalities)是每个变量被所有成份或因子解释的方差估计量。对于主成份分析法来说,它总是等于1,因为有多少个原始变量就有多少个成份(Communalitie),因此共同性会等于1。

抽取共同因子方差是指因子解中每个变量被因子或成份解释的方差估计量。这些共同因子方差是用来预测因子的变量的多重相关的平方。数值小就说明该变量不适合作因子,可在分析中将其排除。

3.报表3.1——旋转前总的解释方差

Total Variance Explained

Component Initial Eigenvalues Extraction Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative %

1 8.145 37.024 37.024 8.145 37.024 37.024

2 2.728 12.400 49.424 2.728 12.400 49.424

3 1.300 5.908 55.332 1.300 5.908 55.332

4 1.262 5.736 61.068 1.262 5.736 61.068

5 1.06

6 4.845 65.913 1.066 4.845 65.913

6 .922 4.193 70.106

7 .869 3.951 74.057

8 .740 3.365 77.422

9 .681 3.096 80.518

10 .620 2.818 83.336

11 .526 2.391 85.727

12 .492 2.235 87.962

13 .422 1.919 89.882

14 .410 1.864 91.746

15 .343 1.560 93.306

16 .298 1.354 94.661

17 .258 1.172 95.833

18 .249 1.134 96.966

19 .211 .957 97.923

20 .176 .798 98.721

21 .146 .664 99.385

22 .135 .615 100.000

Extraction Method: Principal Component Analysis.

上表叫做总的解释方差表。左边第一栏为各成份(Component)的序号,共有22个变量,所以有22个成份。第二大栏为初始特征值,共由三栏构成:特征值、解释方差和累积解释方差。Total栏为各成份的特征值,栏中只有5个成份的特征值超过了1;其余成份的特征值都没有达到或超过1。%of Variance栏为各成份所解释的方差占总方差的百分比,即各因子特征值占总特征值总和的百分比。Cumulative%栏为各因子方差占总方差的百分比的累计百分比。如在%of Variance栏中,第一和第二成份的方差百分比分别为37.024、12.400,而在累计百分比栏中,第一成份的累计百分比仍然为37.024,第二成份的累计方差百分比为49.424,即是两个成份的方差百分比的和(37.024+12.400)。

第三大栏为因子提取的结果,未旋转解释的方差。第三大栏与第二大栏的前五行完全相同,即把特征值大于1的四个成份或因子单独列出来了。这四个特征值由大到小排列,所以第一个共同因子的解释方差最大。

3.报表3.2——旋转后总的解释方差

Total Variance Explained

Component Rotation Sums of Squared Loadings

Total % of Variance Cumulative %

1 5.113 23.243 23.243

2 3.917 17.806 41.049

3 2.035 9.249 50.298

4 1.728 7.856 58.154

5 1.707 7.759 65.913

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

Extraction Method: Principal Component Analysis.

第四大栏为旋转后解释的方差。(方便显示起见,放在了表3.1下面,作为表3.2)Total栏为旋转后的特征值。与旋转前的Total栏相比,不难发现,四个成份的特征值有所变化。旋转前的特征值从8.145到1.066,最大特征值与最小特征值之间的差距比较大,而旋转后的特征值相对集中。尽管如此,旋转前、后的总特征值没有改变,最后的累计方差百分比也没有改变,让然为65.913%。

4.表4——碎石图

碎石图和结果3的被解释的总方差的作用相同,都是为了确定因子的数目。从碎石图可以看出,从第6个因子开始,以后的曲线变得比较平缓,最后接近一条直线。据此,可以抽取5个因子。最后决定抽取多少个因子,还要看后面的结果。

5.表5——未旋转成份矩阵(显示全部载荷)

Component Matrix(a)

a6 .796 .273 .065 -.194 .071 a12 -.734 .354 .253 .178 .119 a3 .731 .419 -.030 -.150 .019 a1 .730 .391 -.104 -.137 .061 a8 .727 .108 -.137 -.040 .106 a10 -.726 .355 -.145 .332 .014 a2 .682 .397 -.139 -.118 -.011 a20 .653 .042 .095 .544 -.184 a11 -.637 .505 .216 .158 .156 a5 .635 .413 -.171 -.005 .094 a7 .598 .270 -.295 .236 .242 a22 .567 .115 -.223 .164 -.243 a17 .567 -.181 .426 .247 -.390 a9 -.547 .094 -.378 .193 .467 a19 .527 .053 .397 .146 .206 a13 -.527 .509 .066 .052 -.142 a14 -.545 .607 -.030 .164 -.113 a15 -.455 .561 .332 -.142 -.093 a4 .501 .556 .255 -.224 -.003 a18 .375 -.130 .469 .083 .413 a21 .516 .031 -.116 .599 -.123 a16

-.366

.278

-.209

-.196

-.455

Extraction Method: Principal Component Analysis.

a 5 components extracted.

上表的成份矩阵是每个变量在未旋转的成份或因子上的因子负荷量。比如

543216071.0194.0065.0273.0796.0F F F F F a +-++=。如果如下图所示,在因子分析的options 选项卡选项中选择Suppress absolute values less than 选项,则其中小于0.10的因子负荷量将不被显示,这样将使得表格更加清晰、明了。比如每个数字代表了该变量与未旋转的因子之间的相关,这些相关有助于解释各个因子。也就是说,如果一个变量在某个因子上有较大的负荷,就说明可以把这个变量纳入该因子。但是常常会有这种情况,很多的变量同时在几个未旋转的因子上有较大的负荷,这就使得解释起来比较困难,因此查看旋转以后的结果能较好地解决这个问题。

6.表6——未旋转的成份矩阵(显示部分载荷,小于0.01者未显示)

Component Matrix(a)

Component

1 2 3 4 5

a6 .796 .273 -.194

a12 -.734 .354 .253 .178 .119

a3 .731 .419 -.150

a1 .730 .391 -.104 -.137

a8 .727 .108 -.137 .106

a10 -.726 .355 -.145 .332

a2 .682 .397 -.139 -.118

a20 .653 .544 -.184

a11 -.637 .505 .216 .158 .156

a5 .635 .413 -.171

a7 .598 .270 -.295 .236 .242

a22 .567 .115 -.223 .164 -.243

a17 .567 -.181 .426 .247 -.390

a9 -.547 -.378 .193 .467

a19 .527 .397 .146 .206

a13 -.527 .509 -.142

a14 -.545 .607 .164 -.113

a15 -.455 .561 .332 -.142

a4 .501 .556 .255 -.224

a18 .375 -.130 .469 .413

a21 .516 -.116 .599 -.123

a16 -.366 .278 -.209 -.196 -.455

Extraction Method: Principal Component Analysis.

a 5 components extracted.

7.表7——旋转的成份矩阵

Rotated Component Matrix(a)

Component

1 2 3 4 5

a3 .819 -.109 .122 .164

a1 .815 -.152 .135

a2 .778 -.129 .160

a6 .772 -.231 .221 .227

a5 .742 .222

a4 .718 .192 .162 .305

a8 .616 -.352 .207 .157

a7 .598 -.156 .403 .149 -.256

a11 -.176 .814 -.142 -.204

a12 -.356 .769 -.157 -.174

a14 .767 -.299 -.165

a15 .737 -.300 .140

a13 .691 -.262

a10 -.336 .669 -.260 -.387

a21 .216 -.137 .758 .110

a20 .289 -.139 .737 .226 .265

a22 .428 -.238 .441 -.133 .137

a18 .120 -.120 .715 .121

a16 .289 -.138 -.623

a19 .313 .188 .557 .233

a9 -.250 .259 -.755

a17 -.215 .437 .242 .667

Extraction Method: Principal Component Analysis.

Rotation Method: Varimax with Kaiser Normalization.

A Rotation converged in 7 iterations.

上表为旋转后的成份矩阵表,表中各变量根据负荷量的大小进行了排列。旋转后的因子矩阵与旋转前的因子矩阵有明显的差异,旋转后的负荷量明显地向0和1两极分化了。从旋转后的矩阵表中,可以很容易地判断哪个变量归入哪个因子(上表中用黑体数字标出的变量分属不同的因子)。从上表看出,最后一个因子只有两个变量,包含的变量不多,因此删除这个因子可能更为合适。但是删除了一个因子后,因素结构会有所改变,需要重新进行因子分析。

8.表8——成份转换矩阵

Component Transformation Matrix

Extraction Method: Principal Component Analysis.

Rotation Method: Varimax with Kaiser Normalization.

成份转换矩阵(Component Transformation Matrix)描写的是用于因子解的具体旋转,该矩阵用来从未经旋转的因子矩阵计算旋转了的因子矩阵,即未经旋转的因子负荷乘以成份转换矩阵等于旋转因子负荷。研究者可以不必太多在意该矩阵。

9.表9——因子得分系数矩阵

Component Score Coefficient Matrix

1 2 3 4 5

a1 .203 .007 -.064 -.034 -.057

a2 .193 .008 -.031 -.094 -.033

a3 .199 .032 -.073 -.027 .007

a4 .187 .146 -.165 .069 .164

a5 .184 .026 .025 -.027 -.135

a6 .172 .004 -.127 .054 .035

a7 .128 -.002 .171 .055 -.323

a8 .125 -.062 -.006 .011 -.110

a9 .035 -.012 .048 .121 -.536

a10 -.029 .168 .221 -.048 -.162

a11 .019 .262 .022 .182 -.048

a12 -.037 .241 .035 .185 -.009

a13 .040 .203 .045 -.094 .085

a14 .053 .226 .129 -.109 -.001

a15 .070 .245 -.135 .033 .216

a16 .054 .017 -.012 -.451 .194

a17 -.147 .081 .236 .033 .451

a18 -.033 .071 -.089 .524 -.025

a19 -.004 .109 .023 .364 .063

a20 -.086 .101 .443 .044 .109

a21 -.077 .061 .488 -.015 -.048

a22 .042 -.027 .229 -.221 .036

Extraction Method: Principal Component Analysis.

Rotation Method: Varimax with Kaiser Normalization.

因子模型将变量表示成公共因子的线性组合,自然也可将公共因子表示成原始变量的线性组合。上述表格实际上每列就是各个因子被原始变量表示的系数。

10.表10——因子得分协方差矩阵

Component Score Covariance Matrix

Extraction Method: Principal Component Analysis.

Rotation Method: Varimax with Kaiser Normalization.

因子得分协方差矩阵描述了各个因子彼此之间的相关程度。由于各个因子和自己成完全正相关,因子主对角线上得分均为1,其它各个部分得分均为0,说明各个因子之间没有相关关系。

层次分析法步骤.doc

层次分析法实例与步骤 结合一个具体例子,说明层次分析法的基本步骤和要点。 【案例分析】市政工程项目建设决策:层次分析法问题提出 市政部门管理人员需要对修建一项市政工程项目进行决策,可选择的方案是修建通往旅游区的高速路(简称建高速路)或修建城区地铁(简称建地铁)。除了考虑经济效益外,还要考虑社会效益、环境效益等因素,即是多准则决策问题,考虑运用层次分析法解决。 1. 建立递阶层次结构 应用AHP解决实际问题,首先明确要分析决策的问题,并把它条理化、层次化,理出递阶层次结构。 AHP要求的递阶层次结构一般由以下三个层次组成: ●目标层(最高层):指问题的预定目标; ●准则层(中间层):指影响目标实现的准则; ●措施层(最低层):指促使目标实现的措施; 通过对复杂问题的分析,首先明确决策的目标,将该目标作为目标层(最高层)的元素,这个目标要求是唯一的,即目标层只有一个元素。 然后找出影响目标实现的准则,作为目标层下的准则层因素,在复杂问题中,影响目标实现的准则可能有很多,这时要详细分析各准则因素间的相互关系,即有些是主要的准则,有些是隶属于主要准则的次准则,然后根据这些关系将准则元素分成不同的层次和组,不同层次元素间一般存在隶属关系,即上一层元素由下一层元素构成并对下一层元素起支配作用,同一层元素形成若干组,同组元素性质相近,一般隶属于同一个上一层元素(受上一层元素支配),不同组元素性质不同,一般隶属于不同的上一层元素。 在关系复杂的递阶层次结构中,有时组的关系不明显,即上一层的若干元素同时对下一层的若干元素起支配作用,形成相互交叉的层次关系,但无论怎样,上下层的隶属关系应该是明显的。 最后分析为了解决决策问题(实现决策目标)、在上述准则下,有哪些最终解决方案(措施),并将它们作为措施层因素,放在递阶层次结构的最下面(最低层)。 明确各个层次的因素及其位置,并将它们之间的关系用连线连接起来,就构成了递阶层次结构。 【案例分析】市政工程项目进行决策:建立递阶层次结构 在市政工程项目决策问题中,市政管理人员希望通过选择不同的市政工程项目,使综合效益最高,即决策目标是“合理建设市政工程,使综合效益最高”。 为了实现这一目标,需要考虑的主要准则有三个,即经济效益、社会效益和环境效益。但问题绝不这么简单。通过深入思考,决策人员认为还必须考虑直接经济效益、间接经济效益、方便日常出行、方便假日出行、减少环境污染、改善城市面貌等因素(准则),从相互关系上分析,这些因素隶属于主要准则,因此放在下一层次考虑,并且分属于不同准则。 假设本问题只考虑这些准则,接下来需要明确为了实现决策目标、在上述准则下可以有哪些方案。根据题中所述,本问题有两个解决方案,即建高速路或建地铁,这两个因素作为措

因素分析法

因素分析法(Factor Analysis Approach),又称指数因素分析法,是利用统计指数体系分析现象总变动中各个因素影响程度的一种统计分析方法,包括连环替代法、差额分析法、指标分解法、定基替代法。因素分析法是现代统计学中一种重要而实用的方法,它是多元统计分析的一个分支。使用这种方法能够使研究者把一组反映事物性质、状态、特点等的变量简化为少数几个能够反映出事物内在联系的、固有的、决定事物本质特征的因素。 因素分析法的最大功用,就是运用数学方法对可观测的事物在发展中所表现出的外部特征和联系进行由表及里、由此及彼、去粗取精、去伪存真的处理,从而得出客观事物普遍本质的概括。其次,使用因素分析法可以使复杂的研究课题大为简化,并保持其基本的信息量。 2应用编辑 是通过分析期货商品的供求状况及其影响因素,来解释和预测期货价格变化趋势的方法。期货交易是以现货交易为基础的。期货价格与现货价格之间有着十分紧密的联系。商品供求状况及影响其供求的众多因素对现货市场商品价格产生重要影响,因而也必然会对期货价格重要影响。所以,通过分析商品供求状况及其影响因素的变化,可以帮助期货交易者预测和把握商品期货价格变化的基本趋势。在现实市场中,期货价格不仅受商品供求状况的影响,而且还受其他许多非供求因素的影响。这些非供求因素包括:金融货币因素,政治因素、政策因素、投机因素、心理预期等。因此,期货价格走势基本因素分析需要综合地考虑这些因素的影响。 商品供求状况对商品期货价格具有重要的影响。基本因素分析法主要分析的就是供求关系。商品供求状况的变化与价格的变动是互相影响、互相制约的。商品价格与供给成反比,供给增加,价格下降;供给减少,价格上升。商品价格与需求成正比,需求增加,价格上升;需求减少,价格下降。在其他因素不变的条件下,供给和需求的任何变化,都可能影响商品价格变化,一方面,商品价格的变化受供给和需求变动的影响;另一方面,商品价格的变化又反过来对供给和需求产生影响:价格上升,供给增加,需求减少;价格下降,供给减少,需求增加。这种供求与价格互相影响、互为因果的关系,使商品供求分析更加复杂化,即不仅要考虑供求变动对价格的影响,还要考虑价格变化对供求的反作用。 连环替代法 它是将分析指标分解为各个可以计量的因素,并根据各个因素之间的依存关系,顺次用各因素的比较值(通常即实际值)替代基准值(通常为标准值或计划值),据以测定各因素对分析指标的影响。 例如,设某一分析指标M是由相互联系的A、B、C三个因素相乘得到,报告期(实际)指标和基期(计划)指标为: 报告期(实际)指标M1=A1 * B1 * C1 基期(计划)指标 M0=A0 * B0 * C0 在测定各因素变动指标对指标R影响程度时可按顺序进行: 基期(计划)指标M0=A0 * B0 * C0 (1)

因素分析法

因素分析法的相关知识 一、概念:因素分析法也称因素替代法。它是对某个综合财务指标或经济指标的变动原因按其内在的影响因素,计算和确定各个因素对这一综合指标发生变动的影响程度的一种分析方法 二、适用范围:适用于多种因素构成的综合指标的分析,如:成本、利润、资金收益率等指标。 三、前提条件:当有若干因素对分析对象发生影响作用时,假定其他各个因素都无变化,顺序确定每一因素单独变化所产生的影响,是在具有乘积关系的指数体系中进行 四、一般程序: 1. 要根据经济指标形成的过程,找出该项经济指标受哪些因素变动的影响; 2. 要根据经济指标与各影响因素的内在关系,建立起分析计算公式; 3. 按照一定顺序依次进行因素替换,以计算各因素变动对经济指标的影响程度。计算某一因素变动对经济指标影响程度时,假定其他因素不变,通过每次替代后计算的结果与上一次替代后计算的结果相比较,以逐次确定各个因素的影响程度。 4. 验证各因素影响程度计算的正确性。各因素影响程度的代数和应等于指标变动总差异。 五、主要作用:因素分析是从数量方面研究现象动态变动中受各种因素变动的影响程度,它主要借助于指数体系来分析社会经济现象变动中各种因素变动发生作用的影响程度。 六、方法:因素分析法有连环替代法和差额计算法两种。连环替代法是将影响某项经济指标的各个因素列成算式,按照一定顺序替代各个因素,以确定各个因素变动对该项经济指标变动的影响程度的一种分析方法。分析计算时以计划指标为基础,用各个因素的实际数依次替代计划数,每次替代后实际数就被保留下来,直到所有的因素都变为实际数。差额分析法是根据各个因素实际数同计划数的差异,分别确定各该因素的变动对某项经济指标的影响程度的一种分析方法。分析计算时也要按一定顺序逐项以实际数与计划数进行对比。差额分析法实际上是连环替代法的另一种形式,即直接用实际数与计划数之间的差额来计算各因素变动对指标的影响程度。这一方法较连环替代法更为简便。 差额分析法在发电企业燃煤成本分析中的Excel应用的具体操作实例 众所周知,在目前,电价由国家控制的情况下燃煤成本的管理好坏决定着发电企业的存亡问题,发电企业的燃煤成本占发电总成本的比例不低于60%,在当前煤价持续长涨的趋势下,这个比例将会更高,因此必须加大对燃煤成本的分析力度,从内部挖潜,加强管理,才是企业生存之本。而影响燃煤成本的因素是多方面的,各方面又相互关联,完全依靠手工相对因难,而各相关因素看起来也不直观,借助于Excel,可以实现自动化分析。下面通过具体的实例来说明Excel在燃煤成本分析中的具体应用。有关资料数据如下表所示。 M电厂2009年1月原煤成本分析表 A B C D 1 项目计划实际差异

主成分分析、因子分析步骤

主成分分析、因子分析步骤不同 点 主成分分析因子分析 概念具有相关关系的p 个变量,经过线性 组合后成为k个不 相关的新变量将原数据中多个可能相关的变量综合成少数几个不相关的可反映原始变量的绝大多数信息的综合变量 主要目标减少变量个数,以 较少的主成分来解 释原有变量间的大 部分变异,适合于 数据简化 找寻变量间的内部相关性 及潜在的共同因素,适合做 数据结构检测 强调重点强调的是解释数据 变异的能力,以方 差为导向,使方差 达到最大 强调的是变量之间的相关 性,以协方差为导向,关心 每个变量与其他变量共同 享有部分的大小 最终结果应用形成一个或数个总 指标变量 反映变量间潜在或观察不 到的因素 变异解释程度它将所有的变量的 变异都考虑在内, 因而没有误差项 只考虑每一题与其他题目 共同享有的变异,因而有误 差项,叫独特因素

是否需要旋转主成分分析作综合 指标用, 不需要旋转 因子分析需要经过旋转才 能对因子作命名与解释 是否有假设 只是对数据作变 换,故不需要假设 因子分析对资料要求需符 合许多假设,如果假设条件 不符,则因子分析的结果将 受到质疑 因子分析 1【分析】→【降维】→【因子分析】(1)描述性统计量(Descriptives)对话框设置 KMO和Bartlett的球形度检验(检验多变量正态性和原始变量是 否适合作因子分析)。 (2)因子抽取(Extraction)对话框设置 方法:默认主成分法。主成分分析一定要选主成分法 分析:主成分分析:相关性矩阵。 输出:为旋转的因子图 抽取:默认选1. 最大收敛性迭代次数:默认25. (3)因子旋转(Rotation)对话框设置因子旋转的方法,常选择“最大方差法”。“输出”框中的“旋 转解”。 (4)因子得分(Scores)对话框设置

单因素方差分析的计算步骤

单因素方差分析的计算 步骤 Document serial number【NL89WT-NY98YT-NC8CB-NNUUT-NUT108】

一、 单因素方差分析的计算步骤 假定实验或观察中只有一个因素(因子)A ,且A 有m 个水平,分别记为,,,21m A A A 在每一种水平下,做n 次实验,在每一次试验后可得一实验值,记做ij x 表示在第j 个水平下的第i 个试验值()m j n i ,2,1;,2,1==。结果如下表: m A A A ,,21看成是m 个正态总体,而()m j n i x ij ,2,1;,2,1==看成是取自第j 总体的第i 个样品,因此,可设() m j n i a N x j ij ,2,1;,2,1,,~2==σ。 可以认为j j j a εεμ,+=是因素A 的第j 个水平j A 所引起的差异。因此检验因素A 的各水平之间是否有显着的差异,就相当于检验: μ====m a a a H 210:或者 具体的分析检验步骤是: (一)计算水平均值 令j x 表示第j 种水平的样本均值, 式中,ij x 是第j 种水平下的第i 个观察值,j n 表示第j 种水平的观察值次数 (二)计算离差平方和 在单因素方差分析中,离差平方和有三个,它们分别是总离差平方和,组内离差平方和以及组间平方和。 首先,总离差平方和,用SST 代表,则, 其中,n x x ij ∑∑=它反映了离差平方和的总体情况。 其次,组内离差平方和,用SSE 表示,其计算公式为: 其中j x 反映的是水平内部或组内观察值的离散状况,即反映了随机因素带来的影响。 最后,组间平方和,用SSA 表示,SSA 的计算公式为:

因子分析的基本概念和步骤

因子分析的基本概念和步骤 一、因子分析的意义 在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在: 计算量的问题 由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。 变量间的相关性问题 收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。类似的问题还有很多。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富和完善。 因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。通常,因子有以下几个特点: ↓因子个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓因子能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓因子之间的线性关系并不显著 由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。 ↓因子具有命名解释性 通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解

SPSS探索性因子分析的过程

SPSS探索性因子分析的过程

现要对远程学习者对教育技术资源和使用情况进行了解,设计一个李克特量表,如下图所示: 一. 因子分析的定义

在现实研究过程中,往往需要对所反映事物、现象从多个角度进行观测。因此研究者往往设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律。多变量大样本虽然会为我们的科学研究提供丰富的信息,但却增加了数据采集和处理的难度。更重要的是许多变量之间存在一定的相关关系,导致了信息的重叠现象,从而增加了问题分析的复杂性。 因子分析是将现实生活中众多相关、重叠的信息进行合并和综合,将原始的多个变量和指标变成较少的几个综合变量和综合指标,以利于分析判定。用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间彼此是不相关的,代表各类信息的综合指标成为因子。因子分析就是用少数几个因子来描述许多指标之间的联系,以较少几个因子反应原资料的大部分信息的统计方法。 二. 数学模型 Z i i1F1 i2^ i3F3 …im F m U i 乙为第i个变量的标准化分数;(标准分是一种由原始分推导出来的相对地位量数,它是用来说明原始分在所属的那批分数中的相对位置的。) F m为共同因子; m为所有变量共同因子的数目; U为变量Z的唯一因素; i个变量与第im为因子负荷。(也叫因子载荷,统计意义就是第 m个公共因子的相关系数,它反映了第i个变量在第m个公共因子上的相对重要性也就是第m个共同因子对第i个变量的解释程

度。) 因子分析的理想情况,在于个别因子负荷im不是很大就是很小,这样每个变量才能与较少的共同因子产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则U彼此间不能有关联存在。 所谓的因子负荷就是因子结构中原始变量与因子分析时抽取出共同因子的相关,即在各个因子变量不相关的情况下,因子负荷.就是第i个原有变量和第m个因子变量间的相关系数,也就是Z在第m个共同因子变量上的相对重要性,因此,.绝对值越大则公共因子和原有变量关系越强。在因子分析中有两个重要指针:一为“共同性”,二为“特征值”。 所为共同性,也称变量共同度或者公共方差,就是每个变量在每个共同因子的负荷量的平方总和(一横列中所有因子负荷的的平方和),也就是个别变量可以被共同因子解释的变异量百分比,这个值是个别变量与共同因子间多元相关的平方。从共同性的大小可以判断这个原始变量与共同因子间的关系程度。如果大部分变量的共同度都高于0.8,则说明提取出的共同因子已经基本反映了各原始变量80%以上的信息,仅有较少的信息丢失,因子分析效果较好。而各变量的唯一因素就是1减掉该变量共同性的值,就是原有变量不能

方法:因子分析法

因子分析基础理论知识 1 概念 因子分析(Factor analysis ):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 主成分分析(Principal component analysis ):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。 两者关系:主成分分析(PCA )和因子分析(FA )是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。 2 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显着的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显着的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。 3 类型 根据研究对象的不同,把因子分析分为R 型和Q 型两种。 当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。 但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。 4分析原理 假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 : ?????? ????? ???=np n n p p x x x x x x x x x X ΛM M M M ΛΛ212222111211

主成分、因子分析步骤

主成分分析、因子分析步骤 不同点主成分分析因子分析 概念具有相关关系的p个变量,经过线性组合后成为k个不相关的新 变量将原数据中多个可能相关的变量综合成少数几个不相关的可反映原始变量的绝大多数信息的综合变量 主要目标减少变量个数,以较少的主成分 来解释原有变量间的大部分变 异,适合于数据简化 找寻变量间的部相关性及潜在的共同因素,适 合做数据结构检测 强调重点强调的是解释数据变异的能力, 以方差为导向,使方差达到最大 强调的是变量之间的相关性,以协方差为导向, 关心每个变量与其他变量共同享有部分的大小 最终结 果应用 形成一个或数个总指标变量反映变量间潜在或观察不到的因素 变异解释程度它将所有的变量的变异都考虑 在,因而没有误差项 只考虑每一题与其他题目共同享有的变异,因 而有误差项,叫独特因素 是否需要旋转主成分分析作综合指标用, 不需要旋转 因子分析需要经过旋转才能对因子作命名与解 释 是否有假设只是对数据作变换,故不需要假 设 因子分析对资料要求需符合许多假设,如果假 设条件不符,则因子分析的结果将受到质疑 因子分析 1 【分析】→【降维】→【因子分析】 (1)描述性统计量(Descriptives)对话框设置 KMO和Bartlett的球形度检验(检验多变量正态性和原始变量是否适合作因子分析)。

(2)因子抽取(Extraction)对话框设置 方法:默认主成分法。主成分分析一定要选主成分法 分析:主成分分析:相关性矩阵。 输出:为旋转的因子图 抽取:默认选1. 最大收敛性迭代次数:默认25. (3)因子旋转(Rotation)对话框设置 因子旋转的方法,常选择“最大方差法”。“输出”框中的“旋转解”。

层次分析法的计算步骤

层次分析法的计算步骤

8.3.2 层次分析法的计算步骤 一、建立层次结构模型 运用AHP进行系统分析,首先要将所包含的因素分组,每一组作为一个层次,把问题条理化、层次化,构造层次分析的结构模型。这些层次大体上可分为3类 1、最高层:在这一层次中只有一个元素,一般是分析问题的预定目标或理想结果,因此又称目标层; 2、中间层:这一层次包括了为实现目标所涉及的中间环节,它可由若干个层次组成,包括所需要考虑的准则,子准则,因此又称为准则层; 3、最底层:表示为实现目标可供选择的各种措施、决策、方案等,因此又称为措施层或方案层。 层次分析结构中各项称为此结构模型中的元素,这里要注意,层次之间的支配关系不一定是完全的,即可以有元素(非底层元素)并不支配下一层次的所有元素而只支配其中部分元素。这种自上而下的支配关系所形成的层次结构,我们称之为递阶层次结构。 递阶层次结构中的层次数与问题的复杂程度及分析的详尽程度有关,一般可不受限制。为了避免由于支配的元素过多而给两两比较判断带来困难,每层次中各元素所支配的元素一般地不要超过9个,若多于9个时,可将该层次再划分为若干子层。 例如,大学毕业的选择问题,毕业生需要从收入、社会地位及发展机会方面考虑是否留校工作、读研究生、到某公司或当公务员,这些关系可以将其划分为如图8.1所示的层次结构模型。

图8.1 再如,国家综合实力比较的层次结构模型如图6 .2: 图6 .2 图中,最高层表示解决问题的目的,即应用AHP 所要达到的目标;中间层表示采用某种措施和政策来实现预定目标所涉及的中间环节,一般又分为策略层、约束层、准则层等;最低层表示解决问题的措施或政策(即方案)。 然后,用连线表明上一层因素与下一层的联系。如果某个因素与下一层所有因素均有联系,那么称这个因素与下一层存在完全层次关系。有时存在不完全层次关系,即某个因素只与下一层次的部分因素有联系。层次之间可以建立子层次。子层次从属于主层次的某个因素。它的因素与下一层次的因素有联系,但不形成独立层次,层次结构模型往往有结构模型表示。 二、构造判断矩阵 任何系统分析都以一定的信息为基础。AHP的信息基础主要是人们对每一层次各因素的相对重要性给出的判断,这些判断用数值表示出来,写成矩阵形式就是判

层次分析法的基本步骤和要点

层次分析法的基本步骤和要点 结合一个具体例子,说明层次分析法的基本步骤和要点。 【案例分析】市政工程项目建设决策:层次分析法问题提出 市政部门管理人员需要对修建一项市政工程项目进行决策,可选择的方案是修建通往旅游区的高速路(简称建高速路)或修建城区地铁(简称建地铁)。除了考虑经济效益外,还要考虑社会效益、环境效益等因素,即是多准则决策问题,考虑运用层次分析法解决。 1. 建立递阶层次结构 应用AHP解决实际问题,首先明确要分析决策的问题,并把它条理化、层次化,理出递阶层次结构。 AHP要求的递阶层次结构一般由以下三个层次组成: ●目标层(最高层):指问题的预定目标; ●准则层(中间层):指影响目标实现的准则; ●措施层(最低层):指促使目标实现的措施; 通过对复杂问题的分析,首先明确决策的目标,将该目标作为目标层(最高层)的元素,这个目标要求是唯一的,即目标层只有一个元素。 然后找出影响目标实现的准则,作为目标层下的准则层因素,在复杂问题中,影响目标实现的准则可能有很多,这时要详细分析各准则因素间的相互关系,即有些是主要的准则,有些是隶属于主要准则的次准则,然后根据这些关系将准则元素分成不同的层次和组,不同层次元素间一般存在隶属关系,即上一层元素由下一层元素构成并对下一层元素起支配作用,同一层元素形成若干组,同组元素性质相近,一般隶属于同一个上一层元素(受上一层元素支配),不同组元素性质不同,一般隶属于不同的上一层元素。 在关系复杂的递阶层次结构中,有时组的关系不明显,即上一层的若干元素同时对下一层的若干元素起支配作用,形成相互交叉的层次关系,但无论怎样,上下层的隶属关系应该是明显的。 最后分析为了解决决策问题(实现决策目标)、在上述准则下,有哪些最终解决方案(措施),并将它们作为措施层因素,放在递阶层次结构的最下面(最低层)。 明确各个层次的因素及其位置,并将它们之间的关系用连线连接起来,就构成了递阶层次结构。 【案例分析】市政工程项目进行决策:建立递阶层次结构 在市政工程项目决策问题中,市政管理人员希望通过选择不同的市政工程项目,使综合效益最高,即决策目标是“合理建设市政工程,使综合效益最高”。 为了实现这一目标,需要考虑的主要准则有三个,即经济效益、社会效益和环境效益。但问题绝不这么简单。通过深入思考,决策人员认为还必须考虑直接经济效益、间接经济效益、方便日常出行、方便假日出行、减少环境污染、改善城市面貌等因素(准则),从相互关系上分析,这些因素隶属于主要准则,因此放在下一层次考虑,并且分属于不同准则。 假设本问题只考虑这些准则,接下来需要明确为了实现决策目标、在上述准则下可以有哪些方案。根据题中所述,本问题有两个解决方案,即建高速路或建地铁,这两个因素作为措施层元素放在递阶层次结构的最下层。很明显,这两个方案于所有准则都相关。 将各个层次的因素按其上下关系摆放好位置,并将它们之间的关系用连线连接起来。同时,为了方便后面的定量表示,一般从上到下用A、B、C、D。。。代表不同层次,同一层次从左到右用1、2、3、4。。。代表不同因素。这样构成的递阶层次结构如下图。

主成分、因子分析步骤

主成分分析、因子分析步骤 不同点 主成分分析 因子分析 概念 具有相关关系的p 个变量,经过线性组合后成为k 个不相关的新变量 将原数据中多个可能相关的变量综合成少数几个不相关的可反映原始变量的绝大多数信息的综合变量 主要 目标 减少变量个数,以较少的主成分来解释原有变量间的大部分变 异,适合于数据简化 找寻变量间的内部相关性及潜在的共同因素, 适合做数据结构检测 强调 重点 强调的是解释数据变异的能力,以方差为导向,使方差达到最大 强调的是变量之间的相关性,以协方差为导向,关心每个变量与其他变量共同享有部分的大小 最终结果应用 形成一个或数个总指标变量 反映变量间潜在或观察不到的因素 变异解释程度 它将所有的变量的变异都考虑 在内,因而没有误差项 只考虑每一题与其他题目共同享有的变异,因 而有误差项,叫独特因素 是否需要旋转 主成分分析作综合指标用, 不需要旋转 因子分析需要经过旋转才能对因子作命名与解 释 是否有假设 只是对数据作变换,故不需要假 设 因子分析对资料要求需符合许多假设,如果假设条件不符,则因子分析的结果将受到质疑 因子分析 1 【分析】→【降维】→【因子分析】 (1)描述性统计量(Descriptives )对话框设置 KMO 和Bartlett 的球形度检验(检验多变量正态性和原始变量是否适合作因子分析)。

(2)因子抽取(Extraction)对话框设置 方法:默认主成分法。主成分分析一定要选主成分法 分析:主成分分析:相关性矩阵。 输出:为旋转的因子图 抽取:默认选1. 最大收敛性迭代次数:默认25. (3)因子旋转(Rotation)对话框设置 因子旋转的方法,常选择“最大方差法”。“输出”框中的“旋转解”。

关键因素分析法

关键因素分析法---层次分析法介绍及应用案例 一.方法介绍 层次分析法,简称AHP,是指将与决策总是有关的元素分解成目标、准则、方案等层次,在此基础之上进行定性和定量分析的决策方法。它是一种定性和定量相结合的、系统化、层次化的分析方法。例如,如果打算去旅游有3个旅游胜地A、B、C供你选择,你会根据诸如景色、费用和居住、饮食、旅途条件等一些准则去反复比较这3个候选地点.首先,你会确定这些准则在你的心目中各占多大比重,如果你经济宽绰、醉心旅游,自然分别看重景色条件,而平素俭朴或手头拮据的人则会优先考虑费用,中老年旅游者还会对居住、饮食等条件寄以较大关注。其次,你会就每一个准则将3个地点进行对比,譬如A景色最好,B次之;B费用最低,C次之;C居住等条件较好等等。最后,你要将这两个层次的比较判断进行综合,在A、B、C中确定哪个作为最佳地点。 二.使用步骤 1.第一步, 通过分析, 确定所给定问题要达到的总目标, 实现目标的准则, 可供选择的措施或方案。在这一过程中, 要广泛收集信息, 注意把握问题的主要因素, 做到不重不漏。 2.第二步,建立层次结构模型。在深入分析实际问题的基础上,将有关的各个 因素按照不同属性自上而下地分解成若干层次,同一层的诸因素从属于上一层的因素或对上层因素有影响,同时又支配下一层的因素或受到下层因素的作用。最上层为目标层,通常只有1个因素,最下层通常为方案或对象层,中间可以有一个或几个层次,通常为准则或指标层。当准则过多时(譬如多于9个)应进一步分解出子准则层。 3.第三步,构造成对比较阵。从层次结构模型的第2层开始,对于从属于(或影 响)上一层每个因素的同一层诸因素,用成对比较法和1—9比较尺度构造成对比较阵,直到最下层。 4.第四步,计算权向量并做一致性检验。对于每一个成对比较阵计算最大特征 根及对应特征向量,利用一致性指标、随机一致性指标和一致性比率做一致性检验。若检验通过,特征向量(归一化后)即为权向量:若不通过,需重新构造成对比较阵。

因子分析方法

因子分析法 1.因子分析(Factor Analysis) 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。 因子分析法与其他一些多元统计方法的区别: 2.主成分分析 主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到。所以这种区分不是绝对的。 总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。

研究方法-因子分析

因子分析 前言 因子分析方法的实际作用已为广大实际工作所证实。但并非每次运用它都是成功的。有时,特别是针对多维变量所做的因子分析,难以有清晰的解释。因此,有的实际工作者开始怀疑因子分析方法的科学性。但同时,不同的人针对相同的数据所做的因子分析。解释其结果却又不尽相同。有的人通过因子分析能给出问题近乎完美的答案。于是,又有人称因子分析是一种“艺术”因子分析因此也变得神秘起来了。因子分析到底是艺术还是科学呢? 因子分析的统计思想 在实践中,往往收集到的数据是多指标的。各指标之间通常不是独立的,或多或少存在着一定程度的关系。因子分析的目的是通过少数几个变量去描述这众多变量见的协方差关系。这少数几个变量是潜在的,但不能观察的。我们称之为因子。 1以相关为基础 在所收集到的众多变量中,必定存在某些是高度相关的,把这些高度相关的变量组成各组。这样同一组内变量具有高度相关,而与其他的各组变量却只有较小的相关或是不相关。这些组内高度相关的变量可以设想是一个共同的东西在影响着它们而导致高度相关。这个共同的东西称之为公共因子。如前所述,这些公共因子是潜在但不能观测的。 2通过协方差来实现 因子分析是以相关为基础,从协方差或相关阵开始把大部分变异归结为少数几个公共因子所为。把剩余的部分称为特殊因子。 3作用:寻求基本结构、数据化简 通过因子分析,可以用几个较小的有实际意义的因子来反映原来数据的基

本结构。例如: 例1:Linden 对二战以来奥运会十项全能比赛的得分作了研究,将100 米、跳远、铅球、跳高、400米、110米栏、铁饼、撑杆跳、标枪、1500米的成绩归结到短跑速度、爆发性臂力、爆发性腿力、耐力四个方面。 例2:公司面试,从简历、外貌、专业能力、讨人喜欢的能力、自信 心、洞察力、诚实、理解力等15个方面进行打分,最后归结外申请者的外露能力、受欢迎程度、工作经验、专业能力这四个方面 通过因子分析,可以用少数几个因子代替原来的变量做回归分析÷据类分析等。 正交因子模型分析 1模型的直观描述 既然因子分析的目的是用少数几个称之为公共因子的因子去描述众多变量间协方差关系。巡着这一思路,针对每一个具体的变量。去掉共同的东西剩余的变异部分由两个部分组成,一个是公共因子的贡献的部分,另一个就是剩余的部分,即特殊因子。须提醒一下,这里特殊因子与公共因子不应相关。直观上,若公共因子与特殊因子相关则说明特殊因子中还可以抽出共同的东西到公共部分。由此可见模型中公共因子与特殊因子是不相关的。 2正交因子模型的数学表达式 考虑p 个成分的随机观测向量x 。因子模型要求线性相依,其中有m 个公共 因子f1 f 2…..fm 和特殊因子 p εεεΛ21,组成。具体如下: 1 ) 1)((???+= p m m P AF X ε 如果fi 与fj 相互独立(i ≠j ),则称该因子模型为正交因子模型。正交因子模型具有如下 是简单相关数 为特殊因子为公因子,其中pm i i p m pm p p p m m m m a f f a f a f a x f a f a f a x f a f a f a x ,2211222221212112121111εεεε???????+++=+++=+++=ΛM ΛΛ

因素分析法

因素分析法 1、因素分析法。又称经验分析法,是一种定性分析方法。该方法主要指根据价值工程对象选择应考虑的各种因素,凭借分析人员的知识和经验集体研究确定选择对象。 步骤 1、确定分析对象,利用比较分析法将分析对象与选择的标准进行比较,确定差异数. 2、确定分析对象的影响因素. 3、确定分析对象与影响因素之间的数量关系,建立函数关系式. 4、按一定的顺序依次代入各影响因素,确定各因素对分析对象的影响程度. ,某一个财务指标及有关因素的关系由如下式子构成:实际指标:Po=Ao×Bo×Co;标准指标:Ps=As×Bs×Cs;实际与标准的总差异为Po-Ps,P G 这一总差异同时受到A、B、C三个因素的影响,它们各自的影响程度可分别由以下式子计算求得: A因素变动的影响:(Ao-As)×Bs×Cs; B因素变动的影响;Ao×(Bo-Bs)×Cs; C因素变动的影响:Ao×Bo×(Co-Cs). 最后,可以将以上三大因素各自的影响数相加就应该等于总差异Po-Ps. 简单来说就是保持两个不变,其中一个换成实际数,看与标准数的差距

又称经验分析法。分析人员凭经验确定价值工程活动对象的方法。通常先由熟悉产品性能和生产过程的专业人员,对产品存在的问题、影响因素和可能改进的方法提出意见,然后通过集体讨论确定分 析对象;也可在专家评分法的基础上进行综合分析。特点是简单易行,节约时间,但缺乏确切依据,精确度不高。 3、变动成本差异分析的基本公式——因素分析法(差额分析法) 1.基本公式 1)用量差异=(实际用量-实际产量下标准用量)×标准价格2)价格差异=实际用量×(实际价格-标准价格) 2.注意问题 1)分析顺序:(顺序性、连环性)数量因素在先、价格因素在后 2)标准用量——实际产量下标准用量=实际产量×用量标准 (三)直接材料成本差异的计算分析 1.直接材料用量差异=(实际用量-实际产量下标准用量)×标准价格 1)有生产部门原因,也有非生产部门原因。如产品设计结构、原料质量、工人的技术熟练程度、废品率的高低; 2)责任需要通过具体分析才能确定,但主要往往应由生产部门承担。 2.直接材料价格差异=实际用量×(实际价格-标准价格) =实际材料成本-实际用量×标准价格

主成分、因子分析步骤

主成分、因子分析步骤 主成分分析、因子分析步骤 不同点主成分分析因子分析概念具有相关关系的p个变量,经过将原数据中多个可能相关的变量综合成少数几 线性组合后成为k个不相关的新个不相关的可反映原始变量的绝大多数信息的变量综合变量 主要减少变量个数,以较少的主成分找寻变量间的内部相关性及潜在的共同因素,目标来解释原有变量间的大部分变适合做数据结构检测 异,适合于数据简化 强调强调的是解释数据变异的能力,强调的是变量之间的相关性,以协方差为导向,重点以方差为导向,使方差达到最大关心每个变量与其他变量共同享有部分的大小最终结形成一个或数个总指标变量反映变量间潜在或观察不到的因素果应用 变异解它将所有的变量的变异都考虑只考虑每一题与其他题目共同享有的变异,因释程度在内,因而没有误差项而有误差项,叫独特因素是否需主成分分析作综合指标用,因子分析需要经过旋转才能对因子作命名与解要旋转不需要旋转释 是否有只是对数据作变换,故不需要假因子分析对资料要求需符合许多假设,如果假假设设设条件不符,则因子分析的结果将受到质疑 因子分析 1 【分析】?【降维】?【因子分析】

(1)描述性统计量(Descriptives)对话框设置 KMO和Bartlett的球形度检验(检验多变量正态性和原始变量是否适合作因子分析)。 (2)因子抽取(Extraction)对话框设置 方法:默认主成分法。主成分分析一定要选主成分法分析:主成分分析:相关性矩阵。 输出:为旋转的因子图 抽取:默认选1. 最大收敛性迭代次数:默认25.

(3)因子旋转(Rotation)对话框设置 因子旋转的方法,常选择“最大方差法”。“输出”框中的“旋转解”。 (4)因子得分(Scores)对话框设置 “保存为变量”,则可将新建立的因子得分储存至数据文件中,并产生新的变量名称。

SPSS探索性因子分析的过程

S P S S探索性因子分析的 过程 Company Document number:WUUT-WUUY-WBBGB-BWYTT-1982GT

现要对远程学习者对教育技术资源和使用情况进行了解,设计一个李克特量表,如下图所示: 一.因子分析的定义 在现实研究过程中,往往需要对所反映事物、现象从多个角度进行观测。因此研究者往往设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律。多变量大样本虽然会为我们的科学研究提供丰富的信息,但却增加了数据采集和处理的难度。更重要的是许多变量之间存在一定的相关关系,导致了信息的重叠现象,从而增加了问题分析的复杂性。 因子分析是将现实生活中众多相关、重叠的信息进行合并和综合,将原始的多个变量和指标变成较少的几个综合变量和综合指标,以利于分析判定。用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间彼此是不相关的,代表各类信息的综合指标成为因子。因子分析就是用少数几个因子来描述许多指标之间的联系,以较少几个因子反应原资料的大部分信息的统计方法。 二.数学模型 Z为第i个变量的标准化分数;(标准分是一种由原始分出来的,它是用来说明原始分i 在所属的那批分数中的相对位置的。)

m F 为共同因子; m 为所有变量共同因子的数目; i U 为变量i Z 的唯一因素; im α为因子负荷。(也叫因子载荷,统计意义就是第i 个变量与第m 个公共因子的相关 系数,它反映了第i 个变量在第m 个公共因子上的相对重要性也就是第m 个共同因子对第i 个变量的解释程度。) 因子分析的理想情况,在于个别因子负荷im α不是很大就是很小,这样每个变量才能与较少的共同因子产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则i U 彼此间不能有关联存在。 所谓的因子负荷就是因子结构中原始变量与因子分析时抽取出共同因子的相关,即在各个因子变量不相关的情况下,因子负荷im α就是第i 个原有变量和第m 个因子变量间的相关系数,也就是i Z 在第m 个共同因子变量上的相对重要性,因此,im α绝对值越大则公共因子和原有变量关系越强。在因子分析中有两个重要指针:一为“共同性”,二为“特征值”。 所为共同性,也称变量共同度或者公共方差,就是每个变量在每个共同因子的负荷量的平方总和(一横列中所有因子负荷的的平方和),也就是个别变量可以被共同因子解释的变异量百分比,这个值是个别变量与共同因子间多元相关的平方。从共同性的大小可以判断这个原始变量与共同因子间的关系程度。如果大部分变量的共同度都高于,则说明提取出的共同因子已经基本反映了各原始变量80%以上的信息,仅有较少的信息丢失,因子分析效果较好。而各变量的唯一因素就是1减掉该变量共同性的值,就是原有变量不能被因子变量所能解释的部分。 所谓特征值,是每个变量在某一共同因子的因子负荷的平方总和(一直行所有因子

相关文档