文档库 最新最全的文档下载
当前位置:文档库 › 基于主成分法的学生成绩综合评价

基于主成分法的学生成绩综合评价

基于主成分法的学生成绩综合评价
基于主成分法的学生成绩综合评价

现代经济信息

一、引言

在经济全球化和社会分工越来越细化的当今社会,人力资源已成为人类的第一宝贵资源。作为高素质人才主要培养基地的高等院校,如何科学地评价大学生的综合成绩成为当前各高校在全面推进素质教育过程中所面临的问题之一。传统的以多门课程总平均分排名的评价方法,比较笼统,为了尽可能全面、科学地反映被评价对象的情况,往往需要选取众多的指标构成评价体系,但是,过多的指标不仅会增加评价的工作量,还会因评价指标间的相关性造成评价信息相互重叠、相互干扰,从而难以客观地反映被评价对象的真实水平。本文认为可以使用主成分分析法解决此类问题。

二、主成分分析方法简介

主成分分析,是利用降维的方法,将多个指标转化为少数几个综合指标,去解释原始资料中的大部分变异的一种方法。在实际问题中,为了全面、系统地分析问题,通常必须考虑众多的影响因素,这些影响因素一般被称为指标或者变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。因此,把这些变量转化成彼此不相关的变量,然后从中选出比原始变量个数少、却能解释原始资料中大部分变异的几个新变量,即所谓的主成分,从而达到降维和简化问题分析的目的。

具体而言,主成分分析法是通过数学变换把给定的一组相关变量通过线性变换转成另一组不相关的变量,并按方差依次递减的顺序排列,找到第一、第二、…第 k个主成分,然后计算因子载荷矩阵,建立主成分模型,最后按因子得分及贡献率的大小,计算综合得分并进行排序。

三、高校学生成绩综合评价应用

(一)研究的对象及指标的选择

本文以贵州航天职业技术学院11级社区管理与服务班在2011—2012学年的13门主要课程考试成绩为研究对象,借助统计软件进行主成分分析,计算出主成分得分,并按主成分得分对学生进行了排名。班上共有28名同学,将这28名同学作为总体,13门主要课程具体为:大学英语Ⅰ(x1)、思想道德修养与法律基础(x2)、管理学原理(x3)、社区管理学(x4)、社会工作法律实务(x5)、应用统计学(x6)、体育(x7)、社会心理学(x8)、服务礼仪(x9)、高等数学(x10)、团队建设(x11)、大学英语Ⅱ(x12)、大学语文(x13),学生姓名用序号1、2、… 28表示,用xij 表示第i个同学在第j 门课上的得分,则x=(xij)28×l3,这样就得到了一

个28×13的原始数据矩阵。见表1。

(二)主成分分析过程

将原始数据标准化,用计算机求出标准化矩阵的相关系数矩阵;求相关矩阵的特征值,确定主成分个数。(见表2)

基于主成分分析法的学生成绩综合评价

李 畅 贵州航天职业技术学院

摘要:以贵州航天职业技术学院2011级社区管理与服务班在2011—2012学年的13门主要课程考试成绩为研究对象,借助统计软件进行主成分分析,计算出主成分得分,并按主成分得分对学生进行了排名。为使成绩评价更具科学性、客观性和合理性,还将平均分和综合分比对,进行综合评价与分析,为教学研究、学生管理及就业指导提供科学依据。

关键词:主成分分析法;学习成绩;评价

中图分类号:G455 文献标识码:A 文章编号:1001-828X(2013)07-0408-03

408

基于主成分分析的经济发展水平综合评价

基于主成分分析的经济发展水平综合评价1 吴冲,王栋 哈尔滨工业大学管理学院,哈尔滨 (150001) E-mail:wuchong@https://www.wendangku.net/doc/5b10459636.html, 摘要:衡量一个国家的经济发展程度,要从其社会生产的各个方面去考察,要看各项生产能力的综合效果。为了客观、科学地分析我国的经济发展状况,本文首次把居民消费价格指数和商品零售价格指数引入评价指标体系中,提出一种新的社会发展水平综合指标体系,并通过SPSS分析软件进行上机计算,应用主成分分析方法对我国31个省、直辖市、自治区(不包括香港、澳门和台湾)的经济发展水平进行综合分析和评价,突出了各大省市经济发展进程的特点和优势,为我国实现均衡发展提供理论依据。 关键词:主成分分析,经济发展,综合评价 1. 引言 要描述和评价一个社会的经济发展状况,最理想的是找到一个总括性社会指标体系评价方法,其测度结果能够反映社会经济发展的全部或大部分信息。20世纪60年代以来一些国际性组织、国家和地区的职能部门以及研究学者曾经提出各种不尽完全相同的指标体系评价方法[1]。我国系统地研究社会发展指标体系评价方法起步较晚,但发展很快,20世纪80年代以来,国内一些政府部门、研究单位和个人先后设计了一些“社会指标体系评价方法”[2-4],如:唐晓东[5]采用了21个指标变量的函数模型来评价我国社会经济发展状况,然而此模型一个最大缺点,就是没有把所有反映经济情况的因素考虑在内,得不到预期效果。但到目前为止,还没有形成一套完善、客观的社会经济发展综合指标体系评价方法,为了更加全面、客观地反映我国各地区的社会发展水平,本文在借鉴国内外研究成果的基础上,通过对我国已有研究成果的修正和充实,首次把居民消费价格指数和商品零售价格指数引入评价指标体系中,提出一种新的社会发展水平综合指标体系。 在实际经济问题中,不同的经济变量之间具有一定的相关性,如职工平均工资和消费水平必然有一定的关联性,这样势必增加分析问题的复杂性,因此需要有一种进行简化的方法。主成分分析法可以用较少的指标来代替原来较多的指标,并使这些较少的指标尽可能地反映原来指标的信息,从根本上解决了指标间的信息重叠问题,又大大简化了原指标体系的指标结构,用主成分分析法分析经济发展水平的优势主要体现在: (1)全面性(消除评价指标的相互影响),在满足n p f的条件下,不限制指标的个数,可以综合评价一国的经济发展状况,主成分分析的降维处理技术能较好地解决多指标评价的要求,在选择了() p个主成分后, m m p 仍能保留原是数据信息的85%以上,因此这一方法综合评价经济发展水平比较全面,可以克服片面追求个别经济指标而忽略全面经济发展指标的倾向;(2)可加性(数据标准化处理),在综合评价经济发展水平时,所建立的评价指标量纲往往不同,变差不能直接综合,主成分分析法避免了此现象的发生,因为在计算过程中,主成分分析法把各个指标进行了标准化处理,这就使得各个经济指标之间具有可比性即可加性;(3)客观性(科学的确定权重),在层次分析法计算过程中,通过专家打分来确定权重,也就是说在确定权重的问题上具有了人为因素,而主成分分析法在确定综合因子的权重时,克服了某些评价方法中人为确定权重的缺陷,使得综合评价结果唯一;(4)简单性(计算简介),随着电子计算机技术的发展,SPSS、SAS等计 1本课题得到高校博士点基金(20050213037)资助。

主成分分析法总结

主成分分析法总结 在实际问题研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。 因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息? 一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点: ↓主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关 通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性 总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。 主成分分析的具体步骤如下: (1)计算协方差矩阵 计算样品数据的协方差矩阵:Σ=(s ij )p ?p ,其中 1 1()() 1n ij ki i kj j k s x x x x n ==---∑i ,j=1,2,…,p (2)求出Σ的特征值 i λ及相应的正交化单位特征向量i a Σ的前m 个较大的特征值λ1≥λ2≥…λm>0,就是前m 个主成分对应的方差,i λ对应的单 位特征向量 i a 就是主成分Fi 的关于原变量的系数,则原变量的第i 个主成分Fi 为:

用主成分分析模型构造综合评价指数

用主成分分析模型构造中学考试综合评价指数 [摘要] 在中学考试的综合评价中,使用较多的指标进行描述使分析复杂化,难以对众多指标的影响作出正确的判断,需要少量几个“综合评价指标”。通过简单加权的合成方法,难以得到科学的结果。主成分分析是一种多元统计方法,可以将众多指标简化浓缩为少量几个甚至一个综合评价指标,使简化的指标既能基本包括全部指标具有的信息,又使指标之间相互无关,较好地解决了这一课题。 [关键词] 考试评价;主成分分析;数学模型;计算步骤,指数构造方法 一、问题的提出 在中学考试评价中,通常使用各学科的“平均分”、“优秀率”、“及格率”和“低分率”等指标。考虑到成绩的分布状况(“优秀率”与“及格率”之间的差距偏大,可能失去部分信息量),某些地区还使用了“良好率”指标。这样,k 个学科的考试评价的p 项指标将多达k ╳p 个。在对考试进行综合的评价时,使用较多的指标进行描述不仅会增加评价的工作量,而且会因评价指标间的相关性造成评价信息重叠,相互干扰,其结果使分析复杂化,难以对众多指标的影响作出正确的判断。因此,需要少数几个甚至一个“综合评价指标”来代替众多的且相互之间具有相关关系的指标,同时又需要不失去原有指标具有的信息量,这是考试评价中具有现实意义的课题。 某些地区采用一种“降维”的方法,较成功地把k ╳p 维指标降为p 维指标,即在使用“总分平均分”的同时,用“科平均╳╳率”取代各科的“╳╳率”(计算方法见备注1)。如何把p 维指标再合成为一个“综合评价指标”?采用一些简单加权的合成方法时,由于对各指标的影响不容易作出正确的定量化的判断,及权数产生的科学性等问题,往往难以得到令人信服的科学的结果。 主成分分析是一种多元统计方法,可以将众多指标简化浓缩为少数几个甚至一个综合评价指标,使简化的指标既能基本包括全部指标具有的信息,又使指标之间相互无关。较好地解决了这一课题。 二、主成分分析的数学模型 设有n 个样品,每个样品观测p 个指标(变量):X 1,X 2,…,X p , 得到原始数据矩阵: 用数据矩阵X 的p 个列向量(即p 个指标向量)作线形组合(即综合指标向量)为: 上述方程组要求: 且系数αij 由下列原则决定: ①、F i 与F j (i ≠j ,i ,j =1,…,p )不相关; ②、F 1是X 1,X 2,…,X p 的一切线性组合(系数满足上述方程组)中方差最大的,F 2是与F 1不相关的X 1,X 2,…,X p 的一切线性组合中方差最大的,…,F p 是是与F 1,F 2,…,F p-1都不相关的X 1,X 2,…,X p 的一切线性组合中方差最大的。 ?? ? ??? ? ???? ???=np n n p p x x x x x x x x x X 2122221 11211 ??? ?? ???????=ni i i i x x x X 2 1 ?? ???? ?+++=+++=+++=p pp p p p p p p p p X a X a X a F X a X a X a F X a X a X a F 22122221122122111111 2 2221=+++pi i i a a a

主成分分析法精华讲义及实例

主成分分析 类型:一种处理高维数据的方法。 降维思想:在实际问题的研究中,往往会涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。 一、总体主成分 1.1 定义 设 X 1,X 2,…,X p 为某实际问题所涉及的 p 个随机变量。记 X=(X 1,X 2,…,Xp)T ,其协方差矩阵为 ()[(())(())], T ij p p E X E X X E X σ?∑==-- 它是一个 p 阶非负定矩阵。设 1111112212221122221122T p p T p p T p p p p pp p Y l X l X l X l X Y l X l X l X l X Y l X l X l X l X ?==+++? ==+++?? ??==+++? (1) 则有 ()(),1,2,...,, (,)(,),1,2,...,. T T i i i i T T T i j i j i j V ar Y V ar l X l l i p C ov Y Y C ov l X l X l l j p ==∑===∑= (2) 第 i 个主成分: 一般地,在约束条件 1T i i l l =

及 (,)0,1,2,..., 1.T i k i k C ov Y Y l l k i =∑==- 下,求 l i 使 Var(Y i )达到最大,由此 l i 所确定的 T i i Y l X = 称为 X 1,X 2,…,X p 的第 i 个主成分。 1.2 总体主成分的计算 设 ∑是12(,,...,) T p X X X X =的协方差矩阵,∑的特征值及相应的正交单位化特 征向量分别为 120p λλλ≥≥≥≥ 及 12,,...,, p e e e 则 X 的第 i 个主成分为 1122,1,2,...,,T i i i i ip p Y e X e X e X e X i p ==+++= (3) 此时 (),1,2,...,,(,)0,. T i i i i T i k i k V ar Y e e i p C ov Y Y e e i k λ?=∑==??=∑=≠?? 1.3 总体主成分的性质 1.3.1 主成分的协方差矩阵及总方差 记 12(,,...,) T p Y Y Y Y = 为主成分向量,则 Y=P T X ,其中12(,,...,)p P e e e =,且 12()()(,,...,),T T p Cov Y Cov P X P P Diag λλλ==∑=Λ= 由此得主成分的总方差为 1 1 1 ()()()()(),p p p T T i i i i i i V ar Y tr P P tr P P tr V ar X λ ==== =∑=∑=∑= ∑∑∑ 即主成分分析是把 p 个原始变量 X 1,X 2,…,X p 的总方差

主成分分析法matlab实现,实例演示

利用Matlab 编程实现主成分分析 1.概述 Matlab 语言是当今国际上科学界 (尤其是自动控制领域) 最具影响力、也是 最有活力的软件。它起源于矩阵运算,并已经发展成一种高度集成的计算机语言。它提供了强大的科学运算、灵活的程序设计流程、高质量的图形可视化与界面设计、与其他程序和语言的便捷接口的功能。Matlab 语言在各国高校与研究单位起着重大的作用。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。 1.1主成分分析计算步骤 ① 计算相关系数矩阵 ?? ? ???? ???? ?? ?=pp p p p p r r r r r r r r r R 2 122221 11211 (1) 在(3.5.3)式中,r ij (i ,j=1,2,…,p )为原变量的xi 与xj 之间的相关系数,其计算公式为 ∑∑∑===----= n k n k j kj i ki n k j kj i ki ij x x x x x x x x r 1 1 2 2 1 )() () )(( (2) 因为R 是实对称矩阵(即r ij =r ji ),所以只需计算上三角元素或下三角元素即可。

② 计算特征值与特征向量 首先解特征方程0=-R I λ,通常用雅可比法(Jacobi )求出特征值 ),,2,1(p i i =λ,并使其按大小顺序排列,即0,21≥≥≥≥p λλλ ;然后分别求 出对应于特征值i λ的特征向量),,2,1(p i e i =。这里要求i e =1,即112 =∑=p j ij e ,其 中ij e 表示向量i e 的第j 个分量。 ③ 计算主成分贡献率及累计贡献率 主成分i z 的贡献率为 ),,2,1(1 p i p k k i =∑=λ λ 累计贡献率为 ) ,,2,1(11 p i p k k i k k =∑∑==λ λ 一般取累计贡献率达85—95%的特征值m λλλ,,,21 所对应的第一、第二,…,第m (m ≤p )个主成分。 ④ 计算主成分载荷 其计算公式为 ) ,,2,1,(),(p j i e x z p l ij i j i ij ===λ (3)

主成分分析法PCA的原理

主成分分析法原理简介 1.什么是主成分分析法 主成分分析也称主分量分析,是揭示大样本、多变量数据或样本之间内在关系的一种方法,旨在利用降维的思想,把多指标转化为少数几个综合指标,降低观测空间的维数,以获取最主要的信息。 在统计学中,主成分分析(principal components analysis, PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 2.主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 对同一个体进行多项观察时必定涉及多个随机变量X1,X2,…,X p,它们之间都存在着相关性,一时难以综合。这时就需要借助主成分分析来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。

如何有效利用主成分分析进行综合评价

如何有效利用主成分分析进行综合评价 摘要:由于主成分分析在多元统计分析中的降维作用,使之在社会、经济、医疗、生化等 各领域运用越来越广泛,但由于传统主成分分析方法的局限性导致了一些问题的产生。这些 问题吸引了许多领域专家的关注,并具有针对性的提出了一些不同的改进方法。本文介绍了 主成分分析的基本和性质,并整理了近年来主成分分析在综合评价应用中遇到的普遍问题并整理验证了认同率较强的一些改进方法,以供大家研究学习。 关键词:主成分分析;综合评价;均值化 1引言 1.1研究的背景和意义 随着生产力的不断进步,生产方式由外延式扩张转化为追求经济效益的内涵式发展,以 致在生产过程中必须考虑经济效益的各个方面,如生产力水平、技术进步、资源占用等情况, 并需要就综合各方面的因素进行综合评价。 评价是根据确定的目的来测定对象系统的属性,并将这种属性变为客观定量的计值或者主观效用行为,整个过程离不开评价者的参与,而综合评价作为评价的一种也需要评价者做出相应反应或指示,而很多综合评价过程易受到评价者的干预,使评价结果产生偏差。 主成分分析能将高维空间的问题转化到低维空间去处理【9】,使问题变得比较简单、直 观,而且这些较少的综合指标之间互不相关,又能提供原有指标的绝大部分信息。而且,伴 随主成分分析的过程,将会自动生成各主成分的权重,这就在很大程度上抵制了在评价过程 中人为因素的干扰,因此以主成分为基础的综合评价理论能够较好地保证评价结果的客观性,如实地反映实际问题。主成分综合评价提供了科学而客观的评价方法,完善了综合评价 理论体系,为管理和决策提供了客观依据,能在很大程度上减少了上述不良现象的产生。 所以在社会经济、管理、自然科学等众多领域的多指标体系中,如节约型社会指标体系、生态环境可持续型指标体系、和谐社会指标体系、投资环境指标体系等,主成分分析法常被应用于综合评价与监控【6】。 综上所述,对综合评价指标体系理论进行研究,既有理论上的必要性,更有实践中的迫 切性。 1.2研究的发展史

主成分分析计算方法和步骤

主成分分析计算方法和步骤: 在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。 主成分分析的应用目的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。 主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征根和特征向量; ④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。 结合数据进行分析 本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了0.963,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。 表5-6 相关系数矩阵 本科院校 数招生人数教育经费投入 相关性师生比0.279 0.329 0.252 重点高校数0.345 0.204 0.310 教工人数0.963 0.954 0.896 本科院校数 1.000 0.938 0.881 招生人数0.938 1.000 0.893 教育经费投 0.881 0.893 1.000 入

主成分分析PCA(含有详细推导过程以及案例分析matlab版)

主成分分析法(PCA) 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。 I. 主成分分析法(PCA)模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。 主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求 0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。 (二)主成分分析的数学模型 对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为: ??????? ??=np n n p p x x x x x x x x x X 21 222 21112 11()p x x x ,,21=

主成分分析法介绍(高等教育)

主成分分析方法 我们进行系统分析评估或医学上因子分析等时,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。 第一节 主成分分析方法的原理 主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。假定有n 样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的数据矩阵: 111212122212.....................p p n n np x x x x x x X x x x ?? ? ?= ? ? ??? (1)

如何从这么多变量的数据中抓住事物的内在规律性呢?要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。 如果记原来的变量指标为p x x x ,,21 ,它们的综合指标——新变量指标为 21,z z ,m z (m≤p)。则 )2.........(..........22112222121212121111??? ??? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 在(2)式中,系数l ij 由下列原则来决定: (1)z i 与 z j (i≠j;i ,j=1,2,…,m)相互无关; (2)z 1是x 1,x 2,…,x p 的一切线性组合中方差最大者;z 2是与z 1不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者;……;z m 是与z 1,z 2,……z m-1都不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者。

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 公司销售净利率(X1)资产净利率(X2)净资产收益率(X3)销售毛利率(X4) 歌华有线五粮液用友软件太太药业浙江阳光烟台万华方正科技红河光明贵州茅台中铁二局红星发展伊利股份青岛海尔湖北宜化雅戈尔福建南纸43.31 17.11 21.11 29.55 11.00 17.63 2.73 29.11 20.29 3.99 22.65 4.43 5.40 7.06 19.82 7.26 7.39 12.13 6.03 8.62 8.41 13.86 4.22 5.44 9.48 4.64 11.13 7.30 8.90 2.79 10.53 2.99 8.73 17.29 7.00 10.13 11.83 15.41 17.16 6.09 12.97 9.35 14.3 14.36 12.53 5.24 18.55 6.99 54.89 44.25 89.37 73 25.22 36.44 9.96 56.26 82.23 13.04 50.51 29.04 65.5 19.79 42.04 22.72 第一,将EXCEL中的原始数据导入到SPSS软件中; 注意: 导入Spss的数据不能出现空缺的现象,如出现可用0补齐。 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。 所做工作: a. 原始数据的标准化处理

主成分分析法实例

1、主成分法: 用主成分法寻找公共因子的方法如下: 假定从相关阵出发求解主成分,设有p 个变量,则可找出p 个主成分。将所得的p 个主成分按由大到小的顺序排列,记为1Y ,2Y ,…,P Y , 则主成分与原始变量之间存在如下关系: 11111221221122221122....................p p p p p p p pp p Y X X X Y X X X Y X X X γγγγγγγγγ=+++?? =+++??? ?=+++? 式中,ij γ为随机向量X 的相关矩阵的特征值所对应的特征向量的分量,因为特征向量之间彼此正交,从X 到Y 得转换关系是可逆的,很容易得出由Y 到 X 得转换关系为: 11112121212122221122....................p p p p p p p pp p X Y Y Y X Y Y Y X Y Y Y γγγγγγγγγ=+++?? =+++??? ?=+++? 对上面每一等式只保留钱m 个主成分而把后面的部分用i ε代替,则上式变为: 111121211 2121222221122................. ...m m m m p p p mp m p X Y Y Y X Y Y Y X Y Y Y γγγεγγγεγγγε=++++??=++++????=++++? 上式在形式上已经与因子模型相一致,且i Y (i=1,2,…,m )之间相互独立,且i Y 与i ε之间相互独立,为了把i Y 转化成合适的公因子,现在要做的工作只是把主成分i Y 变为方差为1的变量。为完成此变换,必须将i Y 除以其标准差,由主成分分析的知识知其标准差即为特征根的平方根 i λ/i i i F Y λ=, 1122m m λγλγλγ,则式子变为:

主成分分析法介绍教学文稿

主成分分析法介绍

主成分分析方法 我们进行系统分析评估或医学上因子分析等时,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。 第一节 主成分分析方法的原理 主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。假定有n 样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的数据矩阵: 11121212221 2 .....................p p n n np x x x x x x X x x x ?? ? ? = ? ? ??? (1)

如何从这么多变量的数据中抓住事物的内在规律性呢?要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。 如果记原来的变量指标为p x x x ,,21 ,它们的综合指标——新变量指标为 21,z z ,m z (m≤p)。则 )2.........(..........22112222121212121111??? ?? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 在(2)式中,系数l ij 由下列原则来决定: (1)z i 与 z j (i≠j;i ,j=1,2,…,m)相互无关; (2)z 1是x 1,x 2,…,x p 的一切线性组合中方差最大者;z 2是与z 1不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者;……;z m 是与z 1,z 2,……z m-1都

主成分进行综合评价 综合评价主成分分析方法与因子分析方法的比较

主成分进行综合评价综合评价主成分分析方法 与因子分析方法的比较 统计研究 主成分分析方法和因子分析方法都是寻求从高维空间到低维空间的映射的方法,其目的是起到降维的效果,以便于用几个较少的综合指标来综合所研究总体各方面的信息,且这几个指标所代表的信息不重叠,也就是说从高维空间到低维空间的映射仍保持高维空间的“序”的结构。但这两种综合评价方法往往易混淆,本文从这两种方法的统计依据、数学模型、计算方法、综合指标的选取等方面比较它们的异同,以供初学者参考。 1、统计依据不同。主成分分析方法的统计问题:依P个指标戈l,x2,A,戈P的/7,个观察值矩阵X=G0帅,能否找到能较好地综合反映这个P 、二 指标的线性函数Y=乞atxt,即 i=1 找到这个主成分的方法就是主成分分析方法。 因子分析方法的统计问题仍 口由P个指标戈。,戈:,A,却的几个观钱道察信息阵X=GF)忡,用有限个不翠

可观测的潜在变量来解释原始变量间的相关性或协方差关系,寻求这几个公因子的方法就是因子缉含汗价士气分析劣珐乡图分奸劣珐的火仪 分析法。它的原理源于已知信息的指标向量戈=0。,戈:,A,菇P)’,总存在正交变换戈=Qy使得记x=Az,这里正交阵Q是X=G0。巾的 协方差阵y的特征向量排成的,y的各分量是不相关的,若茹的方差集中在少数几个变量三,,A,缸上,即y的特征值A,,A,A。较大,后几个特征值A㈨,A,A。很小几乎为零,于是就有因子模型算=4厂+s。寻求公因子、厂及因子载荷阵A的方法就是因子分析法。 , 2、数学模型不同。主成分分析的数学模型:Y=Eat、、ri, 1=1 即主成分是原始指标的线性函数。因子分析的数学模型:戈=4厂+£,A为因子载荷阵。厂为公因子向量,£为随机误差项,Vnroq=I。,Var=o,Var I30圈羹堑绻过丝Q丝生皇塑万 方数据=D。从形式上看二者的模型不同,但主成分分析又为因子分析中因子的寻求提供了一个有效的途径。主成分分析与因子分析法最易混淆的地方在于,将主成分分析方法与因子分析

主成分分析法概念及例题

主成分分析法 主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法 目录 [显示] 1 什么是主成分分析法 2 主成分分析的基本思想 3 主成分分析法的基本原理 4 主成分分析的主要作用 5 主成分分析法的计算步骤 6 主成分分析法的应用分析 o案例一:主成分分析法在啤酒风味评价分析中的应用[1] 1 材料与方法 2 主成分分析法的基本原理 3 主成分分析法在啤酒质量一致性评价中的应用 4 结论 7 参考文献 [编辑] 什么是主成分分析法 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 [编辑] 主成分分析的基本思想

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [编辑] 主成分分析的主要作用

R语言主成分分析的案例

R 语言主成分分析的案例
R 语言也介绍到案例篇了,也有不少同学反馈说还是不是特别明白一些基础的东西,希望能 够有一些比较浅显的可以操作的入门。其实这些之前 SPSS 实战案例都不少,老实说一旦用 上了开源工具就好像上瘾了,对于以前的 SAS、clementine 之类的可视化工具没有一点 感觉了。本质上还是觉得要装这个、装那个的比较麻烦,现在用 R 或者 python 直接简单 安装下,导入自己需要用到的包,活学活用一些命令函数就可以了。以后平台上集成 R、 python 的开发是趋势,包括现在 BAT 公司内部已经实现了。 今天就贴个盐泉水化学分析资料的主成分分析和因子分析通过 R 语言数据挖掘的小李 子: 有条件的同学最好自己安装下 R,操作一遍。 今有 20 个盐泉,盐泉的水化学特征系数值见下表.试对盐泉的水化学分析资料作主成分分 析和因子分析.(数据可以自己模拟一份)
其中 x1:矿化度(g/L);

x2:Br?103/Cl; x3:K?103/Σ 盐; x4:K?103/Cl; x5:Na/K; x6:Mg?102/Cl; x7:εNa/εCl.
1.数据准备
导入数据保存在对象 saltwell 中 >saltwell<-read.table("c:/saltwell.txt",header=T) >saltwell
2.数据分析

1 标准误、方差贡献率和累积贡献率
>arrests.pr<- prcomp(saltwell, scale = TRUE) >summary(arrests.pr,loadings=TRUE)
2 每个变量的标准误和变换矩阵
>prcomp(saltwell, scale = TRUE)
3 查看对象 arests.pr 中的内容
>> str(arrests.pr)

主成分分析在STATA中的实现以及理论介绍

主成分分析在S T A T A 中的实现以及理论介绍 文件编码(TTU-UITID-GGBKT-POIU-WUUI-0089)

第十二章 主成分分析 主成分分分析也称作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降维的思想,在损失较少信息的前提下把多个指标转化为较少的综合指标。转化生成的综合指标即称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分互不相关。Stata 对主成分分析的主要内容包括:主成分估计、主成分分析的恰当性(包括负偏协方差矩阵和负偏相关系数矩阵、KMO(Kaiser-Meyer-Olkin)抽样充分性、复相关系数、共同度等指标测度)、主成分的旋转、预测、各种检验、碎石图、得分图、载荷图等。 p j n i b a y ij j i ij ,,2,1,,2,1,' ==+=ε 主成分的模型表达式为: p p j i i i i diag v v v v i p V V C λλλλλλλ≥≥≥=∧='' ==∧=∑ 2121),,,,(0 1 其中,a 称为得分,b 称为载荷。主成分分析主要的分析方法是对相关系数矩阵(或协方差矩阵)进行特征值分析。

Stata中可以通过负偏相关系数矩阵、负相关系数平方和KMO值对主成分分析的恰当性进行分析。负偏相关系数矩阵即变量之间两两偏相关系数的负数。非对角线元素则为负的偏相关系数。如果变量之间存在较强的共性,则偏相关系数比较低。因此,如果矩阵中偏相关系数较高的个数比较多,说明某一些变量与另外一些变量的相关性比较低,主成分模型可能不适用。这时,主成分分析不能得到很好的数据约化效果。 Kaiser-Meyer-Olkin抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标,是通过比较两个变量的相关系数与偏相关系数得到的。KMO介于0于1之间。KMO越高,表明变量的共性越强。如果偏相关系数相对于相关系数比较高,则KMO比较低,主成分分析不能起到很好的数据约化效果。根据Kaiser(1974),一般的判断标准如下:不能接受(unacceptable);非常差(miserable);,勉强接受(mediocre);可以接受(middling);,比较好(meritorious);非常好(marvelous)。 SMC即一个变量与其他所有变量的复相关系数的平方,也就是复回归方程的可决系数。SMC比较高表明变量的线性关系越强,共性越强,主成分分析就越合适。

基于主成分法的学生成绩综合评价

现代经济信息 一、引言 在经济全球化和社会分工越来越细化的当今社会,人力资源已成为人类的第一宝贵资源。作为高素质人才主要培养基地的高等院校,如何科学地评价大学生的综合成绩成为当前各高校在全面推进素质教育过程中所面临的问题之一。传统的以多门课程总平均分排名的评价方法,比较笼统,为了尽可能全面、科学地反映被评价对象的情况,往往需要选取众多的指标构成评价体系,但是,过多的指标不仅会增加评价的工作量,还会因评价指标间的相关性造成评价信息相互重叠、相互干扰,从而难以客观地反映被评价对象的真实水平。本文认为可以使用主成分分析法解决此类问题。 二、主成分分析方法简介 主成分分析,是利用降维的方法,将多个指标转化为少数几个综合指标,去解释原始资料中的大部分变异的一种方法。在实际问题中,为了全面、系统地分析问题,通常必须考虑众多的影响因素,这些影响因素一般被称为指标或者变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。因此,把这些变量转化成彼此不相关的变量,然后从中选出比原始变量个数少、却能解释原始资料中大部分变异的几个新变量,即所谓的主成分,从而达到降维和简化问题分析的目的。 具体而言,主成分分析法是通过数学变换把给定的一组相关变量通过线性变换转成另一组不相关的变量,并按方差依次递减的顺序排列,找到第一、第二、…第 k个主成分,然后计算因子载荷矩阵,建立主成分模型,最后按因子得分及贡献率的大小,计算综合得分并进行排序。 三、高校学生成绩综合评价应用 (一)研究的对象及指标的选择 本文以贵州航天职业技术学院11级社区管理与服务班在2011—2012学年的13门主要课程考试成绩为研究对象,借助统计软件进行主成分分析,计算出主成分得分,并按主成分得分对学生进行了排名。班上共有28名同学,将这28名同学作为总体,13门主要课程具体为:大学英语Ⅰ(x1)、思想道德修养与法律基础(x2)、管理学原理(x3)、社区管理学(x4)、社会工作法律实务(x5)、应用统计学(x6)、体育(x7)、社会心理学(x8)、服务礼仪(x9)、高等数学(x10)、团队建设(x11)、大学英语Ⅱ(x12)、大学语文(x13),学生姓名用序号1、2、… 28表示,用xij 表示第i个同学在第j 门课上的得分,则x=(xij)28×l3,这样就得到了一 个28×13的原始数据矩阵。见表1。 (二)主成分分析过程 将原始数据标准化,用计算机求出标准化矩阵的相关系数矩阵;求相关矩阵的特征值,确定主成分个数。(见表2) 基于主成分分析法的学生成绩综合评价 李 畅 贵州航天职业技术学院 摘要:以贵州航天职业技术学院2011级社区管理与服务班在2011—2012学年的13门主要课程考试成绩为研究对象,借助统计软件进行主成分分析,计算出主成分得分,并按主成分得分对学生进行了排名。为使成绩评价更具科学性、客观性和合理性,还将平均分和综合分比对,进行综合评价与分析,为教学研究、学生管理及就业指导提供科学依据。 关键词:主成分分析法;学习成绩;评价 中图分类号:G455 文献标识码:A 文章编号:1001-828X(2013)07-0408-03 408

相关文档
相关文档 最新文档