当前位置：文档库 › 统计学课后题

统计学课后题

第二章均值向量和协方差阵的检验

1、试谈willks统计量在多元方差分析中的重要意义。

2、形象分析的基本思路是什么？

形象又称轮廓图，是将总体样本的均值绘制到同一坐标轴里所得的折线图，每一个指标都表示为折线图上的一点。形象分析是将两（多）总体的形象绘制到同一个坐标下，根据形象（轮廓图）的形状对总体的均值进行比较分析。

第三章聚类分析

1、聚类分析的基本思想和功能是什么？

聚类分析的核心思想是根据具体的指标（变量）对所研究的个体或者对象进行分类，使得同一类中的对象之间的相似性比其他类的对象的相似性更强。聚类分析不仅可以用来对样品进行分类，也可以用来对变量进行分类。对样品的分类常称为Q型聚类分析，对变量的分类常称为R型的聚类分析。

聚类分析的目的或功能就是把相似的研究对象归成类，即使类间对象的同质性最大化和类与类间对象的异质性最大化。

2、试述系统聚类法的原理和具体步骤

（1）系统聚类的基本思想是：距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。

（2）系统聚类的具体步骤：假设总共有N个样品（或变量）

第一步：将每个样品（或变量）独自聚成一类，共有N类；

第二步：根据所确定的样品（或变量）“距离”公式，把距离较近的两个样品（或变量）聚合为一类，其他的样品（或变量）仍各自聚为一类，共聚成N-1类；

第三步：将“距离”最近的两个类进一步聚成一类，共聚成N-2类；。。。，以上步骤一直进行下去，最后将所有的样品（或变量）全聚成一类。

3、试述K-均值聚类的方法原理

这种聚类方法的思想是把每个样品聚集到其最近形心（均值）类中。

首先随机从数据集中选取 K个点作为初始聚类中心，然后计算各个样本到聚类中的距离，把样本归到离它最近的那个聚类中心所在的类。计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心，如果相邻两次的聚类中心没有任何变化，说明样本调整结束，聚类准则函数已经收敛。

4、试述模糊聚类的思想方法

模糊聚类分析是根据客观事物间的特征、亲疏程度、相似性，通过建立模糊相似关系对客观事物进行聚类的分析方法。在模糊聚类中，每个样本不再仅属于某一类，而是以一定的隶属度属于每一类。换句话说，通过模糊聚类分析，可得到样本属于各个类别的不确定性程度，即建立起了样本对于类别的不确定性的描述，这样就更能准确地反映现实世界。

第四章判别分析

1、应用判别分析应该具备什么样的条件？

判别分析最基本的要求是：分组类型在两组以上；每组案例的规模必须至少在一个以上；解释变量必须是可测量的，才能够计算其平均值和方差，使其能合理地应用于统计函数。2、试述贝叶斯判别法的思路

思想是：假定对研究的对象已有一定的认识，常用先验概率分布来描述这种认识，然后我们取得一个样本，用样本来修正已有的认识（先验概率分布），得到后验概率分布，各种统计推断都通过后验概率分布来进行。将贝叶斯思想用于判别分析，就得到贝叶斯判别。

3、试述费歇判别方法的思想。

费歇判别的思想是投影，将K组P维数据投影到某一个方向，使得它们的投影组和组之间尽可能地分开。

4、什么是逐步判别分析

凡具有筛选变量能力的判别方法统称为逐步判别法。逐步判别法的基本思想是：逐步引入变量，每次引入一个"最重要"的变量，同时也检验先前引入的变量，如果先前引入的变量

其判别能力随新引入变量而变不显著，则及时将其从判别式中剔除，直到判别式中的变量都很显著，且剩下来的变量也没有重要的变量可引入判别式时，逐步筛选结束。

5、简要叙述判别分析的步骤及流程。

判别分析的6个步骤过程：

（1）判别分析的对象：这一步骤主要根据判别分析的研究目的定义观测变量。（2）判别分析的研究设计：主要包括解释变量和被解释变量的选择、估计判别函数所需的样本量和为了验证目的对样本的分割。（3）假定：推导判别函数的关键假定是解释变量的多元正态性和被解释变量定义的各组的未知但相等的协方差结构。（4）估计判别模型和评估整体拟合：研究者必须确定估计的方法，然后确定保留的函数个数；根据估计的函数可用多种方法来评估模型拟合。（5）结果的解释：这个过程主要介绍在判别分析中每个解释变量的相对重要性，主要有标准化判别权重、判别载荷（结构相关系数）、偏F值三种方法确定重要性。（6）结果的验证：通常采用分割样本或者交叉验证法。

判别分析的流程：

研究问题>设计要点>假定>估计判别函数>使用分类矩阵估计预测的精度>判别函数的解释>判别结果的验证

第五章主成分分析

1、主成分的基本思想是什么

在对某一事物进行实证研究中，为了更全面、准确地反映出事物的特征及其发展规律，人们往往要考虑与其有关系的多个指标，这些指标在多元统计中也称为变量。这样就产生了如下问题：一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标，而另一方面随着考虑指标的增多增加了问题的复杂性，同时由于各指标均是对同一事物的反映，不可避免地造成信息的大量重叠，这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。基于上述问题，人们就希望在定量研究中涉及的变量较少，而得到的信息量又较多。主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。既然研究某一问题涉及的众多变量之间有一定的相关性，就必然存在着起支配作用的

共同因素，根据这一点，通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究，利用原始变量的线性组合形成几个综合指标（主成分），在保留原始变量主要信息的前提下起到降维与简化问题的作用，使得在研究复杂问题时更容易抓住主要矛盾。一般地说，利用主成分分析得到的主成分与原始变量之间有如下基本关系：

1.每一个主成分都是各原始变量的线性组合；

2.主成分的数目大大少于原始变量的数目

3.主成分保留了原始变量绝大多数信息

4.各主成分之间互不相关

通过主成分分析，可以从事物之间错综复杂的关系中找出一些主要成分，从而能有效利用大量统计数据进行定量分析，揭示变量之间的内在关系，得到对事物特征及其发展规律的一些深层次的启发，把研究工作引向深入。

2、主成分在应用中的主要作用是什么？

设法将原来变量重新组合成一组新的互相无关的几个综合变量，同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析，也是数学上用来降维的一种方法。

3、由协方差阵出发和由相关阵出发求主成分有什么不同？

一般而言，对于度量单位不同的指标或是取值范围彼此差异非常大的指标，我们不直接由其协方差矩阵出发进行主成分分析，而应该考虑将数据标准化。但是，对原始数据进行标准化处理后倾向于各个指标的作用在主成分的构成中相等。对于取值范围相差不大或是度量相同的指标进行标准化处理后，其主成分分析的结果仍与由协方差阵出发求得的结果有较大区别。其原因是由于对数据进行标准化的过程实际上也就是抹杀原始变量离散程度差异的过程，标准化后的各变量方差相等均为1，而实际上方差也是对数据信息的重要概括形式，也就是说，对原始数据进行标准化后抹杀了一部分重要信息，因此才使得标准化后各变量在对主成分构成中的作用趋于相等。由此看来，对同度量或是取值范围在同量级的数据，还是直接从协方差矩阵求解主成分为宜。

第六章因子分析

1、因子分析与主成分分析有什么本质不同？

主成分分析和因子分析是两种把变量维数降低以便于描述、理解和分析的方法：实际上主成分分析可以说是因子分析的一个特例。

（1）因子分析中是把变量表示成各因子的线性组合，而主成分分析中则是把主成分表示成各个变量的线性组合。

（2）主成分分析的重点在于解释个变量的总方差，而因子分析则把重点放在解释各变量之间的协方差。

（3）主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括：各个共同因子之间不相关，特殊因子（specific factor）之间也不相关，共同因子和特殊因子之间也不相关。

（4）主成分分析中，当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候，的主成

分一般是独特的；而因子分析中因子不是独特的，可以旋转得到不到的因子。

（5）在因子分析中，因子个数需要分析者指定（spss根据一定的条件自动设定，只要是

特征值大于1的因子进入分析），而指定的因子数量不同而结果不同。在主成分分析中，成分的数量是一定的，一般有几个变量就有几个主成分。

（6）和主成分分析相比，由于因子分析可以使用旋转技术帮助解释因子，在解释方面更加有优势。大致说来，当需要寻找潜在的因子，并对这些因子进行解释的时候，更加倾于使用因子分析，并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量（新的变量几乎带有原来所有变量的信息）来进入后续的分析，则可以使用主成分分析。当然，这中情况也可以使用因子得分做到。所以这种区分不是绝对的。

2、因子载荷a ij的统计定义是什么？它在实际问题分析中的作用是什么？

因子载荷a（ij）的统计意义就是第i个变量与第j个公共因子的相关系数即表示X（i）依赖F（j）的份量（比重）。统计学术语称作权，心理学家将它叫做载荷，即表示第i个变量在第j个公共因子上的负荷，它反映了第i个变量在第j个公共因子上的相对重要性。

在因子分析中，通常只选其中m个(m

?1,使其在各变量的公共因子方差中所占的方差贡献为最大，然后消去这个因子的影响，而从剩余的相关中，选出与之不相关的因子，使其在各个变量的剩余因子方差贡献中为最大，如此往复，直到各个变量公共因子方差被分解完毕为止。

第七章对应分析

1、试述对应分析的思想方法及特点。

思想：对应分析又称为相应分析，也称R—Q分析。是因子分子基础发展起来的一种多元统计分析方法。它主要通过分析定性变量构成的列联表来揭示变量之间的关系。当我们对同一观测数据施加R和Q型因子分析，并分别保留两个公共因子，则是对应分析的初步。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。它最大特点是能把众多的样品和众多的变量同时作到同一张图解上，将样品的大类及其属性在图上直观而又明了地表示出来，具有直观性。另外，它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程，可以从因子载荷图上对样品进行直观的分类，而且能够指示分类的主要参数（主因子）以及分类的依据，是一种直观、简单、方便的多元统计方法。

特点：对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。它最大特点是能把众多的样品和众多的变量同时作到同一张图解上，将样品的大类及其属性在图上直观而又明了地表示出来，具有直观性。另外，它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程，可以从因子载荷图上对样品进行直观的分类，而且能够指示分类的主要参数（主因子）以及分类的依据，是一种直观、简单、方便的多元统计方法。

2、试述对应分析中总惯量的意义。

总惯量不仅反映了行剖面集定义的各点与其重心加权距离的总和,同时与2统计量仅相差一个常数,而2统计量反映了列联表横联与纵联的相关关系,因此总惯量也反映了两个属性变量各状态之间的相关关系。对应分析就是在对总惯量信息损失最小的前提下，简化数据结构以反映两属性变量之间的相关关系。

第八章典型相关分析

1、试述典型相关分析的统计思想

典型相关分析是借助于主成分分析的思想，对每一组变量分别寻找线性组合，使生成的新的综合变量能代表原始变量大部分的信息，同时，与由另一组变量生成的新的综合变量称为第一对典型相关变量，同样的方法可以找到第二对，第三对等。使得各对典型相关变量之间互不相关，典型相关变量之间的简单相关系数称为典型相关系数典型相关分析就是用典型相关关系数衡量两组变量之间的相关性。

2、典型相关分析中的冗余度有什么作用。

在进行典型相关分析的时候，需要了解典型变量的解释比例，从而定量测度典型变量所包含的原始信息量的大小，此时就需要典型变量的冗余分析。冗余度(Redundancy)分析结果，它列出各典型相关系数所能解释原变量变异的比例，可以用来辅助判断需要保留多少个典型相关系数。

3、典型变量的解释有什么具体方法？实际意义是什么？

（1）典型权重（标准化系数）（2）典型载荷（结构系数）（3）典型交叉载荷利用典型变量解释的技术,可以引出用收益方差—协方差矩阵引出的特征根作为风险的一种量度指标,并在此基础上,推导出了第一特征向量的分块结构分式,还可给出具有实际意义的解释。同时，相关思想及技术路线,可为以后对股市风险定量研究及开发金融工程产品打开新的研究视野。

第九章定性数据的建模分析

1.简述对数线性模型应用的原理。

对类别间的联系进行精确建模，通过假设检验的方法确定分类变量各类别之间究竟有无联系。对数线性模型的构造类似于方差分析模型，其作用也与方差分析类似。一般的对数线性模型的特色是对所有的变量不分因变量和自变量，一视同仁的分析。

在两因素方差分析中：

其中，Y ijk是A因素的i水平和B因素的j水平构成的处理的第k个观察，αi、βj分别表示A 因素和B因素的主效应，αiβi则为A与B的交互效应，εijk是随机误差，服从正态分布。

在方差分析模型中，将每个观察值y的变异看成是A因素的作用(主效应)、B因素的作用、A与B的交互作用及随机误差之和。类似地，对二维列联表，也可以将每个单元格中频数的变异分解为各因素的作用。将A因素的i水平和B因素的j水平对应的格子的频数记为f ij，显然f ij 是一个随机变量，它是随样本的变化而变化的，且在抽样前无法确切地预测它将取什么值。可以想象，f ij的变异是由A、B两个因素的作用及随机误差造成的。一般情况下，假设每个格子的观察频数服从多项(Multinomial)分布。

如果将单元格频数取自然对数，则假定各因素对单元格频数的影响服从下面的公式：

记㏑（常数）为μ，㏑（A的主效应）为αα，㏑（B的主效应）为βb，㏑（A与B的交互作用）为（αβ）αβ则上式变为：

这就是二维列联表的对数线性模型，该模型中包含了所有主效应和交互作用项，因此被称为饱和模型（Saturated Mode），若将某些无统计意义的交互作用项从饱和模型中去除，就称为不饱和模型或简约模型（Reduced Mode）。

2、Logistic回归模型在处理问卷调查数据中有何应用？

通常我们需要研究某一现象发生的概率p的大小时，直接处理数值p会存在困难，这时处理p的一个严格单调函数Q就会方便很多，将p换成Q，这一变换就称为Logit转换。当因变量是一个二元变量，只取0与1两个值时，因变量取1的概率p(y=1)就是要研究的对象。如果自变量的关系式是线性的、二次的或者多项式的，通过普通的最小二乘法就可以处理，然后从p与Q的反函数关系式中求出p与自变量的关系。Logit转换在数据处理上带来很多方便。精简了问题，可以保证数据的完整性。

第十章路径分析

1、路径分析和回归分析有什么异同之处？

回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。这种

方法没有寻找变量之间的因果关系，只需要计算相关系数。这种方法仅反映变量之间的线性关系，反映变量之间的关系是对称的，回归分析只有在正态假设下才是有效的。回归分析是一种比较简单的因果关系，各个自变量对因变量的作用并列存在，仅包含一个环节的因果结构。

路径分析是一种统计程序，通过分析变量之间假设的因果效应来测试研究人员提出的关于一套观察或者呈现变量之间因果关系的理论及方法。路径分析可以容纳多环节的因果结果，通过路径图把这些因果关系很清楚地表示出来，据此进行更深层次的分析。

2、路径系数的计算应注意什么问题？

残差项的路径系数由其他路径系数决定，并且该内生变量与其误差项的相关系数即为误差项的路径系数。另外，残差项的路径系数可由多元回归的决定系数计算出。还要注意样本数据表现出来的伪相关，特别是对于时间序列，不相关的单位根（unit root）变量之间会存在伪相关现象。

第十一章结构方程模型

1、简述结构方程模型与路径分析的联系与区别。

联系：路径分析是结构方程模型的一部分，完整的结构方程模型包含两部分：1、测量模型，研究因子和指标的关系，也就是一般我们说的验证性因子分析；2、因果模型，也就是路径分析，研究的是因子之间的关系。另外提一下，狭义上的路径分析指的是把显变量直接当做潜变量的因果模型。因此，结构方程模型和路径分析其实是概念与子概念的关系。他们所涉及的统计学原理自然是一样的，只不过如果是狭义上的路径分析，那么默认变量无测量误差，其计算的精确度及误差的控制是不如完整的结构方程模型的。

区别：（1） SEM可以先透过因素分析将可观测的变量集结成几个共同因素。反观路径分析，其外生变量之间必需相互独立，未经过因素分析处理。

（2） SEM的变量间可以有双向因果关系，但路径分析通常只可以有单向关系。

（3）SEM可以包含变量间的衡量误差，但是路径分析的外生变量需是定值。

（4） SEM可运用最大概似法(ML)来进行参数估计，但路径分析是以一般最小平方法(OLS)

来进行参数估计。

第十二章联合分析

1、简述联合分析的思想。

联合分析是在已知受测者对某一受测体集合整体评估结果的情形下，通过分解的方法去估计其偏好结构的一种分析方法。在联合分析中，受测体是由研究人员事先依照某种因子结构加以设计的。联合分析的目的在于将受测者的整体反应加以分解，从受测者对受测体的整体评估结果中估计每一受测体成分的效用。联合分析是多变量分析技术中的一种相依方法。

2、联合分析的设计应注意哪些问题？

设计主要联合分析的有以下几个方面：（1）选择一种联合分析的方法。联合分析的方法有传统联合分析、修正联合分析和基于选择的联合分析。在属性个数不同的时候，我们可以选择合适的分析方法。（2）设计受测体，选择并定义因子和水平。在定义因子和水平时应注意到，他们的测量应该是可被告知的和可实行的。可被告知的就是因子和水平容易通过实际评估来表达。比如很难描述一种香水的实际“香味”或者一种护手液的“感觉”。可实行的就是因子和水平必须可以在现实中实施，也就是说属性必须是不同的，代表可以精确实现的概念。（3）规定基本的模型形式。首先在合成原则中选择可加性模型或者交互作用模型。可加性模型简单地将每个属性的值（成分效用）加总，获得属性组合（产品或服务）的总值。交互作用模型的区别在于它允许某些水平的组合多于或者少于它们的和，因为因子间存在交互作用。然后选择成分效用的关系：线性、二次型和单独的成分效用。（4）数据收集过程。这里需要选择合适的展示受测体的方法，主要有兑换法、整体轮廓方法、两两比较法。在构建受测体的时候，如果因子数和水平数都比较大，需要考虑部分析因设计。

3、简述联合分析在市场研究中的应用。

联合分析是对人们购买决策的一种现实模拟。因为在实际的抉择过程中，由于价格等原因，人们要对产品的多个特征进行综合考虑，往往要在满足一些要求的前提下牺牲部分其他特性，是一种对特征的权衡与折衷(Trade-off)。通过联合分析，我们可以模拟出人们的抉择行为，可以预测不同类型的人群抉择的结果。我们也可以了解消费者对产品各特征的重视

程度，并利用这些信息开发出具有竞争力的产品。

第十四章多维标度法

1、简述多维标度法的基本思想。

用 r 维空间（r 待定）中的点分别表示各样品，使得各样品间距离的次序能完全反映原始输入的相似次序（两样品间的距离越短，则越相似）。通常，要通过两步来完成。首先构造一个f 维坐标空间，并用该空间中的点分别表示各样品，此时点间的距离未必和原始输入次序相同，通常把这一步称为构造初步图形结构。其次是逐步修改初步图形结构，以得到一个新图形结构，使得在新结构中，各样品的点间距离次序和原始输入次序尽量一致。

2、简述实现多维标度法的步骤。

多维标度法的实现主要有以下几个步骤：（1）确定研究的目的；（2）选择需要进行比较分析的样品和原始变量（或者距离矩阵）；（3）选择适当的求解方法，分析样品间的距离矩阵；（4）选择适当的维数，得到距离阵的古典解将各个样品直观地表现出来并对结果进行解释；（5）检验模型的拟合情况。