当前位置：文档库 › SPSS知识学习记录文本

SPSS知识学习记录文本

Spss 学习笔记(1)

在spss中，数据文件的管理功能基本上都集中在data和transform菜单上，其中transform主要实现变量级别的数据管理，如计算新变量、变量取值重新编码等，data的功能主要是实现文件级别的数据管理，如变量排序，文件合并、拆分等。

Transform菜单说明：

计算新变量：compute

变量转换：recode,visual bander,count,rank cases,automatic recode五个过程，可以看成是compute再某一方面的强化和打包。

专用过程：建立时间序列、缺失值代替和设定随机种子三个过程，前两个专用于时间序列模型。设定随机种子的功能主要影响伪随机函数的使用。

数据分析中，将连续变量转换为等级变量，或将分类变量不同的变量等级进行合并是常见的工作。而recode可以很好的完成这个任务。

Recode提供了精确的分组功能，但是如果希望进行的分组是有规律的，比如等距分组或者等样本量分组，使用recode过程进行操作就显得非常麻烦，而且可视化程度不高，可以使用visual bander过程进行可视化分段。

在数据分析中，将字符变量转换为数值变量是非常实用的一个功能，除了使用recode过程手工设定转换规则外，还可以使用automatic recode过程自动按照原变量的大小或者字母排序生成新变量，而变量值就是原值的大小次序。

Automatic recode的排序功能和rank cases类似，不同在于，automatic recode可以用于字符型变量。

所谓变量的秩序，就是对记录按照某个变量值得大小来排序。Rank cases就是用来排序的专用过程。

Count：该过程用来表示某个变量的取值中是否出现某个值，可以使单个数值，也可以指定区间，并且可以仅给出条件，而不必对整个数据集进行操作。该过程可以直接使用recode过程来实现。

Random number seed：默认情况下，随机种子随时间不停改变，这样计算出的随机数值无法重复，可以用该过程人为指定一个种子，以后所有的伪随机函数在计算时都会以该种子开始计算，即结果可以重现。

Data菜单说明：

简单命令：包括插入变量、插入记录和到达某条记录，这些功能都可以用鼠标在数据界面上直接完成，很少会使用菜单调用。

常用的简单过程：包括排序、拆分文件、选择记录和加权记录。

变量与数据文件属性向导：用于定义数据字典，或者将预定义的数据字典直接引入当前数据文件，对于大型或者连续性的数据分析项目而言，这是一个非常有用的功能。

数据重构向导：用于进行数据转制，或者对重复测量数据进行长型、宽型记录格式间的转换。

文件合并过程：用于生成实施联合分析所需的设计。

其他过程：包括定义日期变量过程、数据汇总过程和查找重复记录向导。

Sort cases：记录排序。

Split file：记录拆分。

Select cases：不需要分析全部的数据，而是按照要求分析其中的一部分。

Weight cases：记录加权。默认情况下，每行就是一条记录，但是有时非常麻烦。这时候可以使用频数格式录入数据，即相同取值的观测只录入一次，另加一个频数变量用于记录该数据出现了多少次。

Aggregate数据汇总：分类汇总就是按照指定的分类变量对观测值进行分组。分类汇总的分类变量可以指定多个，称为多重分类汇总。

Define variable properties：变量属性定义向导，用于对数据集中已存在的变量进一步定义其属性。

Copy Data Properties：用于将定义好的数据字典直接应用到当前文件中。Identifying Duplicate cases：查找个别变量值重复，或者所有数值完全重复的记录。Restructure：根据用户的要求改变数据的排列格式。

Transpose：用于对数据进行行列转置。主要用于编成，进行矩阵运算时的矩阵转置操作。

数据文件的合并有两种：纵向连接和横向合并。纵向连接是几个数据集中的数据纵向相加，组成一个新的数据集，新数据集中的记录是原来几个数据集中记录数的总和。横向合并是按照记录的次序，或者某个关键变量的数值，将不同数据集中的不同变量合并为一个数据集，新数据集中的变量数十所有原数据集中不重名变量的总和。

Spss 学习笔记（2)

相关分析和回归分析：

都可以用来考查两个连续变量间的关系，但反映的是不同的侧面。

尽管在提及相关分析的时候，往往考查的都是两个连续变量的相关关系，但实际上对任何类型的变量，都可以使用相应的指标进行相关关系得考查。

测量相关程度的相关系数很多，各种参数的计算方法及特点各异。

连续变量的相关指标：

此时一般用积差相关系数，又称pearson相关系数来表示其相关性的大小，积差相关系数只适用于两变量呈线性相关时。其数值介于-1~1之间，当两变量相关性达到最大，散点呈一条直线时取值为-1或1，正负号表明了相关的方向，如果两变量完全无关，则取值为零。

作为参数方法，积差相关分析有一定的适用条件，当数据不能满足这些条件时，分析者可以考虑使用Spearman等级相关系数来解决问题。

有序变量的相关指标：

所谓有序的等级资料的相关性/一致性高，就是指行变量等级高的列变量等级也高，反之亦然。如果行变量等级高而列变量等级低，则被称为不一致。

简单相关分析：

当两个连续变量在散点图上的散点呈现直线趋势时，就可以认为二者存在直线相关趋势，也称为简单相关趋势。Pearson相关系数，也称乘积相关系数，就是人们定量描述线性相关程度好坏的一个常用指标。

积差相关系数的适用条件：

在相关分析中首先要考虑的问题就是两个变量是否可能存在相关关系，如果得到了肯定的结论，那才有必要进行下一步定量的分析。另外还必须注意以下几个问题：

1、积差相关系数适用于线性相关的情形，对于曲线相关等更为复杂的情形，积差相关系数的大小并不能代表相关性的强弱。

2、样本中存在的极端值对积差相关系数的影响极大，因此要慎重考虑和处理，必要时可以对其进行剔出，或者加以变量变换，以避免因为一两个数值导致出现错误的结论。

3、积差相关系数要求相应得变量呈双变量正态分布，注意双变量正态分布并非简单的要求x变量和y变量各自服从正态分布，而是要求服从一个联合的双变量正态分布。

以上几条要求中，前两者的要求最严，第三条比较宽松，违反时系数的结果也是比较稳健的。

Spearman相关系数又称为秩相关系数，使利用两变量的秩次大小作线性相关分析，对原始变量的分布不做要求，属于非参数统计方法。因此它的适用范围比Pearson相关系数要广的多。即使原始数据是等级资料也可以计算Spearman相关系数。对于服从Pearson 相关系数的数据也可以计算Spearman相关系数，但统计效能比Pearson相关系数要低一些（不容易检测出两者事实上存在的相关关系）。

Kendall’s tau-b等级相关系数是用于反映分类变量相关性的指标，适用于两个变量均为有序分类的情况。

简单相关和偏相关有一个共同点，就是对所分析的数据背景应当有一定程度的了解。在这种情况下进一步进行积差相关系数的计算，以在定量的水平上对这种关联予以确认。同理，计算偏相关系数也是同样的情况，只是又在计算积差相关系数的基础上考虑了其他因素的影响。但有的时候会遇到一种情况，在分析前对数据所代表的专业背景知识了解的尚不充分，本身就属于探索性的研究，这时往往需要先对各个指标或者案例的差异性、相似

程度进行考察，以先对数据有一个初步的了解，然后再根据结果考虑如何进行深入的分析。

Distinces过程就可以用于计算记录（或变量）间的距离（或相似程度），根据变量的不同类型，可以有许多距离、相似程度测量指标供用户选择。但由于本模块只是一个预分析的过程，因此距离分析并不会给出常用的p值，而只给出各变量/记录之间的距离大小，以供用户自行进行判断相似性。

Distinces过程可以计算距离测量指标或者相似性测量指标，这可以在主对话框中加以切换。

距离测量指标，根据不同的数据类型，距离测量指标也有所不同。分为连续性变量、频数表资料和二分类变量三种。

相似性测量指标时间上就是前述的那些相关分析指标体系，只是更为详细一些，主要分为剂量资料和二分类变量两种。

相关和回归描述的是两变量间联系的不同侧面，简单回归分析就是寻找因变量数值随自然量变化而变化的直线趋势，并在散点图上找到这样一条直线，相应得方程也就被称为直线回归方程。

通过回归方程解释两个变量之间的关系会显得更为精确。除了描述两个变量之间的关系外，回归方程还可以进行预测和控制。

无序分类变量的统计推断：x2检验

主要用于检验某无序分类变量各水平在两组或多组间的分布是否一致。还可以用于检验一个分类变量各水平出现的概率是否等于指定概率；一个连续变量的分布是否符合某种理论分布等。其主要用途：

1、检验某个连续变量的分布是否与某种理论分布相一致。

2、检验某个分类变量各类的出现概率是否等于制定概率。

3、检验某两个分类变量是否相互独立。

4、检验控制某种或某几种分类因素的作用以后，另两个分类变量是否相互独立。

5、检验某两种方法的结果是否一致。

主成分分析只是一种中间手段，其背景是研究中经常会遇到多指标的问题，这些指标间往往存在一定的相关，直接纳入分析不仅复杂，变量间难以取舍，而且可能因多元共线性而无法得出正确结论。主成分分析的目的就是通过线性变换，将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标，便于进一步分析。

Spss 学习笔记（3)

有关因子分析和回归分析

因子分析

是一种多变量化简技术。目的是分解原始变量，从中归纳出潜在的“类别”，相关性较强的指标归为一类，不同类间变量的相关性较低。每一类变量代表了一个“共同因子”，即一种内在结构，因子分析就是要寻找该结构。

适用条件

样本量

样本量与变量数的比例应在5：1以上

总样本量不得少于100，而且原则上越大越好

各变量间必须有相关性

KMO统计量：0.9最佳，0.7尚可，0.6很差，0.5以下放弃

Bartlett’s球形检验

标准分析步骤

判断是否需要进行因子分析，数据是否符合要求

进行分析，按一定标准确定提取的因子数目

如果进行的是主成分分析，则将主成分存为新变量用于继续分析，步骤到此结束

如果进行的是因子分析，则考察因子的可解释性，并在必要时进行因子旋转，以寻求最佳解释方式

如有必要，可计算出因子得分等中间指标供进一步分析使用

公因子数量的确定

主成分的累积贡献率：80~85％以上

特征根：大于1

综合判断

因子分析时更重要的是因子的可解释性

回归分析的基本步骤

(1)确定自变量和因变量

(2)从样本数据出发确定变量之间的数学关系式,并对回归方程的各个参数进行估计.

(3)对回归方程进行各种统计检验.

(4)利用回归方程进行预测.

通径分析实际上是回归分析的扩展，同时又是结构方程模型的一种特例情况。

对于应用来说，更重要的问题是，各种方法都是在一定具体条件下应用的，因此如何选择恰当的方法便成为正确应用这些方法的前提。

Spss 学习笔记（4)

对于12种社会统计方法，可以用最简练的语言将这些分析方法加以概括：

1、多元回归应用于单方程模型，其因变量必须为测量性变量，其自变量可以为测量型变量或虚拟型变量。研究目的是通过自变量的变化来预测因变量的变化，多元回归用最小二乘法求解回归系数。

2、如果变量之间有多层因果关系，就可以由多个内在联系得多元回归方程组成一套通径分析连立方程组，每个方程都通过多元回归求解系数，然后应用通径分析分解变量之间的直接作用和间接作用。

3、如果一套联立方程组中含有潜在变量（即不可直接观测的变量），便不能再用最小二乘法求解，这是可以应用结构方程模型，它主要采用最大似然估计求解。

4、在研究有两组各包含多个变量的变量组之间的关系时，可以采用典型相关分析。典型相关分析的所有变量必须为测量型变量或虚拟变量。

5、多元方差分析研究两个以上的类别中在多项测量型数据指标上是否存在显著差异。

6、当因变量为二分类变量且自变量为测量型变量和虚拟变量时，不能采用多元回归，而应该采用logistics回归。

7、logit模型是对数线形模型的一种特例。它与logistic回归的不同在于，它的自变量全部都是分类变量。

8、鉴别分析主要应用于在已知一些案例的各种条件值及其结果类型的条件下，形成鉴别方程，并应用于其他条件值已知但结果类型未知的案例，预测他们的结果类型。这种方法可以视为因变量为多分类结果，自变量为测量型或虚拟变量的因果预测。它的主要应用目的是进行鉴别分类。

9、在使用纵贯数据进行因果分析时，事件史分析是可以应用的分析技术。其中，离散时间模型实际上就是用logistic回归求解。而cox比例风险模型是连续变量模型，他分为两种，一种包括动态变量（即随时间变化的自变量），另一种不包括动态变量。事件史分析的数据处理是一项比较复杂的工作。

10、至于因子分析、聚类分析和对应分析不是因果模型，他们分别用于分析变量、案例或类型（变量值）之间的结构不安席。将他们成为相依模型。

因子分析经常服务于浓缩多个测量型变量，使之转换为较少数量的新变量（称为因子）后，仍然携带原变量的绝大部分信息。

11、聚类分析用于分析各案例在多个测量性变量值上的近似型距离，将其按近似性原则进行案例排列。

12、对应分析可以用来对不用非测量型变量的类别之间进行分析，以作图形式显示不同变量类别之间的近似程度。

Spss 学习笔记（5)

统计方法的分类框架：

首先按照观测数据的来源分类，

第一类是横贯数据，横贯数据指在同一时间、不同案例的观测数据。

第二类是纵贯数据，指对同样的案例在不同时间上的多次观测的数据。

从方法论上，对于研究因果关系，纵贯数据具有更高的有效性。其中事件史分析就是这一类。

第二种划分是分析模型的属性。

一类是因果模型，一类是相依模型。因果模型即在变量中明确设置因变量和自变量的模型，目的在于描述自变量的变化如何影响因变量的变化。

第三种划分时变量的侧度等级。分为非测量型变量和测量型变量两种。

该框架对于因果模型分类时还涉及到模型中因变量的数量，有三种情况：一种是单变量模型，一种是多因变量模型，一种是多层因果模型。其中单因变量模型和多因变量模型都是单一方程模型，而多层因果模型实际上是结构模型，指由联立方程组构成的模型，即某个变量在有的方程中是因变量，而在其他方程中是自变量。

科学研究不仅表现为一种有明确目的的探索，而且是通过极为细致、严谨的特殊方式来进行的，因此，提高方法论素养是减少错误、少走弯路的必要训练。科学的研究工作更要讲究科学的方法论。

有的时候，由于不具备时间、费用、人力等投入条件，不可能实施一个专门设计的观察，我们便不得不借助可以得到的其他统计数据。这种数据称为二手资料，应用二手资料进行的分析成为二手分析。尽管这些数据中也可能包含我们需要的信息，但是由于当初取得这些数据时仅服务于其他目的，所以数据的变量设置、测量水平不一定能够完全达到本次研究的要求，而研究人员又只能在这种条件下开展分析。这时研究人员必须明确，数据资料方面的限制对分析结果构成了哪些可能的损害，是表现在分析结果的有效性上，还是表现在分析结果的可靠性上。

Spss 学习笔记（6)

统计研究中的常见谬误：

1、混淆统计联系与因果关系：

因果关系是事物之间的一种本质联系，而统计联系只是观测数据中所反映的数量联系。并且检查和排除现象之间的虚假相关，也是科学研究的任务之一。

时间先后顺序是判断因果关系得另一个准则，因此观察的时间维度是研究设计中的另一个重要内容。

方法论的理论告诉我们，横贯研究使用的是同一个时点的观察资料，比较适合于对差异的研究，而用于因果分析时就存在很大的局限性。但是，来自于追踪调查和回顾性调查的纵贯观察资料能够提供时间变量，于是在分析中可以包含时间顺序的控制，则更有效于因果联系得分析。

即使所采用的统计模型是因果模型，并且模型中包括了时间变量，统计分析所能揭示的仍然只是统计联系，只不过统计模型多加了几个控制条件而已。这种被实际数据所验证的统计联系，仍然不能等同于因果关系。这是因为，不论多么严密和复杂，统计模型只是一种假设模型，代表研究人员对于实际因果关系数量特征的一种设想。最为模型必然有所抽象，简化，绝不可能再现实际中因果关系丰富多彩的各种规定性。并且，统计模型是进行假说检验的一种手段，其检验的本质是证伪，而不是证实。

2、事后解释：

这一问题的产生不是统计分析的错误，而是对于正确统计结果的错误解释问题。如果事实上统计分析开始时并没有理论假设，那么这一研究属于探测性或描述性研究。在得到统计

结果的基础上，可以形成新的理论假设。然而，如果反过来再将同一统计分析作为假设检验看待，就是犯了事后解释错误。

3、生态学谬误：

即根据集合单位的分析结果作关于个体的断言。这一问题的要害时混淆了不同层次主体的行为模式。在研究设计中，分析单位是一个很重要的概念。从宏观到微观可能存在不同层次的分析单位。

因为宏观利益并不完全与微观利益相一致。但是如果将宏观汇总资料中所发现的变量关系直接用来解释微观主体的行为，便有可能产生生态学谬误。

4、还原论谬误

是与生态学谬误相对的一种方法论谬误。

还原论在统计研究上的具体表现形式为，根据较低层次研究单位的分析结论推断较高层次单位的运行规律。这种引申同样需要先行假设宏观行为模式与微观行为模式相同才能成立，所以必然经历与生态学谬误类似的风险。

生态学谬误和还原论谬误都是在研究当中由于逻辑推理不够严密，因而犯了过分简单化的错误。

5、混淆统计检验显著与实际意义显著

对于整个模型或某些模型参数的统计检验都是与采用抽样数据相联系得。

统计检验是否显著受到三个方面的影响：

一是实际差异幅度或作用强度的影响；

二是所要求的把握或称置信度的大小；

三是抽样样本规模的大小。

统计检验的结果是有条件的结果，三个方面中只要有一个方面发生变化，结果就发生变化。所以，统计检验显著只是说明在三个方面的特定条件下，是否能够肯定差异或作用存在。如果可以肯定，就说其统计性显著，否则就说其统计性不显著。

Spss 学习笔记（7)

乱七八糟的摘录了好多，都贴这里吧，时间长了，都不太记得了。

这本书里提到的变量的划分是：名义测度（定名测度）、序次测度、间距测度、比率测度。

多元回归将所研究的变量分为一个被影响的变量（称为因变量）和一组影响变量（称为自变量）。要求因变量必须是艰巨测度以上等级的变量（连续变量），自变量可以是间距测度变量、也可以是名义测度等级的变量（也称为分类变量）。

因变量和自变量的确定是建立回归模型的主要任务。在回归模型中，研究人员以规定因变量和自变量的方式确定研究变量之间的因果关系，加以量化描述，并根据实测数据求解这一模型的各个参数，评价回归模型是否能很好的拟合实测数据，检验各自变量的作用事否符合预先的构想。如果模型可以很好的拟合实测数据，回归模型还可以用于预测。

一个自变量的回归称为一元回归或简单回归。

确定系数R2：

我们想知道，一个解释性或者预测性的方程效率如何，也就是说，所得到的回归方程在多大程度上解释了因变量的变化，或者说方程对观察值得拟合程度如何。

R2称为方程确定系数，它取值在[0，1]之间。R2越接近1，表明方程中的变量对y的解释能力越强。通常将R2乘以100%表示回归方程解释y变化的百分比。

当采用曲线拟合数据时，R2可以作为选择不同模型的标准。当模型中的变量是线性关系时，R2是方程拟合优度的度量。R2越大，说明回归方程拟合数据越好，或者说x与y线性关系越强。即回归方程中的自变量对y的解释能力越强。当R2等于1时，所有的观察值都落在拟合平面上。R2越小。说明x与y的线性关系越弱，它们之间的独立性越强，或者说对x的了解无助于对y的预测。当R2接近于0时，说明x与几乎不存在线性关系，但可能存在很强的非线性关系。

但是R2高并不表示模型选择食正确的，在建立回归方程之前，通常应该先观察散点图以确定合适的模型，这时的R2才是有意义的。

随着自变量个数的增加，余差平方和逐渐减少，R2随之增大，尽管有的自变量与y线性关系不显著，将其引入方程后，也会使R2增加。所以，R2是一个受自变量个数与样本规模之比影响的系数，一般的常规是1：10以上为好。当这个比值小于1：5的时候，R2倾向于高估实际的拟合优度。为了避免这种情形，常用调整地R2代替R2。

对于R2开平方，就得到多元相关系数R：

R又被称为复相关系数，它的值域为[0，1]，R值越接近1，表明y与所有x之间的线性关系越密切。当R=1时，所有的观察值都落在拟合平面上；当R等于0时，这时y的线性变化与x的变化无关。

偏确定系数：

方程的确定系数R2表示方程中所有变量解释y的变化占y总变化的比例，但是有时我们还想知道方程中的每一个变量对减少余差平方和的边际贡献。这就是偏确定系数，它的值域也在[0，1]中变化。

偏确定系数可以用于判断自变量的重要性。如果它的分母改为总余差平方和，并将分子分母分别除以相应得自由度，即可以用于偏F检验，在逐步回归和向后回归中，它的数值用以确定保留在方程中的变量。

注意偏确定系数是在原有方程的基础上增加一个新的变量时计算出来的。根据同一原理，还可以计算偏多元确定系数。即在原有方程的基础上增加多个变量时所计算出来的，表示的是新增的若干变量对y的边界贡献。

它在分析一个不可分割或研究人员不愿加以分裂的变量组时是非常有用的。比如，在遇到表示多个不同类别的虚拟变量时，虽然它们是多个，但其实代表的是一个多分类的名义测度变量，因此单个计算偏确定系数实际上是意义不大的。

偏相关系数：

对于偏确定系数开方，即得到偏相关系数的绝对值。这里所说的偏相关是控制其它变量条件下两个变量之间的相关，因此这一偏相关是有正负之分的，其符号与对应偏回归系数的符号一致。通常称控制变量的个数为阶。由于简单相关没有控制变量，因此也称为零阶相关。

偏相关系数可以检验在控制了其它变量之后，某一个变量x是否与y确有相关关系及关系得强弱，因此是研究分析中十分重要的内容。

回归方程的检验和回归系数的推断统计

一般情况下，我们是通过抽样样本观测数据来推断总体的情况。因此，样本中计算的各统计量都服从一定的抽样误差。检验样本回归方程各统计量，就是为了根据样本统计量来判断总体各参数的情况。

当回归方程检验显著的时候，就可以认为回归方程中至少有一个回归系数是显著的，但是并不一定所有的回归系数都是显著的，我们希望在方程中保留最重要的变量，删除不显著的变量，为此必须对每个变量的回归系数进行检验。

在多元回归分析中，一个经常遇到的问题是如何判别在所考察的因素中，哪些是影响的主要因素，哪些是次要因素。

直接比较回归系数是不行的，因为它们的值分别与各变量的单位有关系。在测量单位不一致的时候，就不存在可比性。如果将自变量和因变量进行标准化，得到的标准化的回归方程，得到的回归系数称为标准化回归系数。

当自变量之间高度相关时，回归方程中的自变量会相互削弱各自对y的边界影响，使本身的回归系数的数值下降而其标准误差扩大，于是就会出现回归方程整体显著，但是各个自变量都不显著的现象，称为多重共线性。这时候，方程的回归系数是不可靠的。

当方程中的自变量高度线性相关，出现严重的多重共线性时，会对回归分析产生如下影响：

1、回归系数的置信区间变宽，系数变得不稳定，即不同样本计算得到的回归系数将会差别很大，从而将由一个样本得到的回归系数推广到总体时，是不可靠的。

2、回归系数不能反映自变量的独立作用，因为当一个自变量变化时，会反映其它相关变量的变化，从而该变量的回归系数不能很好代表其它变量不变时，该变量的变化对y的影响。

3、使新增变量产生的回归平方和的增量小于方程中未含有与其相关变量时产生的增量，从而使变量的偏确定系数变小，或者变量的边界作用下降。

4、。。。。回归结果不可靠。

需要指出的是，多重共线性指的是自变量之间的线性相关，当自变量之间非线性相关时，不一定产生严重的多重共线性问题。

最优方程的选择：

为了使回归方程中的自变量都变得显著，同时这个方程的R2又尽可能的大，就会想到找一个最优的回归方程，这个方程包含了尽可能夺得对y有较大影响的变量，同时这些变量又都是显著的。一个直观的办法，就是算出所有不同自变量组合的回归方程，从中挑选最优者。

尽管频率表、条形图和直方图对数据的概括和描述很有帮助，但是通过各种综合测量，进一步描述数据也非常重要。

所谓综合测量，首先要决定数据的测量水平，测量水平分为四类：标称（定类）、次序（定序）、区间（定距）、比例（定比）。

给数据确定测量水平之后，接着要选择合适的统计量。综合统计量有集中趋势的统计量、离散趋势的统计量和形状测量的统计量三种。

集中趋势的统计量用于内部差异较小的数据，它的统计量主要有均值、中位数、众数三种。

众数：最常发生的频次。通常只用于标称数据的测量中，不用于次序数据的测量。

中位数：分为奇数的中位数和偶数的中位数。中位数只用于定序变量的测量中。

奇数的中位数：观察值排序后其一半落在中位数之上，观察值的另一半落在中位数之下。

偶数的中位数：等于两个中心值之和除以2所得的商。

均值：均值是所有观察值的平均值。只用于区间以上（定距以上）数据的测量，不用于标称数据和次序数据的测量。

均值受远离中心的那些数据的影响很大，而中位数则不然。

在对分变量（0，1编码）中，均值对这类变量有特殊的解释。

在对称分布中，采用集中趋势测量时，变量的均值、众数、中位数三者往往很接近。

离散趋势的测量：

当甲乙两种分布可能相同时，应该采用集中趋势的统计量，当两种数据分布有明显的差别时，应该采用离散趋势的统计量进行测量。

统计量分为全距和方差。

当两端点的数据相同时（没有差异），方差S2=0；当两端点的数据差异越大，方差S2也越大。

形状测量的统计量：

形状测量可以用来检测一组数据分布是否呈现对称分布。当一组数据为对称分布时，绝大多数观测值都将集中于图形的中部；当一组数据为非对称分布时，则有更多的观测值偏向分布的一侧，而形成偏态分布。

对称分布的种类：

钟形分布：这种分布，越远离中心点，观测值出现的频率就越少。

正态分布：在自然界和现实生活中，大多数现象都呈现着正态分布。正态分布是统计学中最总要的分布，也是描述各种样本分布的基本参考点。当把图形沿中间线折叠起来，两端是重合的：均值、中位数、众数三者将分别对应得重叠在一起。

非对称分布：

偏态分布：如果曲线的尾部朝向较大的值时，称为正偏态或右偏态；如果曲线的尾部朝向较小的值时，称为负偏态或左偏态。

峰态分布：以标准偏态曲线为基准，当观测值向中心点的聚集程度较大时，称为峰态分布。

尖峰态：比峰态分布更陡峭、更聚集。与正态分布相比，更趋向于有更多的观测值落在两端。

低峰值：它的峰态分布的聚集程度，要比正态分布平坦和分散。

从一张直方图可看到某种峭度和偏斜度。但要得到景区值，需要通过spss。

标准分（z值）的均值为0、标准偏差为1。Z值指出一个观测值有多少标准偏差落在了均值之上或均值之下。

Levene检验：

检验两个样本的数据是否具有相等方差时，虽然可以采用多种检测方法，但是多数都是基于数据必须服从正态分布这一假设，否则就失去数据检验的意义。Levene检验则较少依赖于正态性的假设，因而，它是等方差性检验的特别有效的方法。

Spread-level（幅度-水平）检验：

幅度-水平图，是指框图的高度与各变量的水平或均值之间的关系。

幂转换：

将每个数据做特定乘方运算，通常被用于稳定方差。当幂指数为零时，则是对数据求自然对数。

spss基础知识

1.定义变量（1）Name：定义变量名变量名必须以字母或字符@开头，其它字符可以是任何字母、数字或_、@、#、$等符号。变量名总长度不能超过8 个字符（即4 个汉字）。（2）Type：定义变量类型 SPSS 的主要变量类型有：Numeric（标准数值型）、Comma（带逗号的数值型）、Dot （圆点作小数点的数值型）、Scientific Notation（科学记数法）、Date（日期型）、Dollar （带美元符号的数值型）、Custom Currency（自定义型）、String（字符型）。单击Type 相应单元中的按钮，选择合适的变量类型并单击OK。（3）Width：变量长度设置数值变量的长度，当变量为日期型时无效。（4）Decimal：变量小数点位数设置数值变量的小数点位数，当变量为日期型时无效。（5）Label：变量标签变量标签是对变量名的进一步描述，变量只能由不超过8 个字符组成，8 个字符经常不足以表示变量的含义。而变量标签可长达120 个字符，变量标签对大小写敏感，显示时与输入值完全一样，需要时可用变量标签对变量名的含义加以解释。（6）Value：变量值标签值标签是对变量的每一个可能取值的进一步描述。（7）Missing：缺失值的定义方式 SPSS 有两类缺失值：系统缺失值和用户缺失值。在数据长方形中任何空的数字单元都被认为系统缺失值，用点号（?）表示。SPSS 可以指定那些由于特殊原因造成的信息缺失值，然后将它们标为用户缺失值，统计过程识别这种标识，带有缺失值的观测被特殊处理。默认值为None。单击Value 相应单元中的按钮，可改变缺失值定义方式。（8）Column：变量的显示宽度输入变量的显示宽度，默认为8。（9）Align：变量显示的对齐方式选择变量值显示时的对齐方式：Left（左对齐）、Right（右对齐）、Center（居中对齐）。（10）Scale：变量的测量尺度根据变量测量精度不同，可把变量由低到高分为四种尺度：定类变量、定序变量、定距变量和定比变量。 1）定类变量定类变量由称为名义（nominal）变量。这是一种测量精度最低、最粗略的基于“质” 因素的变量，它的取值只代表观测对象的不同类别，例如“性别”变量、“职业”变量等都是定类变量。定类变量的取值称为定类数据或名义数据。定类数据的共同特点是用不多的名称来加以表达，并由被研究变量每一组出现的次数及其总计数所组成，这种数据是枚举性的，即由计数一一而得。唯一适合于定类数据的数学关系是“等价关系”。因而，在定类数据中，同一组内各单位是等价的，同时若更换各不同组的符号并不会改变数据原有的基本信息。因此，最常用来综合定类数据的统计量是频数、比率或百分比等。 2）定序变量定序变量由称为有序（ordinal）变量、顺序变量，它的取值大小能够表示观测对象的某种顺序关系（等级、方位或大小等），也是基于“质”因素的变量。例如：“最高

spss基本知识点

spss基本知识点【篇一：spss基本知识点】结论不同麻醉诱导方法存在组间差别；患者的收缩压在不同的诱导方法下不同诱导时相变化的趋势不同，其中 a 组不同诱导时相收缩压较为稳定。第八章非参数检验（nonparametrictests 菜单）参数检验：?? 通过样本的参数来检验总体参数的方法是参数检验。如：通过样本的均值、方差来检验总体的数学期望与总体方差提出的假设是否为真.?? 参数检验对总体的分布有一定的要求，比如正态性和方差齐性非参数检验：?? 对总体分布情况未知时，无法用参数检验方法?? 非参数检验通过样本的分布对总体的分布进行检验非参数检验所要处理的问题：?? 两个总体分布未知，它们是否相同（用两组样本来检验）?? （由一组样本）猜出总体的分布（假设），然后用另一组样本去检验它是否正确注：两种分布是否相同，一般包含了参数（均值、方差等）是否相同的问题。如果两个总体的分布函数形式相同，而参数不同，也被视为概率分布不同 nonparametrictest 菜单(1) nonparametrictest 菜单(2) 卡方检验 chi‐square?? 适用于拟合优度检验，即检验单变量的分布与理论分布是否一致?? 实例 1：贫困调查.sav 中身体状况变量的数据分布是否符合以往的经验：?? 完全不能自理 5%?? 基本不能自理10%?? 能自理无劳动能力 20%?? 部分丧失劳动能力 25%?? 身体健康 40% ?? 1.weightcasesby：death?? 2.analyze‐nonparametrictest‐chisquare 二项分布检验 binomial ?? 二项分布的变量将总体分为两类（如医学中的生与死），二项分布的检验是通过样本中这两类的频率来检验总体中这两类的概率是否为给定的值 ?? binomial 过程可检验二项分类变量是个来自概率为 p 的二项分布例 1：一般来说，新生儿染色体异常率为1%，某医院观察了 400 名新生儿，只发现一例异常，请问该地新生儿异常率是否低于一般水平？数据文件见 6.2sav 1.weight cases by：num 2.analyze－nonparametric test－binomial 例 2：某地某一时期内出生 40 名婴儿，其中女性 12 名（定 sex＝0），男性 28名（定 sex＝1）。问这个地方出生婴儿的性别比例与通常的男女性比例（总体概率约为 0.5）是否不同？ ?? 按出生顺序输入数据， ?? 数据文件见 6.3.sav 1- sample k-s 过程 ?? 对连续性资料的分布情况加以考察。这是一种拟合优度性检验，研究的是样本观

spss基础知识

1. 定义变量（1）Name定义变量名变量名必须以字母或字符 @开头，其它字符可以是任何字母、数字或_、@、 #、$等符号。变量名总长度不能超过 8 个字符（即 4 个汉字）。（2）Type:定义变量类型 SPSS 的主要变量类型有： Numeric （标准数值型）、 Comm（a 带逗号的数值型）、 Dot （圆点作小数点的数值型）、Scientific Notation （科学记数法）、Date （日期型）、Dollar （带美元符号的数值型）、 Custom Currency （自定义型）、 String （字符型）。单击 Type 相应单元中的按钮，选择合适的变量类型并单击OK。（3）Width :变量长度设置数值变量的长度，当变量为日期型时无效。（ 4） Decimal :变量小数点位数设置数值变量的小数点位数，当变量为日期型时无效。（ 5） Label :变量标签变量标签是对变量名的进一步描述，变量只能由不超过 8 个字符组成， 8 个字符经常不足以表示变量的含义。而变量标签可长达 120 个字符，变量标签对大小写敏感，显示时与输入值完全一样，需要时可用变量标签对变量名的含义加以解释。（ 6） Value :变量值标签值标签是对变量的每一个可能取值的进一步描述。（7）Missing :缺失值的定义方式 SPSS 有两类缺失值:系统缺失值和用户缺失值。在数据长方形中任何空的数字单元都被认为系统缺失值，用点号（? ）表示。 SPSS 可以指定那些由于特殊原因造成的信息缺失值，然后将它们标为用户缺失值，统计过程识别这种标识，带有缺失值的观测被特殊处理。默认值为 None。单击Value相应单元中的按钮，可改变缺失值定义方式。（8）Column：变量的显示宽度输入变量的显示宽度，默认为 8。（9）Align ：变量显示的对齐方式选择变量值显示时的对齐方式： Left （左对齐）、 Right （右对齐）、 Center （居中对齐）。（10）Scale ：变量的测量尺度根据变量测量精度不同，可把变量由低到高分为四种尺度：定类变量、定序变量、定距变量和定比变量。 1 ）定类变量定类变量由称为名义（ nominal ）变量。这是一种测量精度最低、最粗略的基于“质”因素的变量，它的取值只代表观测对象的不同类别，例如“性别”变量、“职业”变量等都是定类变量。定类变量的取值称为定类数据或名义数据。定类数据的共同特点是用不多的名称来加以表达，并由被研究变量每一组出现的次数及其总计数所组成，这种数据是枚举性的，即由计数一一而得。唯一适合于定类数据的数学关系是“等价关系”。因而，在定类数据中，同一组内各单位是等价的，同时若更换各不同组的符号并不会改变数据原有的基本信息。因此，最常用来综合定类数据的统计量是频数、比率或百分比等。 2）定序变量定序变量由称为有序（ ordinal ）变量、顺序变量，它的取值大小能够表示观测对象的某种顺序关系（等级、方位或大小等），也是基于“质”因素的变量。例如：“最高学历”变量的取值是： 1－小学及以下、 2－初中、 3－高中、中专、技校、 4－大学专科、 5－大学本科、 6－研究生以上。由小到大的取值能够代表学历由低到高。定序变量的取值称为定序数据或有序数据。适合于定序数据的数学关系是“大于（>）”和“小于（ <）关系。在定序数据中，同一组内各单位是等价的，相邻组之间的单位是不等价的，它们存在“大于”或“小于”的关系。而且进行保序变换（或称单调变换），不改变数据原有的基本信息即等级顺序。最适合用于综合定序数据取值的集中趋势的统计量是中位数。 3）定距变量

SPSS基本操作傻瓜教程

目录一、SPSS界面介绍 (2) 1、如何打开文件 (2) 2、如何在SPSS中打开excel表 (3) 3、数据视图界面 (3) 4、变量视图界面 (4) 二、如何用SPSS进行频数分析 (11) 三、如何用SPSS进行多变量分析 (15) 四、如何对多选题进行数据分析 (18) 1、对多选题进行变量集定义 (18) 2、对多选题进行频数分析 (21) 3、对多选题进行多变量交互分析 (24) 五、如何就SPSS得出的表在excel中作图 (27)

一、SPSS界面介绍提前说明：第一，我这里用的是SPSS 20.0 中文汉化版。第二，我教的是傻瓜操作，并不涉及理论讲解，具体的为什么和用什么理论公式来解释请认真去听《社会统计学》的课程。第三，因为是根据我自己的操作和理解来写的，所以可能有些地方显的不那么科学，仍然要说请大家认真去听《社会统计学》的课程，那个才是权威的。 1、如何打开文件这个东西打开之后界面是这样的：我们打开一个文件：

要提的一点就是，SPSS保存的数据拓展名是.sav： 2、如何在SPSS中打开excel表在上图的下拉箭头里找到excel这个选项：然后你就能找到你要打开的excel表了。 3、数据视图界面我现在打开了一个数据库。可以看到左下角这个地方有两个框，两个是可以互相切换的，跟excel切换表一样，跟excel切换表一样：现在的页面是数据视图，也就是说这一页都是原始数据，这里的一行就是一张问卷，一列就是一个问题，白框里的1234代表的是选项。这个表当时录数据的时候为了方便看，是把ABCD都转换成了1234，所以显示的是1234，当然直接录ABCD也可以，根据具体情况看怎么录，只要能看懂。多选题的录入全部都是细化到每个选项，比如第四题，选项A选了就是“是”，没选就是

spss统计入门基础

Spss基础入门 1. 个案排序：对数据视图中的某个个案进行排序，具体排序规则可以点进去选择 2. 变量排序：对变量视图中某个变量进行排序，具体规则可以点进去选择 3. 转置：行列互转 4. 合并文件：有两种文件的合并，添加个案可以实现两个文件的纵向合并，添加变量可以两个文件的横向合并 5. 重构：实现把一个表格的若干个变量变为同一个变量等进行表格的合适转换 6. 汇总：对数据按照类别进行汇总，比如三个班级的学生成绩表格，可以按照班级把学生成绩的平均值等等汇总到另外一个表格，该表格就会显示比如按班级显示各个班级的成绩平均值等 7. 拆分文件：实现输出图形表格的合理拆分，比如一个公司有8个部门，现要求分男女比较各个部门的人员工资情况，理论上我们用选择个案（见下条），逐个选择男女与部门需要操作2*8次，由此画出2*8张图表。利用拆分文件，这个时候可以选择比较组或者按组来组织输出，然后分组依据就是部门与性别，在利用下面会讲到的数据描述就可以实现预期效果。 8. 选择个案：实现选择表格中符合条件的个案然后对其进行相应操作，点击进去后会有各种选择方式，比如如果满足什么条件才选择，随机选择百分之多少等等一．转换 1. 重新编码为不同变量：可以把原来的变量或者变量的范围重新定义为新的变量，比如现有一个班级的学生成绩，要求分心50-70分，70-90分90-100分的同学所占比例，平均值等，现在就可以利用重新编码为不同变量，把上述范围重新编码为新的变量（名字可以自己任意选取），具体操作点击进去之后比较清楚。 2. 计算变量：实现对原来变量的重新计算从而产生新的变量，比如对原来变量进行乘以10操作产生新的变量等等，产生的变量名都是可以自己选择的一．分析 1.描述统计：实现对表格中变量的各种类型的描述统计

spss基础知识

1.定义变量（1） Name：定义变量名变量名必须以字母或字符 @开头，其它字符可以是任何字母、数字或 _、 @、 #、 $等符号。变量名总长度不能超过 8 个字符（即 4 个汉字）。（2） Type：定义变量类型 SPSS 的主要变量类型有：Numeric （标准数值型）、Comma（带逗号的数值型）、Dot （圆点作小数点的数值型）、Scientific Notation （科学记数法）、Date（日期型）、Dollar （带美元符号的数值型）、Custom Currency （自定义型）、String （字符型）。单击Type 相应单元中的按钮，选择合适的变量类型并单击OK。（3） Width ：变量长度设置数值变量的长度，当变量为日期型时无效。（4） Decimal ：变量小数点位数设置数值变量的小数点位数，当变量为日期型时无效。（5） Label ：变量标签变量标签是对变量名的进一步描述，变量只能由不超过8 个字符组成， 8 个字符经常不足以表示变量的含义。而变量标签可长达120 个字符，变量标签对大小写敏感，显示时与输入值完全一样，需要时可用变量标签对变量名的含义加以解释。（6） Value ：变量值标签值标签是对变量的每一个可能取值的进一步描述。（7） Missing ：缺失值的定义方式 SPSS 有两类缺失值：系统缺失值和用户缺失值。在数据长方形中任何空的数字单元都被认为系统缺失值，用点号（?）表示。SPSS可以指定那些由于特殊原因造成的信息缺失值，然后将它们标为用户缺失值，统计过程识别这种标识，带有缺失值的观测被特殊处理。默认值为None。单击 Value相应单元中的按钮，可改变缺失值定义方式。（8） Column：变量的显示宽度输入变量的显示宽度，默认为 8。（9） Align ：变量显示的对齐方式选择变量值显示时的对齐方式： Left （左对齐）、 Right （右对齐）、 Center （居中对齐）。（10） Scale ：变量的测量尺度根据变量测量精度不同，可把变量由低到高分为四种尺度：定类变量、定序变量、定距变量和定比变量。 1）定类变量定类变量由称为名义（ nominal ）变量。这是一种测量精度最低、最粗略的基于“质”因素的变量，它的取值只代表观测对象的不同类别，例如“性别”变量、“职业”变量等都是定类变量。定类变量的取值称为定类数据或名义数据。定类数据的共同特点是用不多的名称来加以表达，并由被研究变量每一组出现的次数及其总计数所组成，这种数据是枚举性的，即由计数一一而得。唯一适合于定类数据的数学关系是“等价关系”。因而，在定类数据中，同一组内各单位是等价的，同时若更换各不同组的符号并不会改变数据原有的基本信息。因此，最常用来综合定类数据的统计量是频数、比率或百分比等。 2）定序变量定序变量由称为有序（ordinal）变量、顺序变量，它的取值大小能够表示观测对象的某种顺序关系（等级、方位或大小等），也是基于“质”因素的变量。例如：“最高

SPSS基本操作步骤详解

SPSS基本操作步骤详解本文采用SPSS21.0版本，其它版本操作步骤大体相同一、基本步骤（一）检查数据在进行项目分析或统计分析之前，要检核输入的数据文件有无错误，即检核missing。例，“XX量表”采用Likert scale五点量表式填答，每个题项的数据只有五个水平：1,2,3,4,5。 1.执行次数分布表的程序 Analyze（分析）→Descriptive statistics（描述统计）→将题项变量【例，a1—a10】键入至Variables（变量）框中→Frequencies（频率）→Statistics（统计量）→Minimum （最小值）、Maximum（最大值）→Continue(继续)→OK（确定） 2.执行描述统计量的程序 Analyze（分析）→（描述统计）→将题项变量【例，a1—a10】键入至Variables（变量）框中→Descriptives（描述）→Options（选项）→Minimum（最小值）、Maximum（最大值）【此处一般为默认状态即可】→Continue(继续)→OK（确定）（二）反项计分若是分析的预试量表中没有反向题，则此操作步骤可以省略；量表或问卷题中如果有反向题，则在进行题项加总之前将反向题反向计分，否则测量分数所表示的意义刚好相反。例，“XX量表”采用Likert scale五点量表式填答，反向题重向编码计分：1→5,2→4,3→3【可不写】,4→2,5→1。 Transform（转换）→Recode into same Variables（重新编码为相同变量）→将要反向的题目键入至Variables（变量）框中【例，a1，a3，a5】→Old and new values（旧值和新值）→在左边Old value—value中键入1，在右边New value—value中键入5，Add （添加）→……依次进行此步骤……在左边Old value—value中键入5，在右边New value —value中键入1，Add（添加）→Continue(继续)→OK（确定）【注意不同量表计分方式不同，因而反向编码计分也不同，常见的有四点量表、五点量表和六点量表等】（三）题项加总量表题项加总的目的在于便于进行观察值得高低分组。例，“XX量表”采用Likert scale五点量表式填答，题项为：a1，a2……a10，记总分为：az。 Transform（转换）→Computer Variable（计算变量)→在左边Target Variable（目标变量）中键入az，在右边Numeric Expression（数字表达式）中键入a1+a2+……+a10

实验三-IBM-SPSS软件的基本操作

云南大学软件学院实验报告课程：大数据分析及应用任课教师：蔡莉实验指导教师（签名）：学号： 20131170142 姓名：郭昱专业：软件工程日期： 2015/11/01 成绩：实验三 IBM SPSS软件的基本操作一、实验目的 1．熟悉SPSS的菜单和窗口界面，熟悉SPSS 各种参数的设置； 2．掌握SPSS的数据管理功能。二、实验内容及步骤（一）数据的输入和保存 1. SPSS界面当打开SPSS后，展现在我们面前的界面如下：菜单栏工具栏

注意：窗口顶部显示为“SPSS for Windows Data Editor”，表明现在所看到的是SPSS的数据管理窗口。该界面和EXCEL极为相似，很多操作也与EXCEL类似。 2.定义变量选择菜单Data==>Define Variable。系统弹出定义变量对话框如下：对话框最上方为变量名，现在显示为“VAR00001”，这是系统的默认变量名；往下是变量情况描述，可以看到系统默认该变量为数值型，长度为8，有两位小数位，尚无缺失值，显示对齐方式为右对齐；第三部分为四个设置更改按钮，分别可以设定变量类型、标签、缺失值和列显示格式；第四部分实际上是用来定义变量属于数值变量、有序分类变量还是无序分类变量，现在系统默认新变量为数值变量；最下方则依次是确定、取消和帮助按钮。

假如有两组数据如下： GROUP 1: 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11 GROUP 2: 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87 先来建立分组变量GROUP。请将变量名改为GROUP，然后单击OK按钮。现在SPSS的数据管理窗口如下所示：第一列的名称已经改为了“group”，这就是我们所定义的新变量“group”。现在我们来建立变量X。单击第一行第二列的单元格，然后选择菜单Data==>Define Variable，同样，将变量名改为X，然后确认。此时SPSS的数据管理窗口如下所示：现在，第一、第二列的名称均为深色显示，表明这两列已经被定义为变量，其余各列的名称仍为灰色的“var”，表示尚未使用。同样地，各行的标号也为灰色，表明现在还未输入过数据，即该数据集内没有记录。 3.输入数据我们先来输入变量X的值，请确认一行二列单元格为当前单元格，弃鼠标而用键盘，输入第一

SPSS编程操作入门知识讲解

S P S S编程操作入门

第四章 SPSS编程操作入门 4.1程序编辑窗口操作入门一、进入程序编辑窗口界面 ①创建一个新程序 File——new——syntax ②打开一个旧程序 File——open——syntax 程序文件的扩展名为*.sps 注：syntax窗口的菜单和SPSS窗口的菜单功能基本一致，区别在于RUN菜单。 RUN ALL——运行全部程序 RUN SELECTION——运行所选择的部分程序二、熟用Paste 按钮在SPSS所有菜单对话框中均有Paste功能，在所有对话框选择完毕后，不选择 OK，而使用Paste，则程序编辑窗口会自动生成程序。此功能使得SPSS编程操作变得简单易行，只需要对生成的程序适当加以修改即可。示例：运用Paste创建一个程序文件。以xuelin.sav.为例，产生P50页的程序语句，并保存在桌面上备用。

该程序文件可以保存，当下次做相同的分析时，无需重新进行复杂的菜单选择，直接在原有程序文件上进行适当的修改，运行即可。三、编程进行对话框无法完成的工作示例１：见书示例２：怎么产生连续自然数１～２００ Input program. Loop #i=1 to 200. Compute x=#i. end case. End loop. End file. End input program. Execute. 4.2结构化语句简介一、分支语句（条件语句） ①ＩＦ语句ＳＰＳＳ程序格式：ＩＦ逻辑表达式目标表达式逻辑表达式用于给出判断条件。

目标比达式表示如果满足逻辑表达式后该如何操作。注：编程基本小知识： ①每句命令完成后，以点号结束，否则程序不被执行。 ②全部命令编辑完成后，以Execute.结束，否则程序不被执行. ③学会使用help——command syntax reference自学编程。示例１：打开案例数据brain1.sav,要求将年龄小于20，性别为1（男）的病人归为第一组（group=1）. GET FILE='F:\chenghongli\spss\数据集\brain1.sav'. if age<20 & sex=1( 逻辑表达式) group=1.（目标表达式）Execute. 示例2：打开案例数据brain1.sav，要求将年龄小于等于40岁的女性病人归为组2. GET FILE='F:\chenghongli\spss\数据集\brain1.sav'. if age le 40 group=2. execute. 练习1：将血小板大于等于100的列为组1 练习2：打开brain1.sav，创造一个新的字符型变量sex1，当sex 取值为1时，sex1取值为f, 当sex取值为2时，sex1取值为m. GET

SPSS基础分析

SPSS基础分析……给大家讲一下……不会SPSS的伤不起！！！……来源：谢彬的日志大家现在都要写论文的数据分析了……很多同学都一点不会……所以把我知道的跟大家分享一下……下面以PASW18.0为例，也就是SPSS18.0…………什么？不是18.0，好吧……差不多的，凑合着看吧……要不去装个……= =……下面图片看不清的请右键查看图片…… 首先，要把问卷中的答案都输进SPSS中，强烈建议直接在SPSS中输入，不要在EXCEL中输入，再导入SPSS，这样可能会出问题……在输数据之前先要到变量视图中定义变量……如下图所有类型都是数值，宽度默认，小数点看个人喜好，标签自定，其他默认……除了值…… 讲讲值的设定…… 点一下有三点的蓝色小框框……会跳出一个对话框，如果你的变量是性别，学历，那么就如下图

如果是五点维度的量表，那么就是

记住，每一题都是一个变量，可以取名Q1，Q2……设定好所有问卷上有的变量之后，就可以到数据视图中输入数据啦……如下图都输完后……还有要做的就是计算你的每个维度的平均得分……如果你的问卷Q1-Q8是一个维度，那么就把Q1-Q8的得分加起来除以题目数8……那么得到的维度1分数会显示在数据视图中的最后……具体操作如下…… 转换——计算变量

点确定，就会在数据视图的最后一列出现计算后的变量……如果你的满意度有3个维度，那么就要计算3个维度，外加满意度这个总维度，满意度=3个维度的平均分=满意度量表的所有题目的平均分…………把你所有的维度变量都计算好之后就可以分析数据啦…… 1.描述性统计

将你要统计的变量都放到变量栏中，直接点确定……

SPSS基本功能及操作

统计分析模型（1）信度分析文献[558] 操作步骤：分析—度量—可靠性分析（R）—移动变量到项目（I）框内—统计量—描述性（项+度量+如果。）—项之间（相关性）—继续—确定信度系数界限值：0．60—0．65认为不可信；0．65—0．70认为是最小可接受值：0．70～0．80认为相当好；0．80—0．90就是非常好。因此，—份信度系数好的量表或问卷最好在0．80以上，0．70—0．80之间还算是可以接受的范围；分量表最好在0．70以上：0．60—0．70之间可以接受。若分量表的内部一致性系数在0．60以下或者总量表的信度系数在0．80以下，应该考虑重新修订量表或增删题目。项已删除的刻度方差删除任何题项后的Cronbach’s α系数也无显著提高。可见核心知识性员工激励组合量表的内部一致性高，信度较好。信度分析说明该问卷的整体结构设计具有较高的可信度。由此可以认为，该问卷具有较好的内在信度，依此调查得到的数据是可信的，基于该问卷进行的数据统计分析结果也是比较可靠的。

从工作满意度与员工参与的相关分析结果中可以看出，工作满意度的6个维度均与员工参与有相关关系，且都为正向相关，显著性水平均达到0.05的显著性水平，可证明薪酬激励量表具有较高的收敛效度，可以进行后续研究，他们之间的相关性也可以说明本文的研究具有一定的意义。对比上面相关系数表，项间相关性矩阵中相关系数判别标准：》=0.1(强相关)

（3）频数分析 P66 文献[558] 操作步骤：分析—描述统计—（123）频率（F）—移动变量到变量（V）框内—显示频率表格√—统计量—分布（偏度+峰度）—继续—确定频率也称频数，就是一个变量在各个变量值上取值的个案数。SPSS中的频数分析过程可以方便地产生详细的频数分布表，即对数据按组进行归类整理，形成各变量的不同水平的频数分布表和常用的图形，以便对各变量的数据特征和观测量分布状况有一个概括的认识。描述总体分布形态的统计量主要有偏度和峰度两种。偏度(Skewness)是描述取值分布形态对称性的统计量，由Pearson在1895年提出。偏度由样本的3阶中心矩与样本方差的3／2次方的比值而得，偏度的绝对值越大，表示数据分布的偏斜程度越高。来自正态总体的样本偏度近似为0。偏度系数有两种测量方式，分别为皮尔逊偏度系数1和皮尔逊偏度系数2。偏度系数等于0的时候属于正态分布；偏度系数大于0的时候是右偏分布，表明较低的值占多数；偏度系数小于0的时候为左偏分布，表明较高的值占多数。峰度(Kutosis)是描述变量取值分布形态扁平程度的统计量，由Pearson 在1905年提出。峰度等于0的时候表示数据分布的扁平程度适中，即正态分布；峰度大于0的时候表示数据呈扁平分布；峰度小于0表明数据呈尖峰分布。 3 / 12