文档库 最新最全的文档下载
当前位置:文档库 › 聚类分析步骤

聚类分析步骤

聚类分析步骤

以教材第五章习题8的数据为例,演示并说明聚类分析的详细步骤:一.原始数据的输入:

二.选项操作:

1. 打开SPSS的“分析”→“分类”→“系统聚类”,

打开“系统聚类”对话框。把“食品”、“衣着”等6变量输入待分析变量框;把“地区”输入“标注个案”;“分群”选中“个案”;“输出”选中“统计量”和“图”。(如下图)

相关说明:

(1)系统聚类法是最常用的方法,其他的方法较少使用。

(2)“标注个案”里输入“地区”,在输出结果的距离方阵和聚类树状图里会显示出“北京”、“天津”等,否则SPSS自动用“1”、“2”等代替。(3)“分群”选中“个案”,也就是对北京等16个样本进行分类,而不是对食品等6个变量分类。

(4)必须选中“输出”中的“统计量”和“图”。在该例中会输出16个地区的欧氏距离方阵和聚类树状图。

2. 设置分析的统计量

打开最右上角的“统计量”对话框,选中“合并进程表”和“相似性矩阵”,“聚类成员”选中“无”。然后点击“继续”。

打开第二个“绘制”对话框,必须选中“树状图”,其他的默认即可。

打开第三个对话框“方法”:聚类方法选中“最邻近元素”;“度量标准”选中“区间”的“欧氏距离”;“转换值”选中“标准化”的“Z得分”,并且是“按照变量”。

打开第四个对话框“保存”,“聚类成员”选默认的“无”即可。

三.分析结果的解读:

按照SPSS输出结果的先后顺序逐个介绍:

1.欧氏距离矩阵:是16个地区两两之间欧氏距离大小的方阵,该方阵是应用各种聚类方法进行聚类的基础。

临沂大学建筑学院房地产系

5

2.合并进程表:

主要看前四列,现在以前三个步骤为例说明合并过程:第一步,样本12和样本13合并,此时系数为0.650;第二步,样本3和样本16合并,此时系数为0.960;第三步,样本3(实际上是第二步样本3和16组成的新类)和样本4合并,此时系数为0.989;以此类推。

3. 冰柱:

左侧是分组数目,上侧是被分组的样本,样本之间由等距的间隔分开,间隔被填充的,说明相邻两样本合并为一组,没有被填充就不被合并。按照此规则,首先从下往上看,当分为15类时,只有样本13和12合并了,其余的各自是一类;当分为10类时,从左到右依次是(7),(6),(5),(4,16,3),(11),(14,13,12),(10,8),(15,2),(9),(1);其他的分组数目时以此类推。(该冰柱的分组数目有2.5、7.5、12.5等含有半组的情况,不需要掌握。)

4. 树状图:

这是分类结果最后的树状图,把整个分类情况一目了然地呈现出来了。最上面的是标尺,数字0-25是大致按照距离比例重新标定的数值,不影响对分类结果的观察与结论。解读此图的方法是:每个样本的右侧都是虚线,虚线的端点处是“+”,说明该样本在此和另一个样本或者组(它也有上下相对齐的“+”)合并为一类。如:安徽和福建在对应标尺1附近时合并为一类,之后与江西在标尺数值4附近合并为一类。天津、山东、黑龙江、江苏四个样本的“+”看起来好像是统一对齐的,其实不是,实际情况是:天津和山东在1.280(欧氏距离)处对齐,黑龙江和江苏在1.290(欧氏距离)处对齐。

总说明:

1. 聚类分析从数学上讲不是很严谨,所以采用不同的统计量和采取不同的聚类方法,聚类结果可能有较大的差异。但是只要整个分析过程没有错误就是完整正确的,聚类结果都是认可的。(本例中,原始数据首先进行标准差标准化,再求欧氏距离方阵,聚类方法采取的是最短距离法。)

2. 聚类分析的最终结果自然是分类,除了SPSS 输出的树状图,最好自己再做出Word 格式的分类表,具体分为几类,自己看情况而定。譬如该例子就可以分为4类或5类。

3. 聚类分析只是分类,并不能进行评判(如发展水平高低等),如要评判各样本应结合主成分分析、因子分析等方法共同进行。其分类结果也不一定按照聚类分析的结果为准,可以结合主成分分析、因子分析的结果进行修正。

最短距离法具体计算方法及步骤

在系统聚类法中,最短距离法应用比较广泛。计算过程一般是首先对原始数据进行标准化处理,再计算初始欧氏距离矩阵,然后应用最短距离法聚类。 假设有6个样本的初始欧氏距离矩阵如下:

G1 G2 G3 G4 G5 G6

D (0)=

????

?????

? ??0589.0693.0154.2743.1972.10501.0662.1336.1516.10926.1596.1749.10776.0483.00375.00

(系统聚类法在聚类之前把每个样本看成一组,用G1,G2,….代替。在该矩阵中,第i 行和第i 列都代表第i 组,在左侧括号的外面应该自上到下依次是G1,G2,…,G6,因为word 中不好输入,所以省略了。)

在初始距离系数矩阵的基础上,用最短距离法分类的具体步骤是: 1. 在初始距离系数矩阵D (0)中,选出距离数值最小者,即d 12=0.375,把第一类G1和第二类G2合并为一个新类G7,记为G7={G1,G2}。再利用最短距离法计算新类G7与其他各类G3,G4,G5,G6的距离,得

d 73=min{d 13,d 23}=min{0.483, 0.776}=0.483 d 74=min{d 14,d 24}=min{1.749, 1.596}=1.596 d 75=min{d 15,d 25}=min{1.516, 1.336}=1.336

d 76=min{d 16,d 26}=min{1.972, 1.743}=1.743 形成距离系数矩阵D (1)

G7 G3 G4 G5 G6

??

?

??

??? ??=0589.0693.0154.2743.10501.0662.1336.10

926.1596.10483.00)1(D

2. 在矩阵D (1)中,选出距离数值最小者,即d 73=0.483,这时G7和G3合并

为一个新类G8,记为G8={G7,G3}。再利用最短距离法计算新类G8与其他各类G4,G5,G6的距离,得

D 84=min{d 34,d 74}=min{1.926, 1.596}=1.596 D 85=min{d 35,d 75}=min{1.662, 1.336}=1.336 D 86=min{d 36,d 76}=min{2.154, 1.743}=1.743 形成距离系数矩阵D (2)。

G8 G4 G5 G6

??????

? ??=0589.0693.0743.10501.0336.10596.10)

2(D

3. 在矩阵D (2)中,选出距离数值最小者,即d 45=0.501,这时G4和G5合并

为一个新类G9,记为G9={G4,G5}。再利用最短距离法计算新类G9与其他各类G8,G6的距离,得

D 98=min{d 48,d 58}=min{1.596, 1.336}=1.336 D 96=min{d 46,d 56}=min{0.693, 0.589}=0.589 形成距离系数矩阵D (3)。

G8 G9 G6

????

? ??=0589.0743.10336.10)

3(D

相关文档
相关文档 最新文档