时间序列-判别分析

时间序列分析

样本数据来自中国统计出版社出版的《中国统计年鉴》,数据年限为1978—2004年。具体数据如:表一待分析的指标有:经济活动人口、从业人员、第一产业从业人员数、第二产业从业人员数、第三产业从业人员数

年份经济活动

人口从业人员

单位:万人

第一产业第二产业第三产业

1978 40682 40152 28318 6945 4890 1979 41592 41024 28634 7214 5177 1980 42903 42361 29122 7707 5532 1981 44165 43725 29777 8003 5945 1982 45674 45295 30859 8346 6090 1983 46707 46436 31151 8679 6606 1984 48433 48197 30868 9590 7739 1985 50112 49873 31130 10384 8359 1986 51546 51282 31254 11216 8811 1987 53060 52783 31663 11726 9395 1988 54630 54334 32249 12152 9933 1989 55707 55329 33225 11976 10129 1990 65323 64749 38914 13856 11979 1991 66091 65491 39098 14015 12378 1992 66782 66152 38699 14355 13098 1993 67468 66808 37680 14965 14163 1994 68135 67455 36628 15312 15515 1995 68855 68065 35530 15655 16880 1996 69765 68950 34820 16203 17927 1997 70800 69820 34840 16547 18432 1998 72087 70637 35177 16600 18860 1999 72791 71394 35768 16421 19205 2000 73992 72085 36043 16219 19823 2001 74432 73025 36513 16284 20228 2002 75360 73740 36870 15780 21090 2003 76075 74432 36546 16077 21809 2004 76823 75200 35269 16920 23011

我国年末从业人员人数和三产业从业人员数有什么样的发展趋势?

通过spss分析得到发展趋势图

时间序列-判别分析

时间序列-判别分析

同时对后面两年做了预测

预测

模型2005 2006

失业人口-模型_1 预测1709.99 1757.41

UCL 2074.84 2234.02

LCL 1345.13 1280.80

对于每个模型,预测都在请求的预测时间段范围内的最

后一个非缺失值之后开始,在所有预测值的非缺失值都

可用的最后一个时间段或请求预测时间段的结束日期

(以较早者为准)结束。

时间序列-判别分析

预测

模型2005 2006

第三产业-模型_1 预测24732.84 26293.43

UCL 26153.06 29360.73

LCL 23372.48 23477.89 对于每个模型,预测都在请求的预测时间段范围内的最

后一个非缺失值之后开始,在所有预测值的非缺失值都

可用的最后一个时间段或请求预测时间段的结束日期

(以较早者为准)结束。

时间序列-判别分析

判别分析

判别分析和聚类分析的区别

聚类分析:是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。

判别分析:是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类

聚类分析与判别分析都是研究分类的,但是它们有所区别:

(1)聚类分析一般寻求客观的分类方法,在进行聚类分析以前,对总体到底有几种类型并不知道。判别分析则是在总体类型划分已知,在各总体分布或来自总体训练样本的基础上,对当前的新样本判定它们属于哪个总体。

(2)两类方法的建立的模型不一样,因此在处理某些特定的问题时,就会得出不一样的结果,就本题看来,出现了经济类型上的判别不一致的细微差异,但是作为分类方法来说,两种方法在大部分情况下都能取得一致的效果。

(3)聚类分析与判别分析也是有联系的。如我们对研究的多元数据的特征不熟悉,当然要先进行聚类分析,才能考虑判别分析的问题。

判别分析实例

为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区.分为三种类型。试建立判别函数,判定广东、西藏分别属于哪个收入类型。判别指标及原始数据见表9-4。

1991年30个省、市、自治区城镇居民月平均收人数据表

单位:元/人 x1:人均生活费收入 x6:人均各种奖金、超额工资(国有+集体) x2:人均国有经济单位职工工资 x7:人均各种津贴(国有+集体)

x3:人均来源于国有经济单位标准工资 x8:人均从工作单位得到的其他收入

x4:人均集体所有制工资收入 x9:个体劳动者收入

x5:人均集体所有制职工标准工资

样品序地区x

1x

2

x

3

x

4

x

5

x

6

x

7

x

8

x

9

类序

G

11 北京170.03110.259.768.38 4.4926.8016.4411.90.41

2 天津141.5582.5850.9813.49.3321.3012.369.21 1.05

3 河北119.4083.3353.3911.07.5217.3011.7912.00.70

4 上海194.53107.860.2415.68.8831.0021.0111.80.16

5 山东130.4686.2152.3015.910.520.6l12.149.610.47

6 湖北119.2985.4153.0213.18.4413.8716.478.380.51

7 广西134.46 98.6148.188.90 4.3421.4926.1213.6 4.56

8 海南143.79 99.97 45.60 6.30 1.56 18.67 29.49 11.8 3.82

9 四川128.05 74.96 50.13 13.9 9.62 16.14 10.18 14.5 1.21

10 云南127.41 93.54 50.57 10.5 5.87 19.41 21.20 12.6 0.90

11 新疆122.96 101.4 69.70 6.30 3.86 11.30 18.96 5.62 4.62

G

21 山西102.49 71.72 47.72 9.42 6.96 13.12 7.9 6.66 0.61

2 内蒙古106.14 76.27 46.19 9.65 6.27 9.655 20.1O 6.97 0.96

3 吉林104.93 72.99 44.60 13.7 9.01 9.435 20.61 6.65 1.68

4 黑龙江103.34 62.99 42.9

5 11.1 7.4l 8.342 10.19 6.45 2.68

5 江西98.089 69.45 43.04 11.4 7.95 10.59 16.50 7.69 1.08

6 河南104.12 72.23 47.31 9.48 6.43 13.14 10.43 8.30 1.11

7 贵州108.49 80.79 47.52 6.06 3.42 13.69 16.53 8.37 2.85

8 陕西113.99 75.6 50.88 5.21 3.86 12.94 9.492 6.77 1.27

9 甘肃114.06 84.31 52.78 7.81 5.44 10.82 16.43 3.79 1.19

10 青海108.80 80.41 50.45 7.27 4.07 8.371 18.98 5.95 0.83

11 宁夏115.96 88.2l 51.85 8.81 5.63 13.95 22.65 4.75 0.97

G

31 辽宁128.46 68.91 43.4l 22.4 15.3 13.88 12.42 9.01 1.41

2 江苏135.24 73.18 44.54 23.9 15.2 22.38 9.661 13.9 1.19

3 浙江162.53 80.11 45.99 24.3 13.9 29.5

4 10.90 13.0 3.47

4 安徽111.77 71.07 43.64 19.4 12.

5 16.68 9.698 7.02 0.63

5 福建139.09 79.09 44.19 18.5 10.5 20.23 16.47 7.67 3.08

6 湖南124.00 84.66 44.05 13.5 7.4

7 19.11 20.49 10.3 1.76

待判1 广东211.30 114.0 41.44 33.2 11.2 48.72 30.77 14.9 11.1

2 西藏175.9

3 163.8 57.89 4.22 3.37 17.81 82.32 15.7 0.00

将数据导入spss,为了分组我们引入一个新的变量分组,1、2、3分别代表组

G1、G2、G3,这样我们用spss的判别分析得到结果如下。

分析案例处理摘要

未加权案例N 百分比

有效28 93.3

排除的缺失或越界组代码 2 6.7

至少一个缺失判别变量0 .0

缺失或越界组代码还有至少

一个缺失判别变量

0 .0

合计 2 6.7 合计30 100.0

这表说明我们有28个变量已经分组占93.3%,有两个没有分组。

组统计量

分组均值标准差有效的N(列表状态)未加权的已加权的

1.00 人均生活费收入139.2664 23.35125 11 11.000

人均国有经济单位职工工资93.0918 11.38829 11 11.000 人均来源于国有经济单位标

准工资

53.9882 6.80530 11 11.000

人均集体所有制工资收入11.2073 3.44937 11 11.000 人均集体所有制职工标准工

6.7645 2.89685 11 11.000

人均各种奖金17.9345 8.13509 11 11.000 人均各种津贴17.8327 6.23305 11 11.000 人均从工作单位得到的其他

收入

11.0018 2.56135 11 11.000

个体劳动者收入 1.6736 1.74528 11 11.000 2.00 人均生活费收入107.3099 5.56641 11 11.000

人均国有经济单位职工工资67.8873 23.27543 11 11.000 人均来源于国有经济单位标

准工资

47.7536 3.42090 11 11.000

人均集体所有制工资收入9.0827 2.45900 11 11.000 人均集体所有制职工标准工

5.3673 2.47082 11 11.000

人均各种奖金11.2775 2.15323 11 11.000

人均各种津贴13.6102 6.64073 11 11.000

人均从工作单位得到的其他

6.5773 1.38350 11 11.000

收入

个体劳动者收入 1.3845 .73428 11 11.000

3.00 人均生活费收入133.5150 17.11642 6 6.000

人均国有经济单位职工工资76.1700 6.06280 6 6.000

人均来源于国有经济单位标

37.0683 18.17763 6 6.000

准工资

人均集体所有制工资收入20.3333 4.09031 6 6.000

人均集体所有制职工标准工

12.4783 3.04592 6 6.000

人均各种奖金20.3033 5.39344 6 6.000

人均各种津贴13.2732 4.34722 6 6.000

人均从工作单位得到的其他

10.1500 2.80907 6 6.000

收入

个体劳动者收入 1.9233 1.11631 6 6.000

合计人均生活费收入125.4796 22.22549 28 28.000 人均国有经济单位职工工资79.5639 19.70158 28 28.000

人均来源于国有经济单位标

47.9132 11.12918 28 28.000

准工资

人均集体所有制工资收入12.3282 5.36546 28 28.000

人均集体所有制职工标准工

7.4400 3.82942 28 28.000

人均各种奖金15.8269 6.80513 28 28.000

人均各种津贴15.1968 6.23703 28 28.000

人均从工作单位得到的其他

9.0811 2.98513 28 28.000

收入

个体劳动者收入 1.6136 1.26601 28 28.000

这个表说明各个组中各个指标的统计量,第一、二组都是11个,第三组6个。

特征值

函数特征值方差的% 累积% 正则相关性

1 3.540a60.6 60.6 .883

2 2.297a39.4 100.0 .835

a. 分析中使用了前2 个典型判别式函数。

这个是建立函数情况,说明用两个函数就可以对模型进行统计。

Wilks 的Lambda

函数检验Wilks 的

Lambda 卡方df Sig.

1 到

2 .067 56.824 18 .000

2 .30

3 25.052 8 .002

这个是函数的假设性检验,在0.05的显著性水平下是显著的。

标准化的典型判别式函数系数

函数

1 2

人均生活费收入-.493 .720

人均国有经济单位职工工资.238 .337

人均来源于国有经济单位标

准工资

-.290 .385

人均集体所有制工资收入 1.052 -.268

人均集体所有制职工标准工

.118 .482

人均各种奖金.839 -.736

人均各种津贴.107 .378

人均从工作单位得到的其他

收入

-.386 .804

个体劳动者收入.440 .047

这个是标准化后的,函数的系数。

结构矩阵

函数

1 2

人均集体所有制工资收入.736*.123

人均集体所有制职工标准工

.544*.097

人均来源于国有经济单位标

准工资

-.321*.240

个体劳动者收入.075*.061

人均从工作单位得到的其他

收入

.184 .597*

人均生活费收入.180 .564*

人均国有经济单位职工工资-.026 .474*

人均各种奖金.249 .327*

人均各种津贴-.077 .224*

判别变量和标准化典型判别式函数之间的汇聚组间相

关性

按函数内相关性的绝对大小排序的变量。

*. 每个变量和任意判别式函数间最大的绝对相关性

这个是为标准化是函数系数,即:

Y1=0.736x1+0.544x2-0.321x3+0.075x4+0.184x5+0.180x6-0.026x7+0.249x8-0.077x 9

Y2=0.123x1+0.097x2+0.24x3+0.061x4+0.579x5+0.564x6+0.474x7+0.327x8+0.224x 9

组质心处的函数

分组

函数

1 2

1.00 -.748 1.675

2.00 -1.102 -1.543

3.00 3.391 -.242

在组均值处评估的非标准化典型

判别式函数

这个表各组的质心位置。

最后我们得到的结果是,广东属于第三类,西藏属于第一类。

时间序列-判别分析

时间序列-判别分析

相关推荐
相关主题
热门推荐