文档库 最新最全的文档下载
当前位置:文档库 › stata 期末论文

stata 期末论文

周恩来政府管理学院2014——2015学年第一学期

《高级社会统计及软件应用》(论文)

专业:人类学学号:_2120141707姓名:于艳华成绩:_________

居民受教育水平对个人职业收入的影响

---基于cgss2008的实证数据分析

摘要:一直以来人们都认为个人受教育水平的高低对其职业收入水平有着重要的影响,本文利用cgss2008的数据,基于stata统计软件,利用OLS模型对cgss2008的数据进行实证分析,得出结论,个人受教育水平对其职业收入有着显著的影响。并且,考虑到性别、省份所属区域、被访者居住的社区类型等是影响个人职业收入的其他因素,本文将cgss2008的数据按性别进行分组后发现,性别对个人职业收入水平有重要影响,一般意义上,女性的职业收入要低于男性的职业收入;控制性别变量后,被调查对象的省份所属区域对个体收入水平也有显著的影响,一般意义上来说,中部和西部的居民职业收入低于东部的居民职业收入;在控制了性别、被调查对象的省份所属区域,被访者居住的社区类型对个体的职业收入有显著影响,一般来说,居住于非城市社区的居民职业收入水平低于居住于城市社区的居民职业收入水平;在加入了调查对象的受教育水平后,并对以上三个基础变量控制之后发现,居民受教育水平对其职业收入有着显著的影响。

一、文献回顾

(一)研究意义

1、理论意义和现实意义

随着知识经济时代的来临,教育在个人收入中的作用日益重要。教育对个人收入影响力的大小主要体现在教育收益率的高低上。关于中国教育收益率的研究也相当多,对于居民受教育水平对个人职业收入的影响,国内研究主要集中于对这种现象的描述分析,缺少权威的实证数据分析,本文利用cgss2008的数据,中国综合社会调查(China general social survey,缩

写为cgss)是中国的一个较具有权威性的综合社会调查项目,该数据具有规模较大,科学性较强等特点,结合cgss2008的数据,利用OLS模型的实证数据分析推测个体职业收入与教育水平及其他因素之间是否有回归关系,或者这种关系是否显著。这对于完善教育对职业收入的影响的理论研究有重要意义。

居民收入水平是衡量一个国家的居民生活水平高低的重要标准,关系一个社会整体的良性运行,而教育是影响个人职业收入的重要因素,是一个社会实现纵向流动的重要途径,为了更好地实现教育对于社会发展进步的积极促进作用,研究教育及其他因素对居民职业收入的影响具有重大的现实意义。

(二)现有实证研究的缺陷

回顾以往的关于教育对于职业收入影响的分析中可以发现,研究者大多数集中于单一变量对个体职业收入的影响,没有结合其他的变量综合分析教育对于职业收入的影响,本文针对这一缺陷,将会综合考虑教育、性别、省份所属区域、被访者居住的社区类型等变量因素对职业收入的影响。首先分析各个变量(教育、性别、省份所属区域、被访者居住的社区类型)对于职业收入的影响;其次在分别对以上变量进行控制后,分析教育对于居民职业收入的影响,以提高分析的可信度。

二、研究问题

本文致力于研究受教育水平对居民职业收入的影响,受教育水平用研究对象的最高教育程度表示,利用cgss2008的数据,首先对性别进行分组,以区别不同性别的收入情况;其次在性别分组的基础上,对其省份所属区域进行区分,以分析地域不同对居民收入的影响;然后在性别、省份所属区域的基础上,分析被访者居住的社区对职业收入的影响;最后在控制性别、省份所属区域、被访者居住的社区类型变量的基础上,分析研究对象的受教育水平对职业收入的影响。初步的研究假设有:假设一:性别对收入有着显著的影响,一般意义上,女性收入低于男性收入;假设二:控制性别变量后,省份所属区域对收入有显著影响,一般意义上,中部和西部的居民职业收入低于东部的居民职业收入;假设三:控制性别、省份所属区域变量后,被访者居住的社区类型对职业收入有显著影响,一般意义上,居住在非城市社区的居民职业收入低于居住在城市社区的居民的职业收入;假设四:控制性别、省份所属区域、被访者居住的社区类型变量后,一般意义上,居民的受教育水平越高,居民的职业收入越高。

三、研究方法

本文利用cgss2008的数据展开实证研究,cgss是中国综合社会调查的缩写,是中国第一

个综合性大规模的社会调查项目,由中国人民大学社会学系发起,该数据具有覆盖范围全面,调查内容深入细致,数据的科学性和客观性较强等特点,本文所使用的cgss2008的数据总共有6000个调查对象,是对全国125个县(区),500个街道(乡、镇),1000个居(村)委会、10000户家庭中的个人进行调查。通过定期、系统地收集中国人与中国社会各个方面的数据形成的一套覆盖范围广,科学性强的资料。

本文主要用到的cgss2008中的自变量有调查对象的性别、省份、被访者居住的社区类型、目前最高的教育程度等,因变量为研究对象的职业收入(即调查对象去年全年的职业收入)。为了提升本次研究的科学性,在使用数据之前首先对数据进行了处理,将所有变量中有缺失值的变量用stata统计软件做drop处理,这样数据中的6000个变量被处理为5032个没有缺失值的变量,整个研究在这5032个变量的基础上展开。性别变量在数据中的原始变量为a1,为分析方便新产生一个二元变量female,在这篇文章的研究对象中female为0的研究对象为男性,female为1的研究对象是女性,被调查对象的男女分布情况图:见图一;

图一:被调查者性别分布状况饼状图

第二个自变量为研究对象的省份,原始变量为province,为了更好的区分省份和分析方便,产生一个新的变量pro,将省份划分为“东部”、“中部”、“西部”区域,即将“东部”定义为“1”,包括“北京”、“天津”、“河北省”、“上海”“江苏省”、“浙江省”、“福建省”、“山东省”、“广东省”、“辽宁省”;将“中部”定义为2,表示“中部”包括“山西省”、“安徽省”、“江西省”、“河南省”、“湖北省”、“湖南省”、“黑龙江省”、“吉林省”;将“西部”定义为3,代表“西部”包括“广西省”、“内蒙古自治区”、“重庆”、“四川省”、“贵州省”、“云南省”、“陕西省”、“甘肃省”、“宁夏自治区”、

“新疆自治区”。被调查者的省份分布区域划分柱形图:见图二。

图二:被调查者的省份分布区域划分柱形图

第三个自变量为被访者居住的社区类型,根据原始变量v41产生出一个新的变量com,并将回答“其他”的定义为缺失值,其中com为0时,说明被调查者居住的社区类型为城市社区,将被访者居住的社区类型为“集镇社区”、“农村”、“郊区”定义为1,也就是非城市社区,被访者居住的社区类型分布图:见图三;

图三:被访者居住的社区类型分布饼状图

最后一个自变量为被调查者目前的最高教育程度,原始变量为a3a,包括“没有受过任何教育”、“私塾”“小学”、“初中”、“职业高中”、“普通高中”、“中专”、“技校”、“大学专科(成人高等教育)”、“大学专科(正规高等教育)”、“大学本科(成人高等教育)”、“大学本科(正规高等教育)”、“研究生及以上”、“其他”,将原始变量中回答

“其他”定义为缺失值,这样剩下的变量分为13个等级,等级越高表明调查对象的受教育水平越高,为分析方便根据原始变量产生一个新变量edlevel 。被调查者最高教育程度分布图:见图四。

图四:被调查者最高教育程度分布直方图

500

1000

1500

F r e q u e n c y

5

1015

edu

本文中所使用的因变量为被调查者去年全年的职业收入,原始变量为a21a ,我们将这个原始变量进行缺失值的处理,即将“不适用”、“不知道”、“拒绝回答”定义为缺失值,用drop 进行处理,为分析方便,将被调查者去年全年的职业收入按单位为千元进行处理,产生新变量inc 。新变量inc 的描述性统计情况表:见表一。

表一:被访者去年全年的职业收入情况统计(单位:千元) inc Freq. Percent Cum. 0 278 5.52 5.52 0.1 2 0.04 5.56 0.155 1 0.02 5.58 0.2 10 0.2 5.78 0.225 1 0.02 5.8 0.23 1 0.02 5.82 0.25 2 0.04 5.86 0.28 1 0.02 5.88 0.3 15 0.3 6.18 0.35 2 0.04 6.22 0.4 18 0.36 6.58 0.49

1

0.02

6.6

0.6220.447.99 0.6420.048.03 0.6510.028.05 0.7180.368.41 0.7210.028.43 0.7540.088.51 0.8380.769.26 0.8420.049.3 0.8510.029.32 0.950.19.42 1178 3.5412.96 1.0510.0212.98 1.0810.0213 1.150.113.1 1.1210.0213.12 1.2230.4613.57 1.2530.0613.63 1.3100.213.83 1.4110.2214.05 1.577 1.5315.58 1.5610.0215.6 1.5810.0215.62 1.6130.2615.88 1.6810.0215.9 1.7410.0215.92 1.7510.0215.94 1.890.1816.12 1.87210.0216.14 1.910.0216.16 1.9220.0416.2 2231 4.5920.79 2.110.0220.81 2.1610.0220.83 2.260.1220.95 2.330.0621.01 2.4110.2221.22 2.5310.6221.84 2.610.0221.86 2.720.0421.9 2.830.0621.96 2.9410.0221.98 3234 4.6526.63 3.210.0226.65

3.320.0426.71 3.410.0226.73 3.5140.2827.01 3.6170.3427.34 3.720.0427.38 3.820.0427.42 4131 2.630.03

4.110.0230.05 4.250.130.15 4.320.0430.19 4.4810.0230.21 4.560.1230.33 4.890.1830.5 5243 4.833

5.33 5.110.0235.35 5.420.0435.39 5.530.0635.45 5.5210.0235.47 5.810.0235.49 6168 3.3438.83

6.310.0238.85 6.550.138.95 6.610.0238.97 6.7210.0238.99 6.810.0239.01 770 1.3940.4

7.2290.5840.98 7.580.1641.14 7.610.0241.16 7.710.0241.18 7.830.0641.24 8171 3.444.63

8.1620.0444.67 8.1810.0244.69 8.2810.0244.71 8.310.0244.73 8.4250.545.23 8.49710.0245.25 8.580.1645.41 8.620.0445.45 8.710.0245.47 8.810.0245.49 953 1.0546.54

9.520.0446.6 9.664 1.2747.87 9.710.0247.89 9.75610.0247.91 9.79210.0247.93 9.810.0247.95 9.80410.0247.97 9.8430.0648.03 104969.8657.89 10.0810.0257.91 10.3210.0257.93 10.6810.0257.95 10.8170.3458.29 11310.6258.9 11.410.0258.92 12251 4.9963.91 12.0910.0263.93 12.210.0263.95 12.310.0263.97 12.3610.0263.99 12.510.0264.01 1355 1.0965.1 13.2110.2265.32 13.430.0665.38 13.520.0465.42 14370.7466.16 14.0410.0266.18 14.310.0266.2 14.4170.3466.53 14.810.0266.55 15194 3.8670.41 15.510.0270.43 15.6100.270.63 16440.8771.5 16.210.0271.52 16.880.1671.68 17220.4472.12 17.5210.0272.14 17.610.0272.16 17.810.0272.18 18113 2.2574.42 18.210.0274.44 18.510.0274.46

19170.3474.82 19.230.0674.88 19.99910.0274.9 204058.0582.95 20.440.0883.03 2170.1483.17 21.3610.0283.19 21.680.1683.35 22130.2683.6 22.3410.0283.62 22.810.0283.64 23110.2283.86 2485 1.6985.55 2569 1.3786.92 25.210.0286.94 25.60610.0286.96 2690.1887.14 2760.1287.26 27.620.0487.3 28130.2687.56 28.810.0287.58 2910.0287.6 30231 4.5992.19 3110.0292.21 3260.1292.33 33.610.0292.35 3430.0692.41 35180.3692.77 36330.6693.42 3720.0493.46 3830.0693.52 4082 1.6395.15 4220.0495.19 43.710.0295.21 45160.3295.53 4610.0295.55 4860.1295.67 5091 1.8197.48 5210.0297.5 5510.0297.52 60320.6498.15 6220.0498.19 6510.0298.21

70120.2498.47

7510.0298.49

80160.3298.81

8410.0298.83

9070.1498.97

9510.0298.99

9610.0299.01

100310.6299.62

10810.0299.64

12030.0699.7

13010.0299.72

14410.0299.74

15010.0299.76

20040.0899.84

30030.0699.9

40010.0299.92

50020.0499.96

60010.0299.98

100010.02100

Total5032100

接下来的分析采用OLS线性回归模型,本文试图建构以下模型:

inc=a+X*edlevel+others

其中inc代表被调查者去年全年的职业收入(单位:千元),edlevel表示调查对象目前的最高教育程度,others代表可能会影响职业收入的其他因素,在本文中指的是性别、省份所属区域、被访者居住的社区类型。

四、研究结果

将以上自变量和因变量处理好之后用stata软件进行多次回归分析,利用嵌套模型得到表二。

由表格二我们可以看出,在模型一中,因变量为被调查对象去年全年的职业收入,自变量为研究对象的性别,被调查对象全年的职业收入与性别呈显著相关,平均意义上来说,被调查对象中女性职业收入要比男性职业收入低6.689个单位水平,并且此时用性别这一变量来预测研究对象的全年的职业收入时可以消减掉 1.6%的误差,验证了假设一;模型二中,在性别的基础上加入被访者的省份所属区域这一变量,可以看出被访者的省份所属区域加入后,性别变量的系数基本无显著变化,我们可以得出结论,被访者的省份所属区域并不会对性别对职业

收入的作用产生较大的影响,被访者的省份所属区域与职业收入呈显著相关,在控制了性别变量后,研究对象的省份属于中部区域的收入要比属于东部区域的收入要低5.859个单位水平,用性别和被访者省份所属区域变量来预测研究对象的职业收入时可以消减掉 4.8%的误差,支持了假设二;模型三中,在上一个回归模型的基础上又加入被访者居住的社区类型,加入被访者居住的社区类型后可以看出,性别和被访者省份所属区域对其职业收入的影响都有一定程度

表二:回归分析结果

模型一模型二模型三模型四

Variables inc inc inc inc

female(性别)-6.689 -6.688 -6.759 -5.621 pro(被访者省份分布区域)-5.859 -4.958 -3.952

com(居住的社区类型)-10.296 -5.605

edlevel(目前最高教育程度) 2.129

Constant 17.576 28.738 42.308 22.205

Observations 5,032 5,032 5,032 5,032

R-squared0.016 0.048 0.085 0.126

的减小,但是减少的数值都较小,我们可以认为,被访者居住的社区类型不同,不会严重影响性别和被访者省份所属区域对职业收入的作用,进一步来说,在控制了性别和被访者省份所属区域后,研究对象居住在非城市社区的职业收入要比居住在城市社区的职业收入低10.296个单位水平,当用性别、被访者省份所属区域和居住的社区类型来预测职业收入时可以减少8.5%的误差,验证了假设三;模型四中,在控制了性别、被访者的省份所属区域和居住的社区类型,加入研究对象的最高教育程度后,可以发现,被调查对象的最高教育程度每提高一个单位水平,研究对象的职业收入就会提高2.129个单位水平,并且加入最高教育程度这一变量后,被访者居住的社区类型对职业收入的影响显著变小,可以认为是最高教育程度这一变量澄清了被访者居住的社区类型对因变量的影响,验证了假设四,并且通过表格我们可以看出,当我们知道了一个人的性别、所属省份的区域、居住的社区类型和最高教育程度,用这些因素来预测其职业收入时可以减少12.6%的误差。

在此基础上,我们可以得到完整的OLS模型:inc=22.205+2.129*edlevel+others。用这一模型来预测一个人的职业收入时可以减少12.6%的误差。

五、研究结论

通过以上数据和讨论我们发现,本文的OLS模型验证了文章中开始提出的假设,即研究对象的受教育水平即最高教育程度对职业收入有着重要影响,一般来说,控制了其他因素的影响之后,被调查者的最高教育程度越高,其职业收入就越高。总体来说,研究对象的最高教育程度对职业收入有着显著的影响,且最高教育程度与职业收入一般呈现出正向相关性。

本文的研究结论促使我们反思,居民的职业收入水平存在很大差异的一个重要原因是教育水平的差异,鉴于教育对个人职业收入的重要影响作用,受教育水平越高,职业收入就越高,人们会越来越重视教育的作用,但是由于教育的不平等性,会导致教育的结果出现“穷者越穷,富者越富”的马太效应,受教育水平低的人处于劣势,不利于他们利用教育这一途径来实现向上的社会流动,不利于整个社会的稳定和发展进步,本文通过实证研究,使我们清楚地认识到教育对个人职业收入影响的中介变量,并且能够认识到这些中介变量作用的大小和方向,这有助于我们认识影响职业收入的不同因素,在此基础上,我们就可以思考如何通过国家的宏观调控或微观方针来影响教育对职业收入的作用,更好的发挥教育促进社会经济发展,提高个人职业收入的良性作用。

当然,这篇文章中的实证研究也存在一定的缺陷,由于cgss2008的数据缺少研究对象的工作地点这一变量,所以本文在分析时将被调查对象的社区居住类型作为研究对象的工作地点来考虑,但是在实际情况中,居住的地方不一定是他的工作地点,这是本文中的一个不足。另外,在对职业收入的影响因素中有一个重要变量工作经历,在cgss2008的数据中没有这一变量,也就没有加以分析。为了进一步提升研究的科学性,本文可以在以上几个方面进行努力改进。

参考文献

[1] 王云多.受教育水平与收入差距及相关影响因素[J].人口与经济,2010(3).

[2] 倪清燃.居民受教育水平对个人收入影响的实证分析[J].高等教育研究,2007(7).

[3] 王云多.教育水平差别对个人收入分配的影响[J].现代教育管理,2010(2).

[4] 傅雷.农民受教育水平与收入关系研究[D].浙江大学,2007(4).

[5] 薛进军 .高晓淳.再论教育对收入增长与分配的影响[J].中国人口科学,2011(2).

[6] (美)汉密尔顿(Hamilton,L)著,郭志刚等译.应用Stata做统计分析[M].重庆大学出版社,2008.

相关文档