文档库 最新最全的文档下载
当前位置:文档库 › 计量经济学第7章 含有定性信息的多元回归分析

计量经济学第7章 含有定性信息的多元回归分析

计量经济学第7章  含有定性信息的多元回归分析
计量经济学第7章  含有定性信息的多元回归分析

第7章含有定性信息的多元回归分析:

二值(或虚拟)变量

在前面几章中,我们的多元回归模型中的因变量和自变量都具有定量的含义。就像小时工资率、受教育年数、大学平均成绩、空气污染量、企业销售水平和被拘捕次数等。在每种情况下,变量的大小都传递了有用的信息。在经验研究中,我们还必须在回归模型中考虑定性因素。一个人的性别或种族、一个企业所属的产业(制造业、零售业等)和一个城市在美国所处的地理位置(南、北、西等)都可以被认为是定性因素。

本章的绝大部分内容都在探讨定性自变量。我们在第7.1节介绍了描述定性信息之后,又在第7.2、7.3和7.4节中说明了,如何在多元回归模型中很容易地包含定性的解释变量。这几节几乎涵盖了定性自变量用于横截面数据回归分析的所有流行方法。

我们在第7.5节讨论了定性因变量的一种特殊情况,即二值因变量。这种情形下的多元回归模型具有一个有趣的含义,并被称为线性概率模型。尽管有些计量经济学家对线性概率模型多有中伤,但其简洁性还是使之在许多经验研究中有用武之地。虽然我们在第7.5节将指出其缺陷,但在经验研究中,这些缺陷常常都是次要的。

7.1 对定性信息的描述

定性信息通常以二值信息的形式出现:一个人是男还是女;一个人有还是没有一台个人计算机;一家企业向其一类特定的雇员提供还是不提供退休金方案;一个州实行或不实行死刑。在所有这些例子中,有关信息可通过定义一个二值变量(binary variable)或一个0-1变量来刻画。在计量经济学中,对二值变量最常见的称呼是虚拟变量(dummy variable),尽管这个名称并不是特别形象。

在定义一个虚拟变量时,我们必须决定赋予哪个事件的值为1和哪个事件的值为0。比如,在一项对个

人工资决定的研究中,我们可能定义female为一个虚拟变Array量,并对女性取值1,而对男性取值0。这种情形中的变量

名称就是取值1的事件。通过定义male在一个人为男性时

取值1并在一个人为女性时取值0,也能刻画同样的信息。

这两种情况都比使用gender更好,因为这个名称没有指出

虚拟变量何时取值1:gender=1对应于男性还是女性?虽然

怎样称呼变量对得到回归结果而言并不重要,但它总有助于选择那些使方程和阐述都更清晰的变量。

表7.1 W AGE1.RA W中的局部数据列表

假设我们在工资的例子中已选择了female 来表示性别。此外,我们还定义了一个二值变量married ,并在一个人已婚时取值1,而在其他情况下取值0。表7.1给出了可能得到的一个数据集的部分列表。我们看到,第1个人为女性并且未婚,第2个人为女性并且已婚,第3个人为男性并且未婚,等等。

我们为什么要用数值0和1来描述定性信息呢?在某种意义上,这些值是任意的:用任意两个不同的数值都是一样的。使用0-1变量来刻画定性信息的真正好处,像我们将看到的那样,在于它导致回归模型中的参数有十分自然的解释。

7.2 只有一个虚拟自变量

我们如何在回归模型中引入二值信息呢?在只有一个虚拟解释变量的最简单情形中,我们只在方程中增加一个虚拟变量作为自变量。比如,考虑如下决定小时工资的简单模型:

.100u educ female wage +++=βδβ (7.1) 我们用0δ表示female 的参数,以强调虚拟变量参数的含义;以后,无论如何,我们还是使用最方便的符号。

在模型(7.1)中,只有两个被观测因素影响工资:性别和受教育水平。由于对女性female =1,而对男性female =0,所以参数0δ具有如下含义:给定同等受教育程度(和同样的误差项u ),0δ是女性与男性之间在小时工资上的差异。因此,系数0δ决定了是否对女人存在歧视:如果0δ<0,那么在其他因素的相同水平下,女人总体上挣得要比男人少。

用期望的术语来讲,如果我们假定了零条件均值假定E(u female , educ )=0,那么

0δ= E(wage female =1, educ )- E(wage female =0, educ ).

由于female =1对应于女性和female =0对应于男性,所以我们可以更简单地把这个模型写成

0δ= E(wage female , educ )- E(wage male , educ ). (7.2) 这里的关键在于,在两个预期中,受教育水平是相同的;差值0δ只是由于性别所致。

这种情况可以在图上描绘成男性与女性之间的截距迁移(intercept shift)。在图7.1中,给出了0δ<0的情形,从而男人比女人每小时都多挣一个固定的数量。这个差距与受教育水平无关,这就解释了为什么女人和男人的工资-受教育变化关系是平行的。

图7.1 .100u educ female wage +++=βδβ在0δ<0情况下的图示

这里,你可能想知道为什么我们没有在(7.1)中还包括一个虚拟变量male ,它对男性取值1和对女性取值0。原因在于,这样做是多余的。在(7.1)中,男性线的截距是0β,女性线的截距是0β+0δ。由于只有两组数据,所以我们只需要两个不同的截距。这意味着,除了0β之外,我们只需要一个虚拟变量;我们已经选择了针对女性的虚拟变量。由于female +male =1意味着male 是female 的一个完全线性函数,所以使用两个虚拟变量将导致完全多重共线性。包括两个性别的虚拟变量是所谓虚拟变量陷阱(dummy variable trap)中最简单的例子,当使用过多的虚拟变量来描述一定组数的数据时,就会掉进这种虚拟变量陷阱。我们以后还要讨论这个问题。

在(7.1)中,我们已经选择了男性为基组(base group)或基准组(benchmark group),即与之进行比较的那一组。这就是为什么0β表示了男性的截距,而0δ为女性与男性之间在截距上的差异。通过将模型写成

u educ male wage +++=100βγα,

我们就能选择女性为基组,其中女性的截距是0α,而男性的截距是0α+0γ;这意味着0α=0β+0δ和0α+0γ =0β。在任何一个实际应用中,我们如何选择基组都不重要,但重要的是,要保持基组不变。

有些研究者喜欢将模型中的总截距去掉,而将每一组的虚拟变量都包括进来。那么,这里的方程就是u educ female male wage +++=100βαβ,其中男人的截距是0β,女人的截距是0α。在这种情形下,因为没有总截距,所以不存在虚拟变量陷阱。但由于检验截距的差值更困难,而且对不含截距项的回归怎样计算R 平方没有一个一致同意的方法,所以这个表达式很少有人使用。因此,我们将总是引进一个总的截距项作为基组的截距。

当解释变量更多时并没有什么大的改变。取男性那一组为基组,除了控制受教育水平之外,还控制工作经历和现职任期的一个模型是

.exp 32100u tenure er educ female wage +++++=βββδβ (7.3) 如果educ 、exper 和tenure 都是相关的生产力特征,那么男人与女人之间没有差别的虚拟假设是H 0:0δ=0。对立假设是,对女人存在歧视H 1:0δ<0。

我们怎样才能对工资歧视进行实际检验呢?回答很简单:完全像从前那样用OLS 来估计模型,并使用通常的t 统计量。当某些自变量被定义为虚拟变量时,在OLS 的操作和统计理论方面都没有任何改变。迄今为止,唯一的改变是我们对虚拟变量系数的解释。

例7.1 小时工资方程

利用W AGE1.RAW 中的数据,我们估计模型(7.3)。目前,我们还是使用wage 而不是log(wage )作为因变量:

tenure er educ female ge a

w 141.0exp 025.0572.081.157.1?+++--= (0.72) (0.26) (0.049) (0.012) (0.021) (7.4) n =526, R 2=0.364.

负的截距(这里是男人组的截距)不是很有意义,因为样本中没有一个人具有接近于零年的educ 、exper 和tenure 。female 的系数则很有意思,因为它度量的是;在给定相同水平的educ 、exper 和tenure 的情况下,一个女人和一个男人之间每小时在工资上的平均差距。如果我们找到受教育水平、工作经历和现职任期相同的一个女人和一个男人,那么平均来看,女人每小时比男人要少挣1.81美元。(要记住,这可是用1976年的工资水平来度量的呀!)

重要的是记住,由于我们已经进行了多元回归并控制了educ 、exper 和tenure ,所以这1.81美元的工资差距不能由男人和女人之间在受教育水平、工作经历和现职任期水平上的平均差距来解释。我们可以断定,这1.81美元的差别,是由于性别或我们在回归中没有控制的与性别相关的因素所导致的。

将方程(7.4)中female 的系数,与把所有其他解释变量都从方程中去掉时所得到的系数估计值相比,是颇有意义的:

female ge a

w 51.210.7?-= (0.21) (0.30) (7.5) n =526, R 2=0.116.

(7.5)中的系数具有一个简单的解释。这个截距就是样本中男人的平均工资(令female =0),所以男人平均每小时挣7.10美元。female 的系数为女人和男人之间平均工资的差距。因此,样本中女人的平均工资是7.10-

2.51=4.59,或每小时4.59美元。(顺便提一下,样本中有274个男人和252个女人。)

方程(7.5)为男人和女人这两组之间进行均值比较检验提供了一个简单的方法。估计差别-2.51的t 统计量-8.37在统计上是十分显著的(当然-2.51在经济上也相当大)。一般而言,对一个常数和一个虚拟变量进行简单回归,是比较两组均值的直接方法。要通常的t 统计量生效,我们还必须假定同方差性,这就意味着,对男人和对女人而言,工资的总体方程是相同的。

由于方程(7.5)没有控制受教育水平、工作经历和现职任期上的差异,而且总体上说,在这个样本中,女人的受教育水平、工作经历和现职任期比男人要低些,所以估计出来的男女工资差异比(7.4)要大。方程(7.4)给出了性别工资差距在其他条件不变情况下更可靠的估计值;它仍显示出一个很大的差别。

在许多情形下,虚拟自变量都反映了个人或其他经济单位的选择(而不是诸如性别等预先决定的变量)。对于这种情形,因果关系的问题再度成为一个核心议题。在下面这个例子中,我们想知道,是否拥有个人计算机将导致更高的大学平均成绩。

例7.2 拥有计算机对大学GPA 的影响

为了决定拥有计算机对大学平均成绩的影响,我们估计了模型

,2100u ACT hsGPA PC colGPA ++++=ββδβ

其中虚拟变量在学生拥有一台计算机时取值1,而在其他情况下都取值0。出于各种原因,拥有PC 对colGP A 可能具有影响。一个学生的工作在计算机上完成的质量可能会更高一些,而且还因为不必在计算机房等待而节省了时间。当然,如果一个学生拥有一台PC ,他或她也可能会更热衷于电脑游戏或在网上冲浪,所以0δ并不明显为正。变量hsGP A (高中时的GPA)和ACT (能力测验分数)都是控制变量:能力越强的学生(用高中GPA 和ACT 分数来度量),越可能拥有一台计算机。我们控制这些因素是因为,我们想知道,如果我们随即抽取一个学生并给他一台个人计算机,那么拥有这台计算机对其colGP A 的平均影响。

利用GPA1.RAW 中的数据,我们得到

ACT hsGPA PC GPA l

co 0087.0447.0157.026.1?+++=

(0.33) (0.057) (0.094) (0.0105) (7.6) n =141, R 2=0.219.

这个方程意味着,一个拥有一台PC 的学生,预计其GPA 比一名条件相当但没有一台PC 的学生要高出0.16分(记住,colGP A 和hsGP A 都是以四分制度量的)。这个影响也是十分显著的,其t PC =0.157/0.57≈2.75。 如果我们从方程中去掉hsGP A 和ACT 会怎么样呢?显然,由于ACT 的系数和t 统计量都很小,所以去掉它几乎没有什么影响。但是hsGP A 十分显著,所以去掉它会影响到βPC 的估计值。将colGP A 对PC 进行

回归,给出PC 的系数估计值约为0.170,而标准误为0.063;在此情形下,PC

β?及其t 统计量不会改变太多。 在章末的习题中,要求你在方程中控制一些其他因素,以看拥有计算机的影响十分会消失,或至少大大变小。 前面的每一个例子都可视为有政策分析(policy analysis)的含义。在第一个例子中,我们对工作中的性别歧视感兴趣。在第二个例子中,我们考虑了拥有计算机对大学成绩的影响。项目评价(program evaluation)是一种特殊的政策分析,我们在项目评价中想了解的,是某些经济或社会项目对个人、企业、邻居、城市等的影响。

在最简单的项目评价中,把对象分为两组。对照组(control group)不参加这个项目,而试验组(experimental group)或处理组(treatment group)则参加。这些名称来自试验科学的文献,不应该从字面上进行理解。除非在极少数情形中,对对照组和处理组的选择都不是随机的。但在某些情况下,为了估计项目中的因果效应,可以使用多元回归分析来控制足够多的其他因素。

例7.3 培训津贴对培训小时数的影响

利用JTRAIN.RAW 中密歇根州制造企业在1988年的数据,我们得到如下估计方程:

)log(07.6)log(98.025.2667.46?employ sales grant mp e hrs --+=

(43.41) (5.59) (3.54) (3.88) (7.7) n =105, R 2=0.237.

因变量是在企业的水平上,对每个雇员进行培训的平均小时数。变量grant 是一个虚拟变量,1988年得到在职培训津贴的企业取值1,否则取值0。变量sales 和employ 则分别表示了企业的年度销售额和雇员人数。因为变量hrsemp 对回归中所用到的105个企业中的29个都取值0,所以它不能以对数形式进入回归方程。 变量grant 在统计是十分显著的,t grant =4.70。在控制了销售额和就业的情况下,得到津贴的企业平均对每个工人多培训26.25个小时。由于样本中平均每个工人培训的小时数约为17,最大值也只有164,所以grant 像预期的那样对培训具有很大的影响。

log(sales )的系数很小而且极不显著。log(employ )的系数意味着,如果一个企业扩大10%,那它对其工人的培训约减少0. 61个小时。其t 统计量为-1.56,只是处在统计显著的边缘上。

就像所有其他的自变量一样,我们需要知道,对一个定性变量所度量的影响是不是因果性的。在方程(7.7)中,得到津贴和没有得到津贴的企业之间在培训上的差异,是由于津贴的原因吗?接受津贴会不会只是其他什么情况的一种标示呢?那些得到津贴的企业可能在没有得到津贴的情况下,一般也会更多地培训其工人。这个分析中并没有哪里告诉我们,所估计的是一种因果效应;我们必须知道,企业得到津贴是如何决定的。我们只能希望,对于那些与企业是否得到津贴及其培训水平相关的因素,我们已经尽可能多地加以控制。

在第7.6节和以后章节里,我们将回到用虚拟变量作政策分析。

当因变量为log(y )时,对虚拟解释变量系数的解释

在应用研究中有一个常见的设定,当自变量中有一或多个虚拟变量时,因变量则以对数形式出现。在这种情况下,我们该如何解释虚拟变量的系数呢?无足为奇,此系数具有一种百分比解释。

例7.4 住房价格回归

利用HPRICE1.RAW 中的数据,我们得到方程

colonial bdrms sqrft lotsize ice r

p 054.0027.0)log(707.0)log(168.056.5)?log(++++= (0.65) (0.038) (0.093) (0.029) (0.045) (7.8) n =88, R 2=0.649.

除了二值变量colonial 之外,所有的变量都无须多加解释,如果住房是殖民地建筑风格的,则colonial =1。colonial 的系数有什么含义呢?对于给定的lotsize 、sqrft 和bdrms 的水平,一套殖民地建筑风格的住房与其

他风格的住房在)?log(ice r

p 上的差别是0.054。这意味着,保持其他因素不变的情况下,一套殖民地建筑风格的住房的卖价预计约高出5.4%。

这个例子表明,当log(y )是一个模型的因变量时,将虚拟变量的系数乘上100,可解释为y 在保持所有其他因素不变的情况下的百分比差异。当一个虚拟变量的系数表现出y 较大比例的变化时,那么,完全像第6.2节中对半弹性的计算一样,可以得到精确的百分比差异。

例7.5 对数小时工资方程

让我们将例7.1中工资方程的因变量换成log(wage ),并增加exper 和tenure 的二次项,来重新估计它:

er educ female age w

exp 029.0080.0297.0417.0)?log(++-= (0.099) (0.036) (0.007) (0.005)

2

200059

.0032.0exp 00058.0tenure tenure er -+- (7.9) (0.00010) (0.007) (0.00023)

n =526, R 2=0.441.

利用例7.4中同样的近似,female 的系数意味着,在educ 、exper 和tenure 的相同水平上,女人比男人约少挣100(0.297)=29.7%。通过计算预期工资上精确的百分比差异,我们可以做得比这更好。我们想得到的是,在保持所有其他因素都不变的情况下,女性与男性工资差异的比例:M M F ge a w ge a w ge a

w ?/)??(-。从(7.9)式,我们得到

297.0)?log()?log(-=-M F ge a w ge a

w 将它求指数函数并减去1则得到

M M F ge a w ge a w ge a

w ?/)??(-=exp(-0.297) -1≈-0.257.

这个更准确的估计值意味着,一个女人的工资比一个与她相当的男人的工资大致低25.7%。

如果我们在例7.4中进行同样的修正,我们将得到exp(0.054) -1≈0.555,或约5.6%。在例7.4中的修正比在工资一例中具有较小的影响,因为(7.8)虚拟变量系数的大小比(7.9)中虚拟变量系数要小得多。

一般地,如果1

?β是一个虚拟变量(比方说x 1)的系数,那么,当log(y )是因变量时,在x 1=1时预测的y 相对于在x 1=0时预测的y ,精确的百分比差异为

100?[exp(1

?β)]-1. (7.10) 估计值1

?β可正可负,重要的是,在计算(7.10)时保留了它的符号。

7.3 使用多个虚拟变量

我们可以在同一个方程中使用几个虚拟自变量。比如,我们可以在方程(7.9)中增加一个虚拟变量married 。married 的系数给出了,在保持性别、educ 、exper 和tenure 不变的情况下,那些已婚和未婚的人在工资上(近似)的比例差异。当我们估计这个模型时,married 的系数(标准误放在括号中)为0.053(0.041),female 的系数则变成-0.290(0.036)。于是,估计“婚姻加薪”约为5.3%,但在统计上并不显著异于零(t =1.29)。这个模型的一个重要局限在于,假定了婚姻加薪对男人和女人而言都是一样的;下面这个例子则放松了这个假定。

例7.6 对数小时工资方程

让我们估计一个工资对如下四组人都不同的模型:已婚男人、已婚女人、单身男人和单身女人。为了进行估计,我们必须选择一个基组;我们选择单身男人组。于是,我们必须对剩下的每一组都定义一个虚拟变量,并称之为marrmale 、marrfem 和singfem 。将这些变量代入(7.9)(当然要去掉现在多余的变量female )则给出

educ ingfem marrfem marrmale age w

079.0s 110.0198.0213.0321.0)?log(+--+= (0.100) (0.055) (0.058) (0.056) (0.007)

2200053.0029.0e 00054.0e 027.0tenure tenure xper xper -+-+ (7.11) (0.005) (0.00011) (0.007) (0.00023)

n =526, R 2=0.461.

除singfem 外,所有系数的t 统计量在绝对值上都远大于2。singfem 的t 统计量约为-1.96,相对双侧对立假设,刚刚在5%的显著性水平上显著。

为了解释虚拟变量的系数,我们必须记得,我们选择了单身男人组为基组。因此,三个虚拟变量的估计值度量的都是与单身男人相比,有工资的比例差异。比方说,在保持受教育水平、工作经历和现职任期不变的情况下,已婚男人约比单身男人多挣21.3%。[(7.10)中更精确的估计值约为23.7%。] 另一方面,在其他变量相同的情况下,预计一个已婚女人比一个单身男人少挣19.8%。

由于基组用(7.11)中的截距表示,所以我们只包括了四组中的三个作为虚拟变量。如果我们要在(7.11)中增加一个单身男人的虚拟变量,那我们将因导致完全共线性而陷入虚拟变量陷阱。某些回归软件包将自动为你修正这个错误,而其他一些软件包则只告诉你存在着完全共线性。最好是细心地设定虚拟变量,因

为它能使我们正确地解释最终的模型。

尽管单身男人组是(7.11)中的基组,但我们还是可以用这个方程来得到任意两组之间的估计差异。由于总体上的截距对每一组都是相同的,所以我们在找出差异时可以忽略它。因此,估计单身女人和已婚女人的差异约为-0.110-(-0.198)=0.088,这意味着单身女人比已婚女人约多挣8.8%。不幸的是,我们不能利用方程(7.11)来检验,单身女人和已婚女人之间的估计差异是否统计显著。仅知道marrfem 和singfem 的标准误还不足以进行这个检验(参见第4.4节)。最容易做到的是,选择二者之一作为基组,并重新估计这个方程。虽然没有什么明显的变化,但我们直接得到了我们所需要的估计值及其标准误。当我们用已婚女人组作为基组而重新估计时,我们得到

++++=ingfem ingfem marrmale age w s 088.0s 198.0411.0123.0)?log(

(0.106) (0.056) (0.058) (0.052)

当然,其中未报告的系数或标准误都没有变化。恰如所料,singfem 的估计值为0.088。现在,我们在得到这个估计值的同时也得到一个标准误。对于总体中已婚女人和单身女人的工资没有差异的虚拟假设,t 统计量为t singfem =0.088/0.052≈1.69。这只是拒绝虚拟假设的微弱证据。我们还看到,已婚男人和已婚女人的估计差异在统计上是十分显著的(t marrmale =7.34)。

前面这个例子说明了,在方程中包括虚拟变量来象征着不同组的一般原则:如果回归模型具有g 组或g

类的不同截距,那我们就需要在模型中包含g -1

个虚拟变量和一个截距。基组的截距就是总体上

的截距,某一组的虚拟变量的系数,则表示了该组与基组之间在截距上的估计差异。包括g 个虚拟变量和一个截距,将导致虚拟变量陷阱。另一种办法是包括个虚拟变量而没有总体截距,但如

果这样的话,检验相对基组的差异就变得困难,

所以这样做不够明智,某些回归软件包则在回归中没有包含截距项时改变计算R 平方的方法。

通过虚拟变量来包含序数信息

假设我们想估计城市信用等级对市债券利率(MBR)的影响。穆迪投资服务公司和标准普尔等几家金融公司,对地方政府债券的质量进行了级别评定,其等级取决于像违约概率等因素。(地方政府为降低其融资成本而喜欢较低的利率。)为简便起见,假设等级的范围是从零到四,零为最低的信用等级,四为最高的信用等级。这就是一个序数变量(ordinal variable)的例子。为简便起见,称这个变量为CR 。我们需要提出的问题是:我们如何将变量CR 放到一个模型中去解释MBR 呢?

一种可能是,就像包括所有其他解释变量一样把它包括进来:

MBR =β0+β1CR+其他因素,

其中我们没有明确说明模型中其他因素指的是什么。那么,β1就是保持其他因素不变,当CR 增加一个单位时MBR 的百分比变化。不幸的是,很难解释CR 一个单位的变化。我们知道多一年受教育水平或每个学生多花一美元所包含的数量信息,但像信用等级之类的变量,典型地只有序数上的含义。我们知道CR 为四比CR 为三更好,但四级与三级之间的差距与一级和零级之间的差距一样吗?如果不一样,假定CR 提高一个单位对MBR 的影响为一个常数就讲不通。

由于CR 只取相当少的几个数值,所以我们能使用的一个更好的方法是,对CR 的每个值都定义一个虚拟变量。因此,如果CR=1,则CR 1=1,否则CR 1=0;如果CR=2,则CR 2=1,否则CR 2=0;如此等等。实质上,我们把信用等级分为五个类别。然后,我们可以估计模型

MBR =β0+δ1CR 1+δ2CR 2+δ3CR 3+δ4CR 4+其他因素, (7.12)

根据我们在模型中包括虚拟变量的规则,由于有五个类别,所以我们包括四个虚拟变量。这里省掉的一类

是等于零的信用等级,所以它就是基组。(这就是为什么我们不需要

对这一类别定义一个虚拟变量。)系数都很容易解释:为信用等级为一级的城市和信用等级为零级的城市之间在MBR 上的差异(保持其他因素不变);为信用等级为二级的城市与信用等级为零级的城市之间在MBR 上的差异;如此等等。因为这里使得每两个信用等级

之间的变动都可能具有不同的影响,所以使用(7.12)比简单地将CR 作为一个单独变量代入方程更灵活。一旦定义了虚拟变量,估计则是相当容易的。

例7.7 相貌吸引力对工资的影响

Hamermesh 和Biddle(1994)在一个工资方程中使用了对相貌吸引力的某种度量。样本中的每一个人,都被面试主考官根据相貌的吸引力而归为五类(不好看、相当普通、一般水平、好看、特别漂亮或潇洒)中的某一类。因为很少有人处在两个极端上,所以作者将人分为三类进行回归分析:一般水平、低于一般水平和高于一般水平,其中一般化的那一组是基组。利用来自1977年就业质量调查中的数据,在控制了通常的生产力特征之后,Hamermesh 和Biddle 对男人估计了方程:

其他因素++-=abvavg belavg age w 016.0164.0?)?log(0

β (0.046) (0.033)

n =700, 2

R =0.403

并对女人估计了方程: 其他因素++-=abvavg belavg age w 035.0124.0?)?log(0

β (0.066) (0.049)

n =409, 2

R = 0.330.

回归中控制的其他因素包括受教育水平、工作经历、终身待遇、婚姻状况和种族等;对于更详尽的罗列,参见Hamermesh 和Biddle 文章中的表3。为节省篇幅,文章中未报告其他变量的系数和截距。

对于男人,那些相貌低于平均水平的人,在其他方面相同(包括受教育水平、工作经历、终身待遇、婚姻状况和种族)的情况下,预计比相貌处在平均水平的男人约少挣16.4%。这个影响在统计上显著异于零,t 统计量为-3.57。类似地,相貌高于平均水平的男人预计要多挣约1.6%,尽管这种影响在统计上并不显著(t<0.5)。

一个相貌低于平均水平的女人,比一个其他方面相当但相貌处在平均水平的女人约少挣12.4%, t 统计量为-1.88。与男人的情况一样,abvravg 的估计值在统计上并不显著异于零。

在某些情况下,序数变量取值过多,以致不能对每个值都包括进来一个虚拟变量。比如,文件LAWSCH85. RAW 包含了法学院毕业生起薪中位数的数据。一个关键的解释变量是法学院的排名。由于每个法学院都有一个排名,所以我们显然不能对每个排名都包括进来一个虚拟变量。如果我们不想直接把排名放到方程中,那我们就可以把它分成几类。下面这个例子就说明了这种做法。

例7.8 法学院排名对起薪的影响

定义虚拟变量top10, r11_25, r26_40, r41_60, r61_100,并让这些变量在排名落在相应的区间时取值1。我们以排名在100名以后的法学院为基组。所估计的方程是

+++++=60_41263.040_26375.025_11594.010700.017.9)?log(r r r top lary a

s (0.41) (0.053) (0.039) (0.034) (0.028)

)c log(0008.0)log(036.0014

.00057.0100_61132.0ost libvol GPA LSAT r ++++ (7.13) (0.021) (0.0031) (0.074) (0.026) (0.0251)

n =136, R 2=0.911,2

R = 0.905.

我们立即看到,所有根据不同排名定义的虚拟变量在统计上都十分显著。r61_100的估计值意味着,保持LSAT 、GP A 、libvol 和cost 不变的情况下,排名在61到100之间的法学院的毕业生,与排名在100之后的法学院的毕业生相比,起薪的中位数要高约13.2%。前10名的法学院与100名之后的法学院之间的差别就相当大了。使用方程(7.10)给出的精确计算,得到exp(0.700)-1≈1.014,所以,预计前10名法学院毕业生的起薪中位数比100名之后法学院毕业生的起薪中位数要高出100%以上。

将排名分成不同的组是否标志着一种改进呢?不妨将(7.13)中的调整R 平方与把排名作为一个单独变量时得到的调整R 平方相比较:前者是0.905,而后者是0.836,所以在(7.13)中增加了回归的灵活性。 有意思的是,一旦将排名放到(无可否认,多少有些随意)给定的分类中,所有其他的变量都变得不显著了。实际上,对LSAT 、GP A 、log(libvol )和log(cost )联合显著性的检验给出的p 值为0.055,介乎显著与不显著之间。当rank 以其原有形式被包括在模型中时,联合显著性检验的p 值在小数点后四位小数都是零。 对此例的最后一点的评论:在推导普通最小二乘性质的过程中,我们假定了我们使用的是随机样本。在本例中,一个学院的排名必然取决于样本中其他学院的排名,所以数据不能说是从所有法学院中独立抽取的,这就违背了上述假定。但由于误差项与解释变量不相关,所以不会导致任何严重问题。 7.4 涉及虚拟变量的交互作用

虚拟变量之间的交互作用

就像具有定量意义的变量在回归模型中可以交互作用一样,虚拟变量也能产生交互作用。在例7.6中我们其实已经看到了这样的一个例子,其中我们根据婚姻状况和性别定义了四个类别。事实上,我们可以在female 和married 分别出现的模型中,增加一个female 和married 的交互项(interaction term)而重建这个模型。这就使得婚姻对薪金的升水就像在方程(7.11)中那样与性别有关。为便于比较,所估计的、含有female -married 交互项的模型为

+?-+-=married female married female age w

301.0213.0110.0321.0)?log( (0.100) (0.056) (0.055) (0.072) (7.14) 其中回归的其余部分必定与(7.11)一样。方程(7.14)明确表明,性别和婚姻状况之间存在着统计显著的交互作用。这个模型还使我们能得到所有四组之间的预期工资差异,但这里我们必须小心地将0和1的组合代入。

取female =0和married =0,这就排除了female 、married 和female ?married ,所以对应于单身男人这个基组。通过在(7.14)中取female =0和married =1,就给已婚男人组的截距;这个截距是0.321+0.213=0.534。如此等等。

方程(7.14)不过是得到各种性别-婚姻状况组合之间工资差异的一种不同方法。它并不比(7.11)有什么真正的优势;实际上,方程(7.11)在检验任何一组与作为基组的单身男人组之间的差异时更容易些。

例7.9 计算机使用对工资的影响

Krueger(1993)估计了计算机使用对工资的影响。他定义了一个被称为compwork 的虚拟变量,此变量在一个人工作中使用了计算机时取值1。另一个虚拟变量comphome 则在一个人在家使用计算机时取值1。利用1989年人口普查中13379个人的样本,Krueger(1993,表4)得到

其他因素+?+++=comphome compwork comphome compwork age w 017.0070.0177.0?)?log(0

β (0.009) (0.019) (0.023) (7.15) (其他因素就是工资回归中的标准因素,包括受教育水平、工作经历、性别和婚姻状况等;准确的列表可参见Krueger 的论文。) Krueger 没有报告截距,因为它没有任何重要性;我们所需要知道的一切,就是由那些在工作中和在家都不使用计算机的人构成的基组。值得注意的是,在工作中使用计算机(但在家里不使用)者的估计回报约高出17.7%。(更精确的估计值是19.4%)类似地,一个在家里使用计算机但在工作中不使用的人,与那些根本就不使用计算机的人相比,工资约高出7%。在两种情况下都使用计算机的人,比那些在两种情况下都不使用计算机的人,工资约高出26.4%(通过将三个系数相加并乘以100而得到),从方程(7.10)得到这种工资差距更精确的估计值为30.2%。

(7.15)中的交互项在统计上不显著,在经济上也不是很大。但把它放在方程中也没有带来什么害处。

容许出现不同的斜率

我们现在已经看到了几个例子,表明在多元回归模型中容许任意几个组之间出现不同的斜率。在有些情况下,虚拟变量也可能与那些非虚拟的解释变量有交互作用,使得出现不同的斜率(differences in slopes)。继续看我们的工资一例,假设在男人和女人的工资之间存在着恒定的差别的情况下(我们已经得到这种差别的证据),我们还想检验男人和女人受教育的回报是否相同。为简单起见,我们在模型中只包括受教育水平和性别。哪种模型会既存在恒定的工资差别又存在受教育回报上的差别呢?考虑模型

log(wage )= (β0+δ0female )+( β1+δ1female )educ +u. (7.16) 如果我们在模型(7.16)中代入female =0,那我们就发现,男人这一组的截距是β0,而受教育的斜率是β1。对于女性,我们则代入female =1;于是其截距是β0+δ0,而斜率是β1+δ1。所以,δ0度量了男人和女人在截距上的差异,δ1而度量了男人和女人在受教育回报上的差异。δ0和δ1的符号有四种情形,图7.2给出了两种。

图7.2 方程(7.16)的图示。(a) δ0<0, δ1<0; (b) δ0<0, δ1>0.

图(a)表明了女人组的截距小于男人组,而且女人组直线的斜率也小于男人组的情形。这意味着,各种受教育程度的女人挣得都比男人少,而且其工资差距随着educ 的提高而扩大。图(b)表明了女人组的截距小于男人组,但女人组直线的斜率却大于男人组的情形。这意味着,女人在受教育水平很低的时候挣得比男人少,但随着受教育水平的提高,工资差距会逐渐缩小。到了一定的程度后,在给定相同的受教育水平的情况下,女人挣得可能比男人多(给定估计方程,这一点很容易求得。)

我们如何估计模型(7.16)呢?为了应用OLS ,我们必须写成一个含有female 和educ 乘积项的模型:

log(wage )= β0+δ0female +β1educ +δ1female ?educ +u (7.17) 现在,就可以从log(wage )对female 、educ 和female ?educ 的回归中估计出参数。在任何一个回归软件包中都能很容易地得到这个乘积项。不要被female ?educ 奇怪的性质所吓倒,对于样本中的每个男人,它都等于零,而对于样本中的每个女人,它都等于其受教育水平。

一个重要的假设是,男人和女人受教育的回报是相同的。就模型(7.17)而论,它被表述成H 0:δ1=0,它意味着log(wage )对educ 的斜率在男人和女人之间是相同的。注意,这个假设对截距上的差异δ0没有做任何限制。在这个虚拟假设之下,允许男人和女人之间存在工资差异,只是这种工资差异在各种相同的受教育水平上都必须相同。图7.1就描述了这种情况。

我们还对受教育水平相同的男人和女人的平均工资一样这个假设感兴趣。这意味着,在这个虚拟假设下,δ0和δ1都必须同时为零。在方程(7.17)中,我们必须使用F 检验来检验H 0:δ0=0,δ1=0。而在只有截距差异的模型中,因为H 1:δ0<0有力地拒绝了H 0:δ0=0,所以我们拒绝过这个假设。

7.10 对数小时工资方程

我们在(7.17)中增加工作经历和现职任期的二次式:

educ female educ female ge a

w ?-+-=0056.0082.0227.0389.0)?log( (0.119) (0.168) (0.008) (0.0131)

2200059.0032.000058.0029.0tenure tenure exper exper -+-+ (7.13) (0.005) (0.00011) (0.007) (0.00024)

n =526, R 2=0.441.

这个方程中估计男人的教育回报为0.082或8.2%。女人的教育回报是0.082-0.0056=0.0764或约7.6%。女人低-0.56%或刚超过半个百分点,在经济上不大,在统计上也不显著:t 统计量为-0.0056/0.0131≈-0.43。我们因此断定,没有证据能够拒绝男人和女人具有相同的教育回报这个假设。

female 的系数尽管在经济上仍然较大,但在通常的置信水平上不再显著(t=-1.35)。其系数及在不含交互项的方程中的t 统计量分别是-0.297和-8.25[参见方程(7.9)]。我们现在应该断定没有统计显著的证据拒绝女人在相同的educ 、exper 和tenure 时得到较低的回报吗?这将是一个严重的错误。由于我们已经在方程中增加了交互项female ?educ ,所以female 的估计系数与在方程(7.9)中的估计系数相比要欠准确得多:标准误几乎提高了5倍(0.168/0.036≈4.67)。其原因在于,female 和female ?educ 在样本中高度相关。在此例中,有一种考虑多重共线性的可取方法:在方程(7.17)和(7.18)中所估计的更一般的方程中,δ0度量了男人和女人在educ =0时的工资差异。由于样本中没有一个人具有甚至是接近于零年的受教育水平,所以我们在估计educ =0时的工资差异的过程中一度出现困难也就无足为奇(受教育水平为零年时的工资差异也不是很有信息含量)。更有意义的做法是,比方说在样本的平均受教育水平(12.5)上估计性别差异。为此,我们将以female ?(educ -12.5)取代female ?educ 并重新进行回归;这只会改变female 的系数及其标准误。(见习题7.15。)

如果我们对H 0:δ0=0,δ1=0计算F 统计量,那我们就得到F =34.33,对于一个分子df =2和分母df =518的F 随机变量而言,这是一个相当巨大的值:p 值在小数点后四位都是零。最后,我们宁可选择表明了男女间存在一个不变的工资差异的模型(7.9)。

作为一个涉及到交互项的更复杂的模型,我们现在来看看种族和城市的种族构成,对大型棒球俱乐部中的运动员薪水的影响。

例7.11 种族对棒球运动员薪水的影响

针对330个大型俱乐部的棒球运动员估计了如下方程,并有其所在城市种族构成的统计量可供使用。变量black 和hispan 都是每个运动员的二值指标。(基组是白人运动员。)变量percblck 是该队所处城市中黑人的百分比,而perchisp 是西班牙裔的比例。其他的变量则度量了运动员在生产力和资历的某些方面。这里,我们感兴趣的是,在控制了这些其他变量后种族的影响。

除了在方程中包括black 和hispan 外,我们还增加了交互项和black ?percblck 和hispan ?perchisp 。所估计的方程是

h r u n s y r b a v g g a m e s y r y e a r s l a r y a

s 0146.000095.00089.00673.034.10)?log(++++= (2.18) (0.0129) (0.0034) (0.00151) (0.0164)

b l a

c k a l l s t a r f l

d p

e r c r u n s y r r b i s y r 198.00075.00011.00072.00045.0-++++ (7.19)

(0.0076) (0.0046) (0.0021) (0.0029) (0.125)

p e r c h i s p h i s p a n p e r c b l c k b l a c k h i s p a

n ?+?+-0201.00125.0190.0 (0.153) (0.0050) (0.0098)

n =330, R 2=0.638

我们首先应该检验,black 、hispan 、black ?percblck 和hispan ?perchisp 这四个种族变量是否联合显著。使用这同样的330个运动员,在去掉这四个种族变量后的R 平方为0.626。由于这里有四个约束,而且不受约束模型的df =330-13,所以F 统计量约为2.63,这就得到一个等于0.034的p 值。所以,这些变量在5%的水平上是联合显著的(尽管在1%的水平上不是)。

我们如何解释这些种族变量的系数呢?在以下的讨论中,所有的生产力因素都保持不变。首先,在保持perchisp 不变的情况下,看看黑人运动员会怎么样。black 的系数-0.198确实意味着,如果一名黑人运动员在一个没有黑人的城市里(percblck =0),那么这个黑人比一个条件相当的白人少挣约19.8%。随着percblck 的提高(由于perchisp 保持不变,所以这意味着白人减少),黑人的薪水相对白人的薪水逐渐增加。在一个拥有10%的黑人的城市里,黑人的log(salary )比白人小-0.198+10 (0.0125)= -0.073,所以在这样一个城市里,黑人的薪水比白人约少7.3%。当percblck =20%时,黑人挣得比白人还要高出5.2%。黑人比例最高的城市达到74%(底特律)。

类似地,西班牙人在那些西班牙人比例很低的城市里挣得也比白人少。但我们很容易就能得到使白人和西班牙人的工资差异为零的perchisp :必须使-0.190+0.0201perchisp =0,即perchisp =9.45。对于那些西班牙人比例低于9.45%的城市而言,预计西班牙人挣得比白人少(给定黑人人口数),反之,如果西班牙人数超过9.45%,则预计西班牙人挣得比白人多。22个样本城市中有12个城市的西班牙人占总人口的比例不足6%。西班牙人的最大比例约为31%。

我们如何解释这些结论呢?我们不能简单地宣称,存在对黑人和西班牙人的歧视,因为在那些少数民族聚居的城市里,白人挣得比黑人和西班牙人还要少。城市种族构成对薪水的重要性可能源于运动员的偏好:可能最好的黑人运动员不成比例地居住在那些黑人较多城市,而最好的西班牙籍运动员则倾向于居住在那些西班牙人较多的城市里。(7.19)中的估计值使我们能够确定存在某种关系,但我们不能辨别这两个假设。

检验不同组之间回归函数上的差别

上例说明,虚拟变量与其他自变量的交互可成为一个强有力的工具。有时候,我们想检验的虚拟假设是,两个总体或两组具有同一个回归函数,而对立假设是,各组间有一或多个斜率是不同的。我们在第13

章讨论跨时横截面的混合时,还将看到这样的例子。

假设我们想检验,是否有一个相同的回归模型来描述大学男女运动员的大学GPA 。这个方程是

,3210u tothrs hsperc sat cumgpa ++++=ββββ

其中sat 是SAT 分数,hsperc 是高中的排名百分位,而tothrs 则是大学课程的总学时数。我们知道,为了出现不同的截距,可以包括男性或女性的一个虚拟变量。如果我们想让某个斜率取决于性别,那我们只须在方程中包括一个适当变量与(比方说)female 的乘积。

如果我们想检验男人和女人之间是否存在差异,那我们就必须容许模型的截距和斜率在两组间都不同: , 33221100u tothrs female tothrs hsperc female hsperc

sat female sat female cumgpa +?++?++?+++=δβδβδβδβ (7.20)

参数δ0是女人组和男人组之间在截距上的差异,而δ1则是男女之间在sat 的斜率上的差异,等等。男人和女人的cumgpa 都遵循同一个模型的虚拟假设表述为

H 0:δ0=0,δ1=0,δ2=0 (7.21) 如果这些δj 中有一个异于零,那么这个模型在男人和女人之间就是不同的。

利用文件GPA3.RAW 中春季学期的数据,完整的模型被估计为

.

394.0,406.0,366 (0.00163)

(0.0009) (0.00316) 00012.00023.000055.0 (0.0014)

(0.00039) (0.0002) (0.411) (0.21) 0085.000075.00011.0353.048.1?22===?-+?--?++-=R R n tothrs

fem ale tothrs hsperc fem ale hsperc

sat fem ale sat fem ale gpa m cu (7.22) 女性虚拟变量很显著,但没有一个交互项是显著的;只有交互项female ?sat 的t 统计量接近于2。但我们知道,检验像(7.21)这样的一个联合假设,最好不要使用个别t 统计量。为了计算F 统计量,我们必须估计去掉female 和所有交互项后的受约束模型;这样就得到一个约等于0.352的R 2(受约束的R 2),因而F 统计量约为8.14;p 值在小数点后五位都等于零,这就使我们能有力地拒绝(7.21)。因此,尽管(7.22)中表明男女有别的每一项,个别地看,在5%的显著性水平上都是不显著的,但男女运动员的GPA 模型确实不同。

female 和交互项的标准误较大,这使我们很难准确地讲,男女之间到底有什么不同。由于在得到男女差别时必须考虑交互项,所以我们必须极其小心地解释方程(7.22)。如果我们只看变量female ,我们将错误地得到如下结论:保持其他因素不变,女人的cumgpa 将比男人少约0.353。它只是在设sat 、hsperc 和tothrs 都等于零时所得到的估计差异,而这种情况并不是很有意义。在sat =1100、hsperc =10和tothrs =50时,预计女人和男人之间的差异为-0.353+0.00075(1100) -0.00055(10) -0.00012(50)≈0.461。也就是说,预计女运动员的GPA 比同等条件的男运动员约高出半分。

在一个包含sat 、hsperc 和tothrs 三个变量的模型中,添加所有的交互项来检验组间差别则相当容易。在某些情况下,会涉及到更多的变量,那么,另有一种计算统计量的方法也很方便。它表明,即使在涉及到许多自变量时,也能很容易地计算F 统计量的残差平方和。

在含有k 个解释变量和一个截距项的一般模型中,假设有两组,称为g =1和g =2。我们想检验这两组的截距和所有的斜率都相同。对g=1和g=2将模型写成

,,22,11,0,u x x x y k k g g g g +++++=ββββ (7.23) 假设(7.23)中两组间的每个β都相同就产生了k +1个约束(在GPA 一例中,k +1=4)。我们可以认为不受约束模型除了截距和变量本身外,还有一组虚拟变量和交互项,那么其自由度就是n -2(k +1)。[在GPA 一例中,n - 2(k +1)=366-2(4)=358。] 迄今为止,还没有什么新东西。关键是要洞察到,不受约束模型的残差平方和可通过两个分离的回归得到,这两个不同回归分别对应着两个不同的组。令SSR 1表示针对第一组估计(7.23)

所得到的残差平方和;它涉及到n 1个观测。令SSR 2表示针对第二组估计(7.23)所得到的残差平方和(n 2个观测)。在上例中,若第一组为女性,则n 1=90,n 2=276。现在,不受约束模型的残差平方和无非就是SSR ur = SSR 1+ SSR 2。而受约束模型的残差平方和也就是将两组混合并估计一个方程时所得到的SSR 。一旦我们得到了这些,就可以像平常那样计算F 统计量:

1)]1(2[)]([2

121++-?++-=k k n SSR SSR SSR SSR SSR F (7.24) 其中n 为总观测次数。在计量经济学中,通常将这个特定的F 统计量称为邹至庄统计量(Chow statistic)。 为了在GPA 一例中应用邹至庄统计量,我们需要将两组混合之后做回归所得到的SSR :即SSR r =85.515。样本中90个女人的SSR 为SSR 1=19.603,而男人组的SSR 则为SSR 2=58.752。因此,SSR ur =19.603+58.752= 78.355。F 统计量就是[(85.515-)/78.355](358/4)≈8.18;当然,考虑到四舍五入的误差,这就是我们在包含和不包含交互项的两个模型中,用R 平方的检验形式所得到的数值结果。(提醒一句:如果对每一组都分别估计一个回归,就不存在简单的R 平方的检验形式;只有通过包括交互项来构造不受约束模型时,才能使用R 平方的检验形式。)

无论用什么方法进行邹至庄检验,它都有一个重要的局限,即虚拟假设要求各组之间不存在任何差异。在更多的情况下,容许组间的截距不同再来检验斜率的差别会更有意义;我们已经在例7.10的工资方程中看到了一个这样的例子。为此,我们必须将交互项直接放到方程中,并检验所有交互项的联合显著性(不去约束截距项)。在GPA 一例中,我们现在取虚拟假设为H 0:δ1=0,δ2=0,δ3=0。(虚拟假设不对δ0进行约束。)这三个约束的F 统计量约为1.53,它给出的p 值等于0.205。因此,我们不能拒绝虚拟假设。 不能拒绝交互项的参数都为零的假设,表明最好的模型就是只容许截距的不同:

(0.0012) (0.0002) (0.059) (0.18) 0084.00012.0310.039.1?hsperc sat female gpa m cu -+-= (7.25) (7.25)中的斜率系数接近于(7.22)中基组(男性)的斜率系数;去掉交互项几乎没有什么变化。但(7.25)中的female 是高度显著的:其t 统计量超过了5,而这个估计值意味着,在给定sat 、hsperc 和tothrs 的水平时,预计一名女运动员的GPA 要比一名男运动员的GPA 高0.31分。这实际上是一个十分重要的差异。

7.5 二值因变量:线性概率模型

到目前为止,我们已经学习了多元线性回归模型的许多性质和应用。我们在以上几节中学习了如何通过二值自变量的使用,使得定性信息成为一个多元回归模型中的解释变量。在迄今为止的所有模型中,因变量y 都具有定量的含义(比如,y 表示美元的数量、一项考试的分数、一种百分比,或这些变量的对数)。如果我们想用多元回归来解释一个定性事件,结果会怎么样呢?

在实践中经常遇到的最简单情形中,我们想解释的事件是二值结果。换句话说,我们的因变量y 只取两0和1两个值。比如,可以定义y 表示一个成年人是否受过高中教育;或者用y 表示一个大学生在某给定的学年中是否用过非法的毒品;或者用y 表示一个企业在某给定年份是否接管了另一个企业。在上述每一例中,我们都可以令y =1表示一种结果,而表示y =0另一种结果。

当我们写出

,22110u x x x y k k +++++=ββββ (7.26) 这个多元回归模型(其中y 是一个二值变量)时,它有什么含义呢?由于y 只能取两个值,所以βj 就不能把理解为,在保持所有其他因素不变的情况下,给定x j 一个单位的提高,导致y 的变化量:y 要么从0变化到1,要么从1变化到0。尽管如此,我们仍然能对βj 做出有用的解释。如果我们假定零条件均值假定MLR.3成立,即E(k x x u ,,1 )=0,那么我们会像往常一样得到

E(x y )=.22110k k x x x ββββ++++

其中x 是所有解释变量的简单记法。

关键的一点是,当y 是一个取值0和1的二值变量时,“成功”的概率P(x y 1=)=E(x y ) (7.25)(即y =1的概率)等于y 的期望值总是成立的。于是,我们得到一个重要的方程 P(x y 1=)=.22110k k x x x ββββ++++ (7.27)

它说明成功的概率p (x )= P(x y 1=)是x j 的一个线性函数。方程(7.27)是二值响应模型的一个例子,而P(x y 1=)也被称为响应概率(response probability)。(我们在第17章还将讨论其他的二值响应模型。) 由于概率和必须等于1,所以P(x y 0=)=1- P(x y 1=)也是x j 的一个线性函数。

因为这个响应概率是参数βj 的线性函数,所以这种带有二值因变量的多元线性回归模型又被称为线性概率模型(linear probability model)LPM 。在LPM 中,在保持其他因素不变的情况下,βj 度量了因x j 的变化导致成功概率的变化:

.)1(j j x x y P ?==?β (7.28) 有了这些,我们就能使用多元回归模型来估计各个解释变量对定性信息的影响。OLS 机制也和从前一样。 如果我们把所估计的方程写成

,?????22110k

k x x x y ββββ++++= 那我们现在必须记住,y ?就是预计的成功概率。因此,0

?β就是在每个x j 都等于0时预计的成功概率,它可能有意义,也可能没有什么意义。斜率系数1

?β度量的是,当x 1提高一个单位时,成功概率的预期变化。 为了正确地解释线性概率模型,我们必须了解,“成功”是由什么构成的?因此,最好给因变量取一个能描述事件y =1的名字。举例而言,令inlf (“参与劳动市场”)为表示已婚妇女在1975年的劳动力参与状况的一个二值变量:如果一位妇女报告称她在该年度的某个时候曾为了工资而在家庭以外工作过,则inlf =1,否则,inlf =0。我们假定劳动力参与还取决于收入的其他来源,包括丈夫的收入(nwifeinc , 以千美元计)、受教育年数(educ )、过去在劳动力市场的年数(exper )、age 、年龄低于6岁的子女数(kidslt6)和年龄介于6到18岁之间的子女数(kidsge6)。利用Mroz(1987)中的数据,我们估计了如下线性概率模型,其中,753个妇女的样本中有428个人曾在1975年的某个时间参加过劳动:

.

264.0,753 (0.0132)

(0.034) (0.002) (0.00018) 60130.06262.0016.000060.0

(0.006) (0.007) (0.0014) (0.154) 039.0038.00034.0586.0?22

==+---++-=R n kidsge kidslt age exper exper

educ nwifeinc f l in (7.29) 利用通常的t 统计量,(7.29)中除kidsge6外的所有变量都是统计显著的,而且所有统计显著的变量都具有基于经济理论(或常识)所预期的影响。

为了解释这些估计值,我们必须记得,因变量的变化改变了inlf =1的概率。比如,educ 的系数意味着,

保持(7.29)中所有的其他因素都不变,多受一年教育使参与劳动市场的概率提高0.038。如果我们直接看这个方程,多受10年教育会使参加劳动力的概率提高0.038(10)=0.38,这是概率上一个相当大的提高。图7.3描出了劳动力参与概率与educ 之间的关系。为便于说明,其他的自变量固定在nwifeinc =50、exper =5、age =30、kidslt6=1和kidsge6=0的水平上。直到受教育年数达到3.84年,才会使预期的概率为负。由于样本中没有那个妇女的受教育年数低于5年,所以,这也不会引起太多的担心。所报告的受教育年数最高达到17年,这就使预期的概率达到0.5。如果我们让其他自变量取不同的数值,预期概率的范围也会随之变化。但多受一年教育对劳动力参与概率的边际影响总是0.038。

图7.3 在其他解释变量不变的情况下,参与劳动市场的概率与受教育年数之间的估计关系

nwifeinc 的系数意味着,如果? nwifeinc =10(意味着提高10000美元),那么这位妇女参与劳动的概率就下降0.034。由于以1975年美元计收入提高10000美元是相当大的,所以这个影响不是特别大。工作经历以二次式出现,使得过去的工作经历对劳动力参与概率具有递减的影响。保持其他因素不变,概率的估计变化近似为0.039-2(0.0006)exper =0.039-0.0012 exper 。过去的工作经历对劳动力参与概率没有影响的点为0.039/0.0012=32.5,这种工作经历的水平是很长的:样本中的753个妇女中,只有13个人的工作经历超过32年。

与较年长子女的个数不同,年幼子女的个数对劳动力参与具有巨大的影响。在给定其他变量水平的情况下,多一个不足6岁子女,使参与劳动的概率减少0.262。样本中,只有不足20%的妇女有一个或一个以上年幼子女。

此例说明了,如何轻而易举地估计和解释线性概率模型,但它也表现出LPM 的某些缺点。首先,很容易看到,如果我们在(7.29)中代入自变量的某些特定组合数值,就能得到小于0或大于1的预测值。由于这些预测值都是概率,而概率必须介于0到1之间,所以这就有些尴尬。比如,预计一个妇女参与劳动的概率为-0.10,它的含义是什么?实际上,样本中的753个妇女中,从(7.29)中得到16个拟合值小于0,17个拟合值大于1。

一个相关的问题是,概率不可能与自变量所有的可能值线性地相关。比如,(7.29)预测,从0个子女增加到一个年幼子女的影响,使母亲参与劳动的概率下降0.262。如果这位妇女从一个年幼子女增加到两个,那么概率的预期下降也是这么多。看起来更现实的情况是,第一个小孩使参与工作的概率下降很多,而以后增加的子女则具有越来越小的边际影响。实际上,极端地看,(7.29)意味着,从0个年幼孩子增加到4个,

使工作参与的概率减少048.1)4(262.0)6(262.0?==?=?kidslt lf n

i ,但这是不可能的。

即便有这些问题,线性概率模型仍很有用处,并常常应用于经济学中。它通常对自变量取值在样本均值附近特别奏效。在劳动力参与一例中,样本中没有一个妇女有四个孩子;实际上,只有三个妇女有三个孩子。96%以上的妇女要么没有孩子,要么只有一个孩子。所以我们在解释所估计的方程时,也许应该仅关注这种情况。

在我们想做预测时,预测的概率超出单位区间会有一些问题,但这种情况很少会成为分析的核心。通常,我们想知道特定变量在其他条件不变的情况下对概率的影响。

由于y 的二值特性,所以线性概率模型确实违背了一个高斯-马尔科夫假定。当y 是一个二值变量时,其以x 为条件的方差为

)],(1)[()(x p x p x y Var -= (7.30) 其中p (x )为成功概率的简记:p (x )= k k x x x ββββ++++ 22110。这意味着,除非在概率与任何一个自变量都不相关,否则,线性概率模型中就一定存在着异方差性。我们从第3章知道,这不会导致βj 的OLS 估计量出现偏误。但我们又从第4和5章知道,即使在大样本的情况下,同方差性对通常的t 和F 统计量是否正确而言都至关重要。我们还将在第8章说明,如何针对这种异方差性来修正标准误。最终表明,在许多应用研究中,通常的OLS 统计量并非离谱,并且在应用研究中对线性概率模型进行标准的OLS 分析仍是可接受的。

例7.12 拘捕率的一个线性概率模型

令arr86为一个二值变量,若一个人在1986年间曾被拘捕过则取值1,否则取值0。总体是1960或1961年在加利福尼亚出生并在1986年以前至少被拘捕过一次的青年人群。刻画arr86的一个线性概率模型就是

arr86=,8686543210u qemp ptime tottime avgsen pcnv ++++++ββββββ

其中pcnv 表示以前被捕后定罪的比例,avgsen 表示以前定罪后关进监狱的平均时间长度(以月为单位),tottime 表示从18岁到1986年坐牢的总月数,ptime86表示1986年坐牢的总月数,而qemp86则表示此人1986年合法就业的季度数。

我们利用了CRIME1. RAW 中的数据,这些数据在例3.5中也曾用过。现在,因为样本中只有7.2%曾不止一次被拘捕,我们使用了一个二值因变量。约27.7%的人在1986年被拘捕至少一次。所估计的方程是

.

0474.0,2725 (0.005)

(0.005) )0050.0(86043.086022.00023

.0(0.0065)

(0.021) (0.017) 0061.0162.0441.086? 2==---+-=R n qem p ptim e tottim e avgsen

pcnv r ar (7.31) 截距0.441表示了,一个从未定过罪(所以pcnv 和avgsen 都等于0)、18岁以后从未坐过牢、1986年也没有进过监狱、而且整个1986年从未就业的人,预计会被拘捕的概率。无论个别地看还是联合地看,变量avgsen 和tottime 都不显著(F 统计量给出的p 值为0.347),而且如若说更长期的判刑能阻止犯罪的话,avgsen 的符号则有些违背我们的直觉。Grogger(1991)利用这些数据的一个超集和一个不同的计量方法,发现tottime 对拘捕概率有统计显著的正影响,并认为tottime 就是对犯罪活动中形成的人力资本的一种度量。

虽然定罪概率的提高确实能降低拘捕概率,但我们在解释这个系数的大小时必须小心。变量pcnv 是介于0和1之间的一个比例;于是,pcnv 从0变化到1实际上意味着,从没有可能被定罪到必然被定罪。即便是这么大的变化,也只能使拘捕概率减小0.162;pcnv 提高0.5使拘捕概率减小0.081。

监禁的影响由ptime86的系数给出。如果一个人在坐牢,那他就不可能被拘捕。由于ptime86是以月为

单位度量的,所以在监狱里多呆六个月,会是拘捕概率减少0.022(6)=0.132。方程(7.31)还给出了线性概率模型不是对所有自变量值都成立的另一个例子。如果一个人在1986年的12个月里都在坐牢,那他在1986年就不可能被拘捕。取所有其他变量的值为0,在ptime86=12时预期被拘捕的概率为0.441-0.022(12)=0.177,而不是0。不过,如果我们从拘捕的无条件概率0.277开始,那么,12个月的监禁则使拘捕概率基本下降到0:0.277-0.022(12)=0.013。

最后,就业也显著降低拘捕概率。在所有其他因素不变的情况下,一个四季度都在工作的人,与一个完全不工作的人相比,被拘捕的可能性降低0.172。

我们还可以在含有虚拟因变量的模型中引入虚拟自变量。其系数度量了虚拟变量从0变化到1而导致成功概率的预期变化。比如,如果我们在拘捕方程中增加两个种族虚拟变量black 和hispan ,则得到

.

0682.0,2725 (0.021)

(0.024) (0.005) )005.0( 096.0170.086038.086024.0 (0.0049)

(0.0064) (0.021) (0.019) 0026.00046.0152.0380.086? 2==++---+-=R n hispan black qem p ptim e

tottim e

avgsen pcnv r ar (7.32) 其中的系数意味着,在所有其他因素保持不变的情况下,一个黑人比一个白人(基组)被拘捕的概率要高出0.17。换个说法就是,黑人比白人被拘捕的概率高17个百分点。这个差别还是统计显著的。类似地,西班牙人比白人被拘捕的概率也要高0.096。

7.6 对政策分析和项目评价的进一步讨论

我们已经看到一些可用于政策评价的含虚拟变量的模型。例7.3给出了一个项目评价的例子,其中某些企业得到了在职培训津贴,而其他企业则没有。

像我们前面提到的那样,由于在社会科学的多数例子中,对照组和处理组并不是随机指定的,所以我们在评价一个项目时还必须十分小心。再次考虑Holzer 等人(1993)的研究,我们现在感兴趣的是在职培训津贴对工人生产力(而不是在职培训的数量)的影响。我们所关心的方程是

log(scrap )=β0+β1grant +β2log(sales )+ β3log(employ )+u,

其中scrap 表示企业的废弃率,后两个变量作为控制变量包括进来。二值变量grant 表示企业在1988年是否得到了在职培训津贴。

在我们看估计值之前,我们可能担心,一些影响工人生产力的观测不到的因素(如所受教育、能力、工作经历和现职任期的平均水平等)可能会与企业能否得到津贴相关。Holzer 等人指出,津贴采取先到先供应的方式发放。但这并非等同于随机发放。工人生产力较低的企业可能看到了提高生产力的机会,并更加致力于申请津贴。

利用JTRAIN.RAW 中1988年的数据——当时企业实际上更适合于得到津贴,我们得到

072.0R 50,n

(0.365) (0.373) (0.431) (4.66) )

log(639.0)log(455.0052.099.4)?log(2==+--=employ sales grant crap s (7.33) (50个企业中的17个得到了培训津贴,而所有企业的平均废弃率为3.47%。)grant 的点估计值-0.052意味

着,给定sales 和employ 的情况下,得到津贴的企业的废弃率比没有得到津贴的企业约低5.2%。在培训津贴有效的情况下,虽然估计的方向与预期影响的方向一致,但其t 统计量相当小。因此,通过对这个横截面的分析,我们必须承认,津贴对企业的生产力没有影响。我们在第9章还会回到这个例子上来,并说明如何通过增加上一年度的信息而导致极为不同的结论。

即便在政策分析没有涉及到将各个单位指派到对照组和处理组的情形中,我们也必须警惕包含了那些可能与所关心的二值自变量系统相关的因素。这方面的一个很好的例子就是对种族歧视的检验。种族是一个不能由个人和政府官员所决定的因素。实际上,一个人在出生时就决定了其种族,所以种族看上去是外生变量的一个很好的例子。然而,基于历史原因,事实并非如此:各种族之间在背景上存在着系统的差异,而这些差异在检验当前的歧视时又相当重要。

作为一个例子,考虑对贷款许可中歧视问题的检验。如果我们能搜集到个人抵押贷款申请方面的数据,那么我们就能定义一个虚拟变量approved :若申请得到批准,则取值1,否则取值0。各种族在批准率上的系统差异就是歧视的一个指标。但由于批准贷款取决于许多其他因素,包括收入、财富、信用等级和偿还贷款的一般能力等,所以,如果这些因素在各种族间存在着系统差异,我们就必须对其加以控制。一个检验歧视问题的线性概率模型可能就具有如下形式:

approved =β0+β1nonwhite +β2income + β3wealth +β4credrate+其他因素

由于β1表示的是,给定方程中其他因素的水平不变,非白人得到许可的概率与白人得到许可的概率之间差异的大小,所以,拒绝H 0:β1=0而支持H 1:β1<0就表明对少数民族存在歧视。如果income 、wealth 等在各种族间存在系统差异的话,那么,在一个多元回归分析中对这些因素加以控制就很重要。

政策和项目评价中时常出现的另一个问题是,个人(或企业或城市)选择是否参与某特定的行为和项目。比如,个人对使用非法毒品和喝酒的选择。如果我们想考查这种行为对失业状况、收入和犯罪行为的影响,那我们就应该考虑,毒品的使用可能与其他能影响就业和犯罪结果的因素相关。适合于智力开发一类项目的孩子,其是否参与取决于父母的决策。由于家庭背景在智力开发决策中有重要作用并影响学生的未来,所以我们在考查智力开发项目的影响时,应该控制这些因素[比如,参见Currie and Thomas(1995)]。雇主和政府机构选拔参与在职培训项目的个人,都既可以参与又可以不参与,而是否参与不太像是随机的

[比如,参见Lynch(1991)]。城市和州也可以选择是否实施某特定的枪支管制法律,而且这个决策也可能与那些影响暴力犯罪的因素系统相关[比如,参见Cleck and Patterson(1993)]。

上一段给出的几个例子在经济学中一般被称为自选择(self-selection)问题。照字面理解,这个词来自个人自己选择加入某种行为或项目的事实:参与并不是随机决定的。这个术语一般用于,参与的二值指标可能与无法观测因素系统相关的情况。于是,如果我们写出一个简单的模型

,10u partic y ++=ββ (7.34) 其中y 是一个结果变量,而partic 是一个二值变量。而且如果一个人、一个企业或一个城市参与一种行为、一个项目或有某种法律,这个二值变量就取值1。这样一来,我们担心的是,u 的平均值取决于参与决策:E(u partic =1)≠E(u partic =0)。正如我们所知,这会导致1β的简单回归估计量产生偏误,所以我们不能发现参与的真正影响。因此,自选择问题是说明解释变量(这里就是partic )能够内生的另一种方法。

到目前为止,我们知道多元回归分析在某种程度上可以缓解自选择问题。(7.34)中误差项所包含的与partic 相关的因素可以包括在一个多元回归方程中,当然,需要假定我们能搜集这些因素的数据。不幸的是,在许多情形中,我们担心观测不到因素与参与变量相关,在这种情况下,多元回归会导致有偏误的估计量。

在利用横截面数据进行多元回归分析时,我们必须警惕,因自选择问题而得到项目对结果变量的谬误影响。Currie and Cole(1993)中就包含了一个很好的例子。这两位作者考查了参与AFDC (对有子女家庭的的援助计划)对孩子出生时重量的影响。即便在控制了家庭和背景特征的一系列变量之后,作者得到的OLS 估计量仍意味着,参与AFDC 会降低孩子出生体重。正像作者所指出的那样,很难相信AFDC 参与本身会导致出生体重降低。[另外一个例子,可参见Currie(1995)。] 利用我们在第15章将讨论的另一种计量经济

计量经济学·多元线性回归模型

计量经济学·多元线性回归模型

2006年 217656.6 77597.2 63376.86 2007年 268019.4 93563.6 73300.1 2008年 316751.7 100394.94 79526.53 2009年 345629.2 82029.69 68618.37 2010年 408903 107022.84 94699.3 2011年 484123.5 123240.56 113161.39 2012年 534123 129359.3 114801 2013年 588018.8 137131.4 121037.5 2014年 636138.7 143911.66 120422.84 数据来源:国家统计局 三、模型的检验及结果的解释、评价 (一)OLS 法的检验 相关系数: Y X1 X2 Y 1 0.9799919175967026 0.98352422945 0628 X1 0.97999191759 67026 1 0.99756527944 46187 X2 0.983524229450628 0.99756527944 46187 1 线性图: 100,000 200,000300,000400,000500,000600,000700,000Y X1 X2 估计参数: Dependent Variable: Y

Method: Least Squares Date: 12/14/15 Time: 14:47 Sample: 1985 2014 Included observations: 30 Variable Coefficient Std. Error t-Statistic Prob. C 3775.319359 326024 8769.9280467 183 0.4304846447 102545 0.67026006 64360232 X1 -0.91272630 85551189 1.9385186318 83585 -0.470837005 9194414 0.64153894 75333828 X2 5.522785592 51161 2.2548570541 42605 2.4492841275 08302 0.02108703 0146243 R-squared 0.967586049 4429319 Mean dependent var 173871.823 3333334 Adjusted R-squared 0.965185016 0683343 S.D. dependent var 187698.441 4104575 S.E. of regression 35022.22758 863741 Akaike info criterion 23.8599929 764685 Sum squared resid 3311702348 2.29852 Schwarz criterion 24.0001127 1463471 Log likelihood -354.899894 6470274 Hannan-Quinn criter. 23.9048184 8460881 F-statistic 402.9873385 683694 Durbin-Watson stat 0.54328498 36158895 Prob(F-statistic) 7.850214650 723685e-21 统计检验: (1)拟合优度:从上表可以得到R2=0.9675860494429319,修正后的可决系数R2=0.9651850160683343,这说明模型对样本的拟合很好。 (2)F检验:针对H0: (二)多重共线性的检验及修正 相关系数矩阵: X1 X2

计量经济学实验报告(多元线性回归 自相关 )

实验报告 课程名称计量经济学 实验项目名称多元线性回归自相关 异方差多重共线性班级与班级代码 08国际商务1班实验室名称(或课室)实验楼910 专业国际商务 任课教师刘照德 学号: 043 姓名:张柳文 实验日期: 2011 年 06 月 23日 广东商学院教务处制

姓名张柳文实验报告成绩 评语: 指导教师(签名) 年月日说明:指导教师评分后,实验报告交院(系)办公室保存。

计量经济学实验报告 实验项目:多元线性回归、自相关、异方差、多重共线性 实验目的:掌握多元线性回归模型、自相关模型、异方差模型、多重共线性模型的估计和检验方法和处理方法 实验要求:选择方程进行多元线性回归;熟悉图形法检验和掌握D-W 检验,理解广义差分法变换和掌握迭代法;掌握Park或 Glejser检验,理解同方差性变换; 实验原理:普通最小二乘法图形检验法 D-W检验广义差分变换加权最小二乘法 Park检验等 实验步骤: 首先:选择数据 为了研究影响中国税收收入增长的主要原因,选择国内生产总值(GDP)、财政支出(ED)、商品零售价格指数(RPI)做为解释变量,对税收收入(Y)做多元线性回归。从《中国统计年鉴》2011中收集1978—2009年各项影响因素的数据。如下表所示: 中国税收收入及相关数据

实验一:多元线性回归 1、将数据导入后,分别对三个解释变量与被解释变量做散点图,选择两个变量作为group打开,在数据表“group”中点击view/graph/scatter/simple scatter,出现数据的散点图,分别如下图所示: 从散点图看,变量间不一定呈现线性关系,可以试着作线性回归。 2、进行因果关系检验

计量经济学 案例分析

第二章 案例分析 研究目的:分析各地区城镇居民计算机拥有量与城镇居民收入水平的关系,对更多规律的研究具有指导意义. 一. 模型设定 2011年年底城镇居民家庭平均每百户计算机拥有量Y 与城镇居民平均每人全年家庭总收入X 的关系 图2.1 各地区城镇居民每百户计算机拥有量与人均总收入的散点图 由图可知,各地区城镇居民每百户计算机拥有量随着人均总收入水平的提高而增加,近似于线性关系,为分析其数量性变动规律,可建立如下简单线性回归模型: Y t =β1+β2X t +u t 50 60 708090100 110120130140 X Y

二.估计参数 假定所建模型及其随机扰动项u i满足各项古典假设,用普通最小二乘法(OLSE)估计模型参数.其结果如下: 表2.1 回归结果 Dependent Variable: Y Method: Least Squares Date: 11/13/17 Time: 12:50 Sample: 1 31 Included observations: 31 Variable Coefficient Std. Error t-Statistic Prob. C 11.95802 5.622841 2.126686 0.0421 X 0.002873 0.000240 11.98264 0.0000 R-squared 0.831966 Mean dependent var 77.08161 Adjusted R-squared 0.826171 S.D. dependent var 19.25503 S.E. of regression 8.027957 Akaike info criterion 7.066078 Sum squared resid 1868.995 Schwarz criterion 7.158593 Log likelihood -107.5242 Hannan-Quinn criter. 7.096236 F-statistic 143.5836 Durbin-Watson stat 1.656123 Prob(F-statistic) 0.000000 由表2.1可得, β1=11.9580,β2=0.0029 故简单线性回归模型可写为: ^ Y X t t=11.9580+0.0029 其中:SE(β1)=5.6228, SE(β2)=0.0002 R-squared=0.8320,F=143.5836,n=31

计量经济学调查报告

大学生月消费支出调查报告 一、引言 在当前尚且低迷,尚未完全复苏的经济环境下,消费问题被大家广泛关注。物价的连续上涨,直接反映了社会的消费和需求问题。当前的消费市场中,大学生作为一个特殊的消费群体正受到越来越大的关注。由于大学生年龄较轻,群体较特别,他们有着不同于社会其他消费群体的消费心理和行为。一方面,他们有着旺盛的消费需求,另一方面,他们尚未获得经济上的独立,消费受到很大的制约。消费观念的超前和消费实力的滞后,都对他们的消费有很大影响。特殊群体自然有自己特殊的特点,同时难免存在一些非理性的消费甚至一些消费的问题。为了调查清楚大学生的消费情况,我决定在身边的同学中进行一次消费的调研,对大家的消费进行归宗和分析。 二、理论综述 我们主要对大学生每人每月消费支出进行多因素分析,并从周围同学搜集相关数据,建立模型,对此进行数量分析。 影响大学生每人每月消费支出的主要因素如下: 1、学习支出 2、消费收入 3、生活支出 三、模型设定 Y:每人每月消费支出 X1:学习支出X2:消费收入 X3:生活支出 四、数据搜集 1、数据说明 我们特对周围大学生的消费水平做了简单调查,再用计量经济学的知识分析其影响因素。 2、数据的搜集情况 人数每人每月消 费 支出Y 学习支出 (X1) 消费收入(X2)生活支出(X3) 1760310800450 2630230600400 311002301350880 4420170450250 59601601000800 6580280500300 78702201000650 8300110400190 910501501300900 10126016015001100 11130030015001000 12500190550310 13600180750420 149001401000760

应用回归分析含定性变量的回归模型第九章课后答案

第9章 含定性变量的回归模型 思考与练习参考答案 9.1 一个学生使用含有季节定性自变量的回归模型,对春夏秋冬四个季节引入4个0-1型自变量,用SPSS 软件计算的结果中总是自动删除了其中的一个自变量,他为此感到困惑不解。出现这种情况的原因是什么? 答:假如这个含有季节定性自变量的回归模型为: 其中含有k 个定量变量,记为x i 。对春夏秋冬四个季节引入4个0-1型自变量,记为D i ,只取了6个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则样本设计矩阵为: 显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。这就是所谓的“虚拟变量陷井”,应避免。 当某自变量x j 对其余p-1个自变量的复判定系数2 j R 超过一定界限时,SPSS 软件将拒绝这个自变量x j 进入回归模型。称Tol j =1-2 j R 为自变量x j 的容忍度(Tolerance ),SPSS 软件的默认容忍度为0.0001。也就是说,当2j R >0.9999时,自变量x j 将被自动拒绝在回归方程之外,除非我们修改容忍度的默认值。 而在这个模型中出现了完全共线性,所以SPSS 软件计算的结果中总是自动删除了其中的一个定性自变量。 9.2对自变量中含有定性变量的问题,为什么不对同一属性分别建立回归模型,而采取设虚拟变量的方法建立回归模型? 答:原因有两个,以例9.1说明。一是因为模型假设对每类家庭具有相同的斜率和误差方差,把两类家庭放在一起可以对公共斜率做出最佳估计;二是对于其他 t t t t kt k t t D D D X X Y μαααβββ++++++=332211110 ????? ? ?? ? ? ? ?=00011001011000101001 0010100011 )(6 16515414313212111k k k k k k X X X X X X X X X X X X D X,??? ??? ? ??=k βββ 10β??? ??? ? ??=4321ααααα

计量经济学分析计算题Word版

计量经济学分析计算题(每小题10分) 1.下表为日本的汇率与汽车出口数量数据, X:年均汇率(日元/美元) Y:汽车出口数量(万辆) 问题:(1)画出X 与Y 关系的散点图。 (2)计算X 与Y 的相关系数。其中X 129.3= ,Y 554.2=,2 X X 4432.1∑ (-)=,2 Y Y 68113.6∑(-)=,()()X X Y Y ∑--=16195.4 (3)采用直线回归方程拟和出的模型为 ?81.72 3.65Y X =+ t 值 1.2427 7.2797 R 2=0.8688 F=52.99 解释参数的经济意义。 2.已知一模型的最小二乘的回归结果如下: i i ?Y =101.4-4.78X 标准差 (45.2) (1.53) n=30 R 2=0.31 其中,Y :政府债券价格(百美元),X :利率(%)。 回答以下问题:(1)系数的符号是否正确,并说明理由;(2)为什么左边是i ?Y 而不是i Y ; (3)在此模型中是否漏了误差项i u ;(4)该模型参数的经济意义 是什么。 3.估计消费函数模型i i i C =Y u αβ++得 i i ?C =150.81Y + t 值 (13.1)(18.7) n=19 R 2=0.81 其中,C :消费(元) Y :收入(元) 已知0.025(19) 2.0930t =,0.05(19) 1.729t =,0.025(17) 2.1098t =,0.05(17) 1.7396t =。

问:(1)利用t 值检验参数β的显著性(α=0.05);(2)确定参数β的标准差;(3)判断一下该模型的拟合情况。 4.已知估计回归模型得 i i ?Y =81.7230 3.6541X + 且2X X 4432.1∑ (-)=,2 Y Y 68113.6∑ (-)=, 求判定系数和相关系数。 5.有如下表数据 日本物价上涨率与失业率的关系 (1)设横轴是U ,纵轴是P ,画出散点图。根据图形判断,物价上涨率与失业率之间是什么样的关系?拟合什么样的模型比较合适? (2)根据以上数据,分别拟合了以下两个模型: 模型一:1 6.3219.14 P U =-+ 模型二:8.64 2.87P U =- 分别求两个模型的样本决定系数。 7.根据容量n=30的样本观测值数据计算得到下列数据:XY 146.5= ,X 12.6=,Y 11.3=,2X 164.2=,2Y =134.6,试估计Y 对X 的回归直线。 8.下表中的数据是从某个行业5个不同的工厂收集的,请回答以下问题:

计量经济学案例分析汇总

计量经济学案例分析1 一、研究的目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。例如,2002年全国城市居民家庭平均每人每年消费支出为元, 最低的黑龙江省仅为人均元,最高的上海市达人均10464元,上海是黑龙江的倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y选定为“城市居民每人每年的平均消费支出”。 因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 从2002年《中国统计年鉴》中得到表的数据: 表 2002年中国各地区城市居民人均年消费支出和可支配收入

计量经济学案例分析一元回归模型实例分析报告

∑ x = 1264471.423 ∑ y = 516634.011 ∑ X = 52432495.137 ∑ ? ? ? ? 案例分析 1— 一元回归模型实例分析 依据 1996-2005 年《中国统计年鉴》提供的资料,经过整理,获得以下农村居民人均 消费支出和人均纯收入的数据如表 2-5: 表 2-5 农村居民 1995-2004 人均消费支出和人均纯收入数据资料 单位:元 年度 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 人均纯 收入 1577.7 1926.1 2090.1 2161.1 2210.3 2253.4 2366.4 2475.6 2622.2 2936.4 人均消 费支出 1310.4 1572.1 1617.2 1590.3 1577.4 1670.1 1741.1 1834.3 1943.3 2184.7 一、建立模型 以农村居民人均纯收入为解释变量 X ,农村居民人均消费支出为被解释变量 Y ,分析 Y 随 X 的变化而变化的因果关系。考察样本数据的分布并结合有关经济理论,建立一元线 性回归模型如下: Y i =β0+β1X i +μi 根据表 2-5 编制计算各参数的基础数据计算表。 求得: X = 2262.035 Y = 1704.082 2 i 2 i ∑ x i y i = 788859.986 2 i 根据以上基础数据求得: β1 = ∑ x i y 2 i i = 788859.986 126447.423 = 0.623865 β 0 = Y - β1 X = 1704.082 - 0.623865 ? 2262.035 = 292.8775 样本回归函数为: Y i = 292.8775 + 0.623865X i 上式表明,中国农村居民家庭人均可支配收入若是增加 100 元,居民们将会拿出其中 的 62.39 元用于消费。

计量经济学(第四版)习题及参考答案解析详细版

计量经济学(第四版)习题参考答案 潘省初

第一章 绪论 1.1 试列出计量经济分析的主要步骤。 一般说来,计量经济分析按照以下步骤进行: (1)陈述理论(或假说) (2)建立计量经济模型 (3)收集数据 (4)估计参数 (5)假设检验 (6)预测和政策分析 1.2 计量经济模型中为何要包括扰动项? 为了使模型更现实,我们有必要在模型中引进扰动项u 来代表所有影响因变量的其它因素,这些因素包括相对而言不重要因而未被引入模型的变量,以及纯粹的随机因素。 1.3什么是时间序列和横截面数据? 试举例说明二者的区别。 时间序列数据是按时间周期(即按固定的时间间隔)收集的数据,如年度或季度的国民生产总值、就业、货币供给、财政赤字或某人一生中每年的收入都是时间序列的例子。 横截面数据是在同一时点收集的不同个体(如个人、公司、国家等)的数据。如人口普查数据、世界各国2000年国民生产总值、全班学生计量经济学成绩等都是横截面数据的例子。 1.4估计量和估计值有何区别? 估计量是指一个公式或方法,它告诉人们怎样用手中样本所提供的信息去估计总体参数。在一项应用中,依据估计量算出的一个具体的数值,称为估计值。如Y 就是一个估计量,1 n i i Y Y n == ∑。现有一样本,共4个数,100,104,96,130,则 根据这个样本的数据运用均值估计量得出的均值估计值为 5.1074 130 96104100=+++。 第二章 计量经济分析的统计学基础 2.1 略,参考教材。

2.2请用例2.2中的数据求北京男生平均身高的99%置信区间 N S S x = = 4 5 =1.25 用 =0.05,N-1=15个自由度查表得005.0t =2.947,故99%置信限为 x S t X 005.0± =174±2.947×1.25=174±3.684 也就是说,根据样本,我们有99%的把握说,北京男高中生的平均身高在170.316至177.684厘米之间。 2.3 25个雇员的随机样本的平均周薪为130元,试问此样本是否取自一个均值为120元、标准差为10元的正态总体? 原假设 120:0=μH 备择假设 120:1≠μH 检验统计量 () 10/2510/25 X X μσ-Z == == 查表96.1025.0=Z 因为Z= 5 >96.1025.0=Z ,故拒绝原假设, 即 此样本不是取自一个均值为120元、标准差为10元的正态总体。 2.4 某月对零售商店的调查结果表明,市郊食品店的月平均销售额为2500元,在下一个月份中,取出16个这种食品店的一个样本,其月平均销售额为2600元,销售额的标准差为480元。试问能否得出结论,从上次调查以来,平均月销售额已经发生了变化? 原假设 : 2500:0=μH 备择假设 : 2500:1≠μH ()100/1200.83?480/16 X X t μσ-= === 查表得 131.2)116(025.0=-t 因为t = 0.83 < 131.2=c t , 故接受原假 设,即从上次调查以来,平均月销售额没有发生变化。

计量经济学-案例分析-第六章

第六章 案例分析 一、研究目的 2003年中国农村人口占59.47%,而消费总量却只占41.4%,农村居民的收入和消费是一个值得研究的问题。消费模型是研究居民消费行为的常用工具。通过中国农村居民消费模型的分析可判断农村居民的边际消费倾向,这是宏观经济分析的重要参数。同时,农村居民消费模型也能用于农村居民消费水平的预测。 二、模型设定 正如第二章所讲述的,影响居民消费的因素很多,但由于受各种条件的限制,通常只引入居民收入一个变量做解释变量,即消费模型设定为 t t t u X Y ++=21ββ (6.43) 式中,Y t 为农村居民人均消费支出,X t 为农村人均居民纯收入,u t 为随机误差项。表6.3是从《中国统计年鉴》收集的中国农村居民1985-2003年的收入与消费数据。 表6.3 1985-2003年农村居民人均收入和消费 单位: 元

2000 2001 2002 2003 2253.40 2366.40 2475.60 2622.24 1670.00 1741.00 1834.00 1943.30 314.0 316.5 315.2 320.2 717.64 747.68 785.41 818.86 531.85 550.08 581.85 606.81 为了消除价格变动因素对农村居民收入和消费支出的影响,不宜直接采用现价人均纯收入和现价人均消费支出的数据,而需要用经消费价格指数进行调整后的1985年可比价格计的人均纯收入和人均消费支出的数据作回归分析。 根据表6.3中调整后的1985年可比价格计的人均纯收入和人均消费支出的数据,使用普通最小二乘法估计消费模型得 t t X Y 0.59987528.106?+= (6.44) Se = (12.2238) (0.0214) t = (8.7332) (28.3067) R 2 = 0.9788,F = 786.0548,d f = 17,DW = 0.7706 该回归方程可决系数较高,回归系数均显著。对样本量为19、一个解释变量的模型、5%显著水平,查DW 统计表可知,d L =1.18,d U = 1.40,模型中DW

计量经济学期末报告

计量经济学实验报告 我国居民储蓄余额的影响因素的计量分析 XX学院 XX专业 小组成员:(姓名及学号)

我国居民储蓄余额的影响因素的计量分析 一.研究的目的要求 1.研究的背景 居民储蓄额作为一个国家经济增长中来源最稳定、数额最大的影响因素,它的高低对一国的经济发展、投资和居民生活等方面都有不同程度的影响。目前我国国内居民储蓄意愿强劲、储蓄额居高不下,形成了储蓄的超常增长,主要呈现以下特点:(1)储蓄率世界之冠;(2)储蓄增长速度高于经济和居民收入增长速度;(3)城乡之间差别大;(4)不同收入阶层分布不均匀;(5)不同地区分布极不平均。我国储蓄的超常增长一方面能为银行提供了充足的信贷资金,保证金融机构的稳健运行,还能为国家提供了物质基础;此外,面对世界的日益发展,高储蓄额还能帮助我国进一步改革。但是,在另一方面我还国存在金融机构对资本的运用效益不高、居民投资渠不多、投资效益不稳定等问题。这些问题导致我国现在储蓄存款过剩、消费不足和资本形成不足同时并存的局面。 2013年6月余额宝正式上线,在此后的一年中该产品的客户数量和管理资产出现爆炸式的增长。截止2014年3月余额宝资金规模已经达到5413亿元,截止2014年4月,居民人民币存款减少1.23万亿元。余额宝作为一条“鲶鱼”和随后出现的众多“宝宝”们一起加速了中国利率市场化的进程,对未来我国储蓄额有着重大影响。 为了分析我国居民储蓄存款如今的发展状况、更好地把握我国储蓄余额未来的走向,所以对我国储蓄余额的及其影响因素的研究是十分必要的。 2.影响因素的分析 为了研究影响中国储蓄余额高低的主要原因,分析居民储蓄余额增长规律,预测中国储蓄余额的增长趋势,需要建立计量经济模型。通过参考相关文献并结合我国经济发展的实际情况提出了以下几个变量。(1)收入水平。根据经济理论可以认为,收入水平是影响储蓄的最主要因素。(2)利率水平。利率作为消费的机会成本也会对储蓄产生影响。理论上认为,利率越高,居民消费的机会成本越高,所以会减少消费增加储蓄;反之,利率越低消费成本越低,居民会增加消费减少储蓄。(3)物价水平。物价水平会影响消费和储蓄。物价水平越高相同消费水平需要支付的货币更多。而且物价水

计量经济学答案(部分)

第一章导论 一、单项选择题 1-6: CCCBCAC 二、多项选择题 ABCD;ACD;ABCD 三.问答题 什么是计量经济学? 答案见教材第3页 四、案例分析题 假定让你对中国家庭用汽车市场发展情况进行研究,应该分哪些步骤,分别如何分析?(参考计量经济学研究的步骤) 第一步:选取被研究对象的变量:汽车销售量 第二步:根据理论及经验分析,寻找影响汽车销售量的因素,如汽车价格,汽油价格,收入水平等 第三步:建立反映汽车销售量及其影响因素的计量经济学模型 第四步:估计模型中的参数; 第五步:对模型进行计量经济学检验、统计检验以及经济意义检验; 第六步:进行结构分析及在给定解释变量的情况下预测中国汽车销售量的未来值为汽车业的发展提供政策实施依据。 第二章简单线性回归模型 一、填空题 1、线性、无偏、最小方差性(有效性),BLUE。 2、解释变量;参数;参数。 3、随机误差项;随机误差项。 二、单项选择题 1-4:BBDA;6-11:CDCBCA 三、多项选择题 1.ABC; 2.ABC; 3.BC; 4.ABE; 5.AD; 6.BC 四、判断正误: 1. 错; 2. 错; 3. 对; 4.错; 5. 错; 6. 对; 7. 对; 8.错 五、简答题: 1.为什么模型中要引入随机扰动项? 答:模型是对经济问题的一种数学模型,在模型中,被解释变量是研究的对象,解释变量是其确定的解释因素,但由于实际问题的错综复杂,影响被解释变量的因素中,除了包括在模型中的解释变量以外,还有其他一些因素未能包括在模型中,但却影响被解释变量,我们把这类变量统一用随机误差项表示。随机误差项包含的因素有:

计量经济学-案例分析-第八章

第八章案例分析 改革开放以来,随着经济的发展中国城乡居民的收入快速增长,同时城乡居民的储蓄存 款也迅速增长。经济学界的一种观点认为,20世纪90年代以后由于经济体制、住房、医疗、养老等社会保障体制的变化,使居民的储蓄行为发生了明显改变。为了考察改革开放以来中 国居民的储蓄存款与收入的关系是否已发生变化,以城乡居民人民币储蓄存款年底余额代表 居民储蓄(Y),以国民总收入GNI代表城乡居民收入,分析居民收入对储蓄存款影响的数量关系。 表8.1为1978-2003年中国的国民总收入和城乡居民人民币储蓄存款年底余额及增加额的数据。 单位:亿元 2004 鉴数值,与用年底余额计算的数值有差异。 为了研究1978—2003年期间城乡居民储蓄存款随收入的变化规律是否有变化,考证城

乡居民储蓄存款、国民总收入随时间的变化情况,如下图所示: 图8.5 从图8.5中,尚无法得到居民的储蓄行为发生明显改变的详尽信息。若取居民储蓄的增量 (YY ),并作时序图(见图 8.6) 从居民储蓄增量图可以看出,城乡居民的储蓄行为表现出了明显的阶段特征: 2000年有两个明显的转折点。再从城乡居民储蓄存款增量与国民总收入之间关系的散布图 看(见图8.7),也呈现出了相同的阶段性特征。 为了分析居民储蓄行为在 1996年前后和2000年前后三个阶段的数量关系,引入虚拟变 量D 和D2°D 和D 2的选择,是以1996>2000年两个转折点作为依据,1996年的GNI 为66850.50 亿元,2000年的GNI 为国为民8254.00亿元,并设定了如下以加法和乘法两种方式同时引入 虚拟变量的的模型: YY = 1+ 2GNI t 3 GNI t 66850.50 D 1t + 4 GNh 88254.00 D 2t i D 1 t 1996年以后 D 1 t 2000年以后 其中: D 1t _ t 1996年及以前 2t 0 t 2000年及以前 对上式进行回归后,有: Dependent Variable: YY Method: Least Squares Date: 06/16/05 Time: 23:27 120000 8.7 1996年和 100000- 40000 2WM GNi o eOB2&ISEea9a9l2949698[Ma2 20CUC ir-“- 1CC0C 图 8.6 *OOCO mnoot , RtKXD Tconr GF*

计量经济学分析模型

计量经济学分析模型

摘要 改革开放以来,我国经济呈迅速而稳定的增长趋势,由于分配机制和收入水平的变化,城镇居民生活水平在达到稳定小康之后,消费结构和消费水平都出现了一些新的特点。本文旨在对近几年,我国城镇年人均收入变动对年人均各种消费变动的影响进行实证分析。首先,我们综合了几种关于收入和消费的主要理论观点;本文根据相关的数据统计数据,运用一定的计量经济学的研究方法,进而我们建立了理论模型。然后,收集了相关的数据,利用EVIEWS软件对计量模型进行了参数估计和检验,并加以修正。最后,我们对所得的分析结果和影响消费的一些因素作了经济意义的分析,并相应提出一些政策建议。并找到影响居民消费的主要因素。 关键词:居民消费;城镇居民;回归;Eviews

目录 摘要.................................................................. II 前言. (1) 1 问题的提出 (2) 2 经济理论陈述 (3) 2.1西方经济学中有关理论假说 (3) 2.2有关消费结构对居民消费影响的理论 (4) 3 相关数据收集 (6) 4 计量经济模型的建立 (9) 5 模型的求解和检验 (10) 5.1计量经济的检验 (10) 5.1.1模型的回归分析 (10) 5.1.2拟合优度检验: (11) 5.1.3 F检验 (11) 5.1.4 T检验 (12) 5.2 计量修正模型检验: (12) 5.2.1 Y与的一元回归 (13) 5.2.2拟合优度的检验 (13) 5.2.3 F检验 (14) 5.2.4 T检验: (15) 5.3经济意义的分析: (15) 6 政策建议 (16) 结论 (17) 参考文献 (19)

计量经济学-案例分析-第二章

第二章案例分析 一、研究的目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。 因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 从2002年《中国统计年鉴》中得到表2.5的数据: 表2.52002年中国各地区城市居民人均年消费支出和可支配收入

计量经济学研究报告

计量经济学研究报告 ——居民消费水平与经济增长 081国贸5 乔林甫200822012 一.研究目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费有利于经济持续健康的增长,而且这也是人民啥呢干活水平的具体体现。从理论上说,居民的消费水平应随着经济的发展耳提高。改革开放以来,随着中国经济的快速反韩,人民生活水平不断提高,居民的消费水平也在不断增长。研究汇总过全体居民的消费水平与经济发展的数量关系,对于探寻居民消费增长的规律性,预测居民消费的发展趋势有重要意义。 二.模型设定 为了分析居民消费水平与经济增长的关系,选择中国能代表城乡所有居民消费的“全体居民人居消费水平”未被解释变量(用Y表示),选择表现经济增长水平的“人均国内生产总值”为解释变量(用X表示)。下表为1990~2007年的有关数据。 1990~2007年中国居民人均消费水平和人均GDP

为分析居民人均消费水平(Y)和(X)的关系,做下图所示散点图。 从说散点图可以看出X与Y成纤维线性关系,为分析中国居民消费

水平随人均GDP 变动的数量规律性,可以建立如下简单线性回归模型: Y=1β+2βt X+t u t 三.参数估计 由最小二乘估计回归模型,得 可由规范的形式将参数估计和检验的结果写为 Y?= 502.5658+0.361361*X (96.78204)(0.012173) T = (5.192758)(34.53896) R2=0.986765 F=1192.940 S.E=214.1663

四.模型检验 经济意义检验: 回归系数的符号和数值大小合理。 统计检验: 拟合优度检验: R2 =0.986765接近于1,表明模型对样本的拟合优度高。F检验: F=1192.940 > F(K,N-K-1)=αF(1,18-2)=4.49表明 α 回归系数至少有一个显著不为零,模型线性关系显著。 T检验: t=5.192758 > 2/αt(N-K)=2/αt(18-2)=2.120,接受原假设,X估计值有显著影响 回归系数的经济意义: 人均消费水平每增加一个百分点,人均GDP增加0.361361元。五.回归预测 如果2008年人均GDP将比2007年增长10%,将达到20827.4元/人利用所估计的模型可预测2008年居民可能达到的年消费水平,点预测值的计算方法为 = 502.5658+0.361361*20827.4=8028.78(元)Y? t

计量经济学报告

计量经济学期末考试试题 1.结合自己的专业收集相关实际数据,作一个多元线性回归的计量经济学模型,要求:(1)用eviews进行参数估计,写出多元线性回归的数学模型; (2)进行拟合优度检验,方程的显着性检验和变量的显着性检验; (3)作异方差检验,用加权最小二乘法重新估计模型,与(1)的模型作对比和评价;(4)作序列相关检验,用广义最小二乘法或广义差分法重新估计模型,与(1)和(2)的模型作对比和评价; (5)做多重共线性检验,如果存在多重共线性则消除多重共线性,与前面的模型作对比和评价; (6)分别用前述3个模型进行点预测和区间预测,对预测结果作适当评价。 2.结合实际问题,收集相关数据,作Ganger因果关系分析。 3.收集实际数据,作一个带虚变量回归的计量经济学分析和预测。 研究问题: (居民消费价格指数)的数值高低,一方面取决于各个类别中每一规格品种的价格变化;另一方面取决于CPI的构成,即各个类别在CPI中所占的权重。本文研究了CPI与城市居民消费价格指数与农村居民消费价格指数及商品零售价格指数间的关系,旨在探究出是城市居民还是农村居民或商品零售价格对于CPI的贡献。因此,当前背景下对CPI的深度分析,确定其影响因素,保持CPI稳定显得十分重要。本文期望通过实证模型分析出影响我国CPI的主要因素,并通过结论提出合理化建议。下面给出了2005年-2015年数据,其数据来源与《中国统计年鉴》。 ②进行拟合优度检验,方程的显着性检验和变量的显着性检验; ③作异方差检验,用加权最小二乘法重新估计模型,与(1)的模型作对比和评价; ④作序列相关检验,用广义最小二乘法或广义差分法重新估计模型,与(1)和(2)的

计量经济学习题解析

第一章 1、下列假想模型是否属于揭示因果关系的计量经济学模型?为什么? (1)t S =112.0+0.12t R ,其中t S 为第t 年农村居民储蓄增加额(单位:亿元),t R 为第t 年 城镇居民可支配收入总额(单位:亿元)。 (2)1t S -=4432.0+0.30t R ,其中1t S -为第t-1年底农村居民储蓄余额(单位:亿元),t R 为 第t 年农村居民纯收入总额(单位:亿元)。 2、 指出下列假想模型中的错误,并说明理由: 8300.00.24 1.12t t t RS RI IV =-+ 其中,t RS 为第t 年社会消费品零售总额(单位:亿元),t RI 为第t 年居民收入总额(单 位:亿元)(指城镇居民可支配收入总额与农村居民纯收入总额之和),t IV 为第t 年全 社会固定资产投资总额(单位:亿元)。 3、 下列设定的精良经济模型是否合理?为什么? (1)3 01i i i GDP GDP ββμ==+?+∑ 其中,i GDP (i=1,2,3)是第一产业、第二产业、第三产业增加值,μ为随机干扰项。 (2)财政收入=f (财政支出)+ μ,μ为随机干扰项。 答案1、(1)不是。因为农村居民储蓄增加额应与农村居民可支配收入总额有关,而与城镇 居民可支配收入总额没有因果关系。 (2)不是。第t 年农村居民的纯收入对当年及以后年份的农村居民储蓄有影响,但并不 对第t-1的储蓄产生影响。 2、一是居民收入总额RI t 前参数符号有误,应是正号;二是全社会固定资产投资总额IV t 这 一解释变量的选择有误,它对社会消费品零售总额应该没有直接的影响。 3、(1)不合理,因为作为解释变量的第一产业、第二产业和第三产业的增加值是GDP 的构 成部分,三部分之和正为GDP 的值,因此三变量与GDP 之间的关系并非随机关系,也 非因果关系。 (2)不合理,一般来说财政支出影响财政收入,而非相反,因此若建立两者之间的模型, 解释变量应该为财政收入,被解释变量应为财政支出;另外,模型没有给出具体的数学 形式,是不完整的。 第二章五、计算分析题 1、令kids 表示一名妇女生育孩子的数目,educ 表示该妇女接受过教育的年数。生育率对 受教育年数的简单回归模型为 μββ++=educ kids 10 (1)随机扰动项μ包含什么样的因素?它们可能与受教育水平相关吗? (2)上述简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。 2、已知回归模型μβα++=N E ,式中E 为某类公司一名新员工的起始薪金(元),N 为

计量经济学多元线性回归

低碳农业发展影响因素分析——以新疆南疆五地州为例 学生姓名方芳 学号1075717008 所属学院经济与管理学院 专业农村与区域发展 塔里木大学教务处制

目录 1 引言 (1) 2 数据来源和研究方法 (1) 2.1数据来源 (1) 2.2研究方法 (2) 3 模型检验与结果 (3) 3.1初始模型计量 (3) 3.2检验 (3) 4 结论与建议 (4) 5 参考文献 (4)

低碳农业发展影响因素分析 --以新疆南疆五地州为例 方芳 摘要:全球变暖问题引起世界各国的广泛关注,这一变化使得自然灾害频发,甚至危及人类安全,因此解决这一问题迫在眉睫。通过对新疆南疆五地州的农业总产值与化肥施用量、农用机械总动力及农作物总播种面积进行回归分析后,发现化肥施用量对农作物的总产值影响极大,是其主要的制约因素。要发展低碳农业应转变农业生产方式,实施保护性耕作;应推广施肥新技术,提高化肥利用率;应改进装置,利用新技术生产化肥;发展生态农业,实现经济循环发展。 关键字:低碳农业影响因素回归分析 1 引言 近年来气候变化所导致的高温热潮、暴雨连连、旱灾、沙尘暴频发事件的概率持续增加,CO2是造成该现象的源头之一,因此,发展低碳经济、发展节能减排成为全球关注的热点。2014 年《中美气候变化联合声明》提出我国将于2030 年左右达到碳排放峰值的庄严承诺,2015 年12 月12 日,195个缔约方在巴黎达成了新的全球气候协议———《巴黎协议》,提出努力将气温升幅限制在1.5℃内的目标。农业碳排放量介于电热生产和尾气之间,成为第二大排放源,占我国碳排放总量的17%。新疆位于亚欧大陆腹地,地处中国西北边陲,是中国面最大、交界邻国最多、陆地边境线最长的省区,肩负着与重要世界经济资源大国沿边开放的重任。同时,新疆作为我国重要的种植业和畜牧业基地,以8%的绿洲面积承载了90%以上的人口、耕地和生产总值,绿色生态压力相当严峻。新疆南疆位于天山以南的塔里木盆地 ,四周高山环抱。在行政区划上包括巴音郭楞、阿克苏、喀什、克孜勒苏、和田等五地州及生产建设兵团的四个农业师。塔里木河是我国最大的内陆河,它由西向东1321km,流域覆盖新疆南部地区,面积102万km2,人口825.7万 ,分别占新疆自治区的61%和 47%,是我国重要的棉花基地。冉锦成、苏洋等人研究表明,南疆各地 (州,市) 区域差异明显,喀什地区属碳排放量、碳排放强度“双高”型地区,因此,通过对农业产值与化肥施用量、机械总动力以及农作物播种面积的回归分析,试图找到影响低碳农业发展的主要因素,并提出相关的建议,促进农业实现低碳生产。 2 数据来源和研究方法 2.1数据来源 本文选取的是新疆2006--2016年的农业生产数据,其中包括:农业总产值(亿)Y,化肥施用量(万吨)(X1)、农用机械总动力(万千瓦)(X2)、农作物总播种面积(万公顷)(X3),数据来源于《中国统计年鉴》和《新疆统计年鉴》(2006--2016),数据见表1。 表1 新疆统计年鉴2006-2016样本数据

相关文档
相关文档 最新文档