文档库 最新最全的文档下载
当前位置:文档库 › 二元选择模型

二元选择模型

二元选择模型
二元选择模型

二元选择摸型

如果回归模型的解释变量中含有定性变量,则可以用虚拟变量处理之。在实际经济问题中,被解释变量也可能是定性变量。如通过一系列解释变量的观测值观察人们对某项动议的态度,某件事情的成功和失败等。当被解释变量为定性变量时怎样建立模型呢?这就是要介绍的二元选择模型或多元选择模型,统称离散选择模型。这里主要介绍Tobit (线性概率)模型,Probit (概率单位)模型和Logit 模型。

1.Tobit (线性概率)模型 Tobit 模型的形式如下,

y i = α + β x i + u i (1) 其中u i 为随机误差项,x i 为定量解释变量。y i 为二元选择变量。此模型由James Tobin 1958年提出,因此得名。如利息税、机动车的费改税问题等。设 1 (若是第一种选择) y i =

0 (若是第二种选择)

-0.2

0.0

0.20.40.60.81.01.2

330

340

350

360

370

380

X

Y

对y i 取期望,

E(y i ) = α + β x i (2) 下面研究y i 的分布。因为y i 只能取两个值,0和1,所以y i 服从两点分布。把y i 的分布记为, P ( y i = 1) = p i P ( y i = 0) = 1 - p i 则

E(y i ) = 1 (p i ) + 0 (1 - p i ) = p i (3) 由(2)和(3)式有

p i = α + β x i (y i 的样本值是0或1,而预测值是概率。) (4)

以p i = - 0.2 + 0.05 x i 为例,说明x i 每增加一个单位,则采用第一种选择的概率增加0.05。

现在分析Tobit 模型误差的分布。由Tobit 模型(1)有,

u i = y i - α - β x i =??

?=--=--0

,1

,1i i i i y x y x βαβα

E(u i ) = (1- α - β x i ) p i + (- α - β x i ) (1 - p i ) = p i - α - β x i 由(4)式,有

E(u i ) = p i - α - β x i = 0

因为y i 只能取0, 1两个值,所以,

E(u i 2) = (1- α - β x i )2 p i + (- α - β x i )2 (1 - p i )

= (1- α - β x i )2 (α + β x i ) + (α +β x i )2 (1 - α - β x i ), (依据(4)式) = (1- α - β x i ) (α + β x i ) = p i (1 - p i ) , (依据(4)式) = E(y i ) [1- E(y i ) ]

上两式说明,误差项的期望为零,方差具有异方差。当p i 接近0或1时,u i 具有较小的方差,当p i 接近1/2时,u i 具有较大的方差。所以Tobit 模型(1)回归系数的OLS 估计量具有无偏性和一致性,但不具有有效性。

假设用模型(4)进行预测,当预测值落在 [0,1] 区间之内(即x i 取值在[4, 24] 之内)时,则没有什么问题;但当预测值落在[0,1] 区间之外时,则会暴露出该模型的严重缺点。因为概率的取值范围是 [0,1],所以此时必须强令预测值(概率值)相应等于0或1(见图1)。线性概率模型常写成如下形式,

图1

1, α + β x i ≥ 1

p i = α + β x i , 0 < α + β x i < 1 (5) 0, α + β x i ≤ 0

然而这样做是有问题的。假设预测某个事件发生的概率等于1,但是实际中该事件可能根本不会发生。反之,预测某个事件发生的概率等于0,但是实际中该事件却可能发生了。虽然估计过程是无偏的,但是由估计过程得出的预测结果却是有偏的。

由于线性概率模型的上述缺点,希望能找到一种变换方法,(1)使解释变量x i 所对应的所有预测值(概率值)都落在(0,1)之间。(2)同时对于所有的x i ,当x i 增加时,希望y i 也单调增加或单调减少。显然累积概率分布函数F (z i ) 能满足这样的要求。采用累积正态概率分布函数的模型称作Probit 模型。用正态分布的累积概率作为Probit 模型的预测概率。另外logistic 函数也能满足这样的要求。采用logistic 函数的模型称作logit 模型。

累积正态概率分布曲线 logistic 曲线

2.Probit (概率单位)模型,仍假定 y i = α + β x i , 而 p i = F ( y i ) =

?∞--

i

y t dt e

2

221π

(6)

累积概率分布函数曲线在p i = 0.5附近的斜率最大。对应y i 在实轴上的值,相应概率值永远大于0、小于1。显然Probit 模型比Tobit 模型更合理。Probit 模型需要假定y i 服从正态分布。

3.logit 模型

该模型是McFadden 于1973年首次提出。其采用的是logistic 概率分布函数。其形式是 p i = F (y i ) = F (α + β x i ) =

i

y e

-+11=

)

(11i x e

βα+-+ (7)

对于给定的x i ,p i 表示相应个体做出某种选择的概率。

Probit 曲线和logit 曲线很相似。两条曲线都是在p i = 0.5处有拐点,但logit 曲线在两个尾部要比Probit 曲线厚。利用(6)和(7)式得到的概率值见表1。

表1 Probit 模型和logit 模型概率值

y i

正态分布函数

p i =

?∞

--

i

y t dt e

2

221π

逻辑概率分布

p i =

i

y e -+11

-2.0 0.0228 0.1192 -1.5 0.0668 0.1824 -1.0 0.1587 0.2689 -0.5 0.3085 0.3775 0.0 0.5000 0.5000 0.5 0.6915 0.6225 1.0 0.8413 0.7311 1.5 0.9332 0.8176 2.0 0.9772 0.8808 3.0

0.9987 0.9526

图2 Probit 曲线、logit 曲线比较示意图

logit 曲线计算上也比较方便,所以Logit 模型比Probit 模型更常用。

对上式作如下变换,

p i (1+ i y e -) = 1 (8) 对上式除以p i ,并减1得 e -y i =

i p 1

-1 = i i p p -1 取倒数后,再取对数, y i = log (i

i

p p -1) 所以 log (

i

i

p p -1) = y i = α + β x i (9) 由上式知回归方程的因变量是对数的某个具体选择的机会比。logit 模型的一个重要优点是把在 [0,1] 区间上预测概率的问题转化为在实数轴上预测一个事件发生的机会比问题。logit 累积概率分布函数的斜率在p i = 0.5时最大,在累积分布两个尾端的斜率逐渐减小。说明相对于p i = 0.5附近的解释变量x i 的变化对概率的变化影响较大,而相对于p i 接近0和1附近的x i 值的变化对概率的变化影响较小。

对于Logit 模型使用极大似然法估计参数是一个很好的选择。首先分析含有两个参数(α 和β)的随机试验。假设被估计的模型如下

p i =

)

(11i x e βα+-+=

i

y e -+11 (10)

在样本中p i 是观测不到的。相对于x i 的值,只能得到因变量y i 取值为0或1的信息。极大似然估计的出发点就是寻找样本观测值最有可能发生条件下的α 和 β 的估计值。从样本看,如果第一种选择发生了n 次,第二种选择发生了N -n 次。设采取第一种选择的概率是p i 。采取第二种选择的概率是(1- p i )。重新将样本数据排列,使前n 个观测值为第一种选择,后N -n 个观测值为第二种选择(观测值是0,1的,但相应估计的概率却各不相同)。

例1 (file:case5)

南开大学国际经济研究所1999级研究生考试分数及录取情况见数据表(N = 95)。定义变量SCORE :考生考试分数;Y :考生录取为1,未录取为0;虚拟变量D1:应届生为1,非应届生为0。

-0.2

0.00.20.40.60.81.01.2

100

200

300

400

SC OR E

Y

-0.2

0.0

0.20.40.60.81.01.2

-0.20.00.20.40.60.81.01.2D 1

Y

图1 样本观测值(file:logit1)

得Logit 模型估计结果如下(EViews 命令:Quick, estimate equation 分别选Probit 或Logit ):

注:Akaike information criterion = -2

T L log + 2T k

Schwarz criterion = -2T

L

log + k T T Ln )(

Hannan-Quinn criterion = -2T

L

log + 2 k T LnT Ln )(

Average Log likelihood function = T

L

log

其中k 为被估参数个数,T 为样本容量。

McFadden R-squared = 1-)

?(log )

~(log ββL L 因为D1的系数没有显著性。说明“应届生”和“非应届生”不是决定是否录取的重要

因素。剔除D1。得Logit 模型估计结果如下

p i = F (y i ) =

)

6794.07362.243(11

i x e +--+ 拐点坐标 (358.7, 0.5)

注意:表达式中指数的写法。

-0.2

0.00.20.40.60.81.01.2

100

200

300

400

SC OR E

YFLOGI

图2 Logit 模型预测值,拐点坐标 (358.7, 0.5)

在估计Probit 模型过程中,D1的系数也没有显著性。剔除D1,Probit 模型最终估计结果是

p i = F (y i ) = F (-144.456 + 0.4029 x i ) 拐点坐标 (358.5, 0.5)

-0.2

0.00.20.40.60.81.01.2

100

200

300

400

SC OR E

Y FPR OB

图3 Probit 模型预测值,拐点坐标 (358.5, 0.5)

两种估计模型的若干预测结果如下表,

表2 数据表

例3:农户劳动力的非农业就业模型(file:logitzhou)。

本例的主要任务之一是要考察影响农村居民家庭劳动力非农业就业的主要因素,尤其重点考察教育程度对非农业就业的影响。

一般而言,在劳动力市场发育相对成熟的条件下,教育可以提高劳动力非农就业的可能性。劳动力教育程度越高,非农就业的机会越多,非农就业的倾向也就越高。此外,还有其他许多因素影响农村劳动力的非农就业。如

(1)农村居民家庭所在地区的区位条件。在其他条件保持不变的条件下,离中心城市越近,非农产业越发达,提供的非农就业机会就越多。同时农户进入非农产业就业的成本越低。这种家庭中的劳动力进入非农业就业的可能性也越大。

(2)被调查对象所在村镇的乡镇企业的发达程度直接影响农村居民的非农就业。乡镇企业越发达,农村居民非农业就业的概率越高;反之,乡镇企业越不发达,非农就业的概率越小。

(3)农户拥有生产资料情况也是影响其劳动力非农就业的重要因素。其中,如果其他条件相同,则非农业生产性固定资产越多,则农户中劳动力的非农业就业倾向越大。而农业生产性固定资产对劳动力非农就业倾向影响比较复杂,如果农户所拥有农业生产性固定资产属于有劳动力替代型的,则它与劳动力非农就业倾向之间的关系是正相关的,反之如果属于劳动力互补型的,则它与非农就业倾向之间存在着负相关关系。

(4)农户所拥有的耕地的数量影响其非农就业的倾向,在我国现有的农业现代化程度比较低的条件下,耕地越多意味着农户必须将更多的劳动力分配到农业生产中,因此农户劳动力的非农就业倾向越小,反之,耕地越少则非农就业的倾向越高。

(5)家庭结构也是影响农户劳动力非农就业的重要因素,家庭负担越轻,劳动力从事非农就业的倾向越大。

(6)劳动力受教育程度。

根据上述分析,我们构建了如下的计量模型:

Y=C+β1X+β2NYGDZC+β3FNYGDZC+β4XZQY+β5RJGD+β6FDXS+α1School1

+α2School2+α3School3+α4School4+α5School5+α6School6+u t

其中:

Y为农户中是否有非农业就业的劳动力,如果有取1,没有则取0;

X为地区代码。如果被调查对象属于滨海三区和四郊取1,否则取0;

NYGDZC为农户所拥有的人均农业生产性固定资产的价值;

FNYGDZC为农户拥有的人均非农业生产性固定资产的价值;

XZQY为农户所在村镇乡镇企业的个数;

RJGD为农户家庭人均拥有的耕地的数量;

FDINDEX为家庭结构的劳动力负担系数;

school1表示家庭中文盲或识字很少的劳动力的人数;

school2表示农户家庭内中小学文化程度的劳动力人数;

school3表示农户家庭中具有初中文化程度的劳动力的人数;

school4表示高中文化程度的劳动力的人数;

school5表示中专文化程度的劳动力的人数;

school6表示大专以上文化程度的劳动力的人数。

将被调查的样本将数据带入上述计量模型,具体结果见表3.1中的模型Ⅰ。

农村居民家庭非农业就业的Logit估计结果

资料来源:天津市农村社会经济调查队。

注:(1)*表示10%的水平下是显著的;**表示5%的水平下是显著的;***表示1%的水平下是显著的。

(2)模型Ⅰ包含了全部样本在内,模型Ⅱ只包含了五县的样本,模型Ⅲ只包含了四个近郊和滨海三区的样本

0.0

0.5

1.0

-0.5

0.0

0.5

1.0

1.5

2.0

Yhat

YF

注:YF 是上述logit 模型的预测值;Yhat 是用上述变量做的线性回归的预测值。

所以散点图正好能看出生长曲线的走势。

估计结果显示,教育程度对劳动力的非农业就业倾向有着非常明显的作用。除文盲外,随着教育程度的提高,农户中劳动力从事非农就业的倾向越大。正如前面所分析的那样,宏观变量中,区位因素和当地乡镇企业的发达程度对农户的劳动力从事非农就业产生了明显的促进作用。微观因素中,农户拥有农业生产固定资产对其非农就业的影响是负的,而非农业生产性固定资产的影响则是正的。这表明农户的资产存量对其非农就业的影响是双向的,具体的情况主要取决于资产的种类。同时,农户拥有的耕地数量对其非农业就业的影响是负的,这表明我国农业生产的产业化程度还比较低,农业生产方式还具有劳动密集型的特点。劳动力负担系数对非农业就业未产生显著的影响。所以如此的主要原因在于,在农村老人往往更多地承担起了照顾孩子的责任。劳动力的负担并未成为制约农户劳动力非农就业的主要因素。这一点与其他学者的研究结论类似。

离散选择模型还有其他几种形式:

删改模型或删截模型(censored regression model )。把小于或大于某一点的数值用该点数值替代的模型。Tobit 模型就是一种删截模型,被解释变量在删改点1之上或0之下的值分别被赋值1或0。

截尾模型或截断模型(truncated regression model )。应用于某个截断点之上或之下的观测值数据得不到或故意舍弃的一种回归模型。例如某种产品,见到的只是分等级的合格品,不合格品已经看不到,被舍弃。

计数模型(count model )。当被解释变量表示次数时,离散模型就变成了计数模型。例如每年华北地区发生沙尘暴次数的模型,公司申请专利数模型。因变量服从泊松分布。

有序响应模型(ordered response model )。当相互排斥的定性分类有一个正常的顺序时,可用有序响应模型描述。例如描述某人的受教育程度时,建立的模型。有序响应模型与计数模型有些类似,但又不同。有序响应数据没有自然的数值。

多元离散选择模型(multiple choice model )。被解释变量的选择不是二元的,而是多元的。

二元选择模型

二元选择摸型 如果回归模型的解释变量中含有定性变量,则可以用虚拟变量处理之。在实际经济问题中,被解释变量也可能是定性变量。如通过一系列解释变量的观测值观察人们对某项动议的态度,某件事情的成功和失败等。当被解释变量为定性变量时怎样建立模型呢?这就是要介绍的二元选择模型或多元选择模型,统称离散选择模型。这里主要介绍Tobit (线性概率)模型,Probit (概率单位)模型和Logit 模型。 1.Tobit (线性概率)模型 Tobit 模型的形式如下, y i = α + β x i + u i (1) 其中u i 为随机误差项,x i 为定量解释变量。y i 为二元选择变量。此模型由James Tobin 1958年提出,因此得名。如利息税、机动车的费改税问题等。设 1 (若是第一种选择) y i = 0 (若是第二种选择) -0.2 0.0 0.20.40.60.81.01.2 330 340 350 360 370 380 X Y 对y i 取期望, E(y i ) = α + β x i (2) 下面研究y i 的分布。因为y i 只能取两个值,0和1,所以y i 服从两点分布。把y i 的分布记为, P ( y i = 1) = p i P ( y i = 0) = 1 - p i 则 E(y i ) = 1 (p i ) + 0 (1 - p i ) = p i (3) 由(2)和(3)式有 p i = α + β x i (y i 的样本值是0或1,而预测值是概率。) (4) 以p i = - 0.2 + 0.05 x i 为例,说明x i 每增加一个单位,则采用第一种选择的概率增加0.05。 现在分析Tobit 模型误差的分布。由Tobit 模型(1)有, u i = y i - α - β x i =?? ?=--=--0 ,1 ,1i i i i y x y x βαβα E(u i ) = (1- α - β x i ) p i + (- α - β x i ) (1 - p i ) = p i - α - β x i 由(4)式,有

二元离散选择模型案例

第七章 二元离散选择模型案例 1、在一次选举中,由于候选人对高收入者有利,所以收入成为每个投票者表示同意或者反对的最主要影响因素。以投票者的态度(y )作为被解释变量,以投票者的月收入(x )作为解释变量建立模型,同意者其观测值为1,反对者其观测值为0,样本数据见表7.1。原始模型为:i i i y x αβμ=++。利用Probit 二元离散选择模型估计参数。 表7.1 样本观测值 输入变量名,选择Probit 参数估计。

得到如下输出结果: 但是作为估计对象的不是原始模型,而是如下结果: =---+ 1@[( 4.75390.003067*)] YF CONRM X 可以得到不同X值下的Y选择1的概率。例如,当X=600时,查标准正态分布表,对应于2.9137的累积正态分布为0.9982;于是,Y的预测值YF=1-0.9982=0.0018,即对应于该个人,投赞成票的概率为0.0018。

2、某商业银行从历史贷款客户中随机抽取78个样本,根据涉及的指标体系分别计算它们的“商业信用支持度”(XY)和“市场竞争地位等级”(SC),对它们贷款的结果(JG)采用二元离散变量,1表示贷款成功,0表示贷款失败。样本观测值见表8.2。目的是研究JG与XY、SC之间的关系,并为正确贷款决策提供支持。 估计过程如下:

输入变量名,选择Logit参数估计。 得到如下输出结果:

用回归方程表示如下: JGF CONRM XY SC =---+ 1@[(16.110.465035*9.379903*)] 该方程表示,当XY和SC已知时,带入方程,可以计算贷款成功的概率JGF。 3、某研究所1999年50名硕士考生的入学考试总分数(SCORE)及录取情况见表5。考生考试总分数用SCORE表示,Y为录取状态,D1为表示应届生与往届生的虚拟变量。 表7.3 50名硕士考生的入学考试总分数(SCORE)及录取状况数据表

第五章离散选择模型

第五章离散选择模型 在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。 本章主要介绍以下内容: 1、为什么会有离散选择模型。 2、二元离散选择模型的表示。 3、线性概率模型估计的缺陷。 4、Logit模型和Probit模型的建立与应用。 第一节模型的基础与对应的现象 一、问题的提出 在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。 1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。由离散数据建立的模型称为离散选择模型。 2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。这种类型的数据成为审查数据。再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,

就把高出分数线和低于分数线划分为了两类。 下面是几个离散数据的例子。 例5.1 研究家庭是否购买住房。由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即 我们希望研究买房的可能性,即概率(1) P Y=的大小。 例5.2 分析公司员工的跳槽行为。员工是否愿意跳槽到另一家公司,取决于薪资、发展潜力等诸多因素的权衡。员工跳槽的成本与收益是多少,我们无法知道,但我们可以观察到员工是否跳槽,即 例5.3 对某项建议进行投票。建议对投票者的利益影响是无法知道的,但可以观察到投票者的行为只有三种,即 研究投票者投什么票的可能性,即(),1,2,3 ==。 P Y j j 从上述被解释变量所取的离散数据看,如果变量只有两个选择,则建立的模型为二元离散选择模型,又称二元型响应模型;如果变量有多于二个的选择,则为多元选择模型。本章主要介绍二元离散选择模型。 离散选择模型起源于Fechner于1860年进行的动物条件二元反射研究。1962年,Warner首次将它应用于经济研究领域,用于研究公共交通工具和私人交通工具的选择问题。70-80年代,离散选择模型被普遍应用于经济布局、企业选点、交通问题、就业问题、购买行为等经济决策领域的研究。模型的估计方法主要发展于20世纪80年代初期。(参见李子奈,高等计量经济学,清华大学出版社,2000年,第155页-第156页) 二、线性概率模型 对于二元选择问题,可以建立如下计量经济模型。

离散选择模型

离散选择模型 集团标准化工作小组 [Q8QX9QT-X8QQB8Q8-NQ8QJ8-M8QMN]

第五章离散选择模型 在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。 本章主要介绍以下内容: 1、为什么会有离散选择模型。 2、二元离散选择模型的表示。 3、线性概率模型估计的缺陷。 4、Logit模型和Probit模型的建立与应用。 第一节模型的基础与对应的现象 一、问题的提出 在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。 1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。由离散数据建立的模型称为离散选择模型。 2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。这种类型的数据成为审查数据。再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。 下面是几个离散数据的例子。 例研究家庭是否购买住房。由于,购买住房行为要受到许多因素的影响,不仅

计量经济学第八讲

三、多重共线性的检验 (一) 相关系数检验 利用相关系数可以分析解释变量之间的两两相关情况。在EViews 软件中可以直接计算(解释)变量的相关系数矩阵: [命令方式]COR 解释变量名 [菜单方式]将所有解释变量设置成一个数组,并在数组窗口中点击View\Correlations. (二) 辅助回归模型检验 相关系数只能判断解释变量之间的两两相关情况,当模型的解释变量个数多于两下、并且呈现出较为复杂的相关关系时,可以通过每个解释变量对其他解释变量的辅助回归模型来检验多重共线性,即依次建立k 个辅助回归模型: k i x a x a x a x a a x k k i i i i i ,,11 1 1 1 1 1 =++++++=++--ε 如果,其中某些方程显著,则表明存在多重共线性,所对应的变量可以近似地用其他解释变量线性表示。 辅助回归模型检验不仅能检验多元回归模型的多重共线性,而且可以得到多重共线性的具体形式;如果再结合偏相关关系检验,还能进一步判定是哪些解释变量引起了多重共线性,这有助于分析如何消除多重共线性的影响。 (三) 方差膨胀因子检验 对于多元线性回归模型,i b ?的方差可以表示成:

i ij i i ij i VIF x x R x x b D ?∑-=-∑-=2 2 2 2 2 ) (11)()?(σσ 其中,i i x R 为2 关于其他解释变量辅助回归模型的判定系数,i VIF 为方差膨胀因子。随着多重共线性程度的增强,VIF 以及系数估计误差都在增大。因此,可以用VIF 作为衡量多重共线性的一个指标;一般当10>VIF 时,(此时9.02>i R ),认为模型存在较严重的多重共线 性。 另一个与VIF 等价的指标是“容许度”(Tolerance ),其定义为: i i i VIF R TOL /1)1(2 =-= 显然,10≤≤TOL ,当i x 与其他解释变量高度相关时,0→TOL 。因此,一般当1.0

第七章 二元离散选择模型

第七章 二元离散选择模型 1.在一次选举中,由于候选人对高收入者有力,所以收入成为每个投票者表示同意或者反对的最主要影响因素。以投票者的态度(y )作为被解释变量,以投票者的月收入(x )作为解释变量建立模型,同意者其观测值为1,反对者其观测值为0,样本数据见表7.1。原始模型为:i i i y x αβμ=++。利用Probit 二元离散选择模型估计参数。 表8.1 样本观测值 序号 X Y 序号 X Y 序号 X Y 1 100 0 11 1100 0 21 2100 1 2 200 0 12 1200 0 22 2200 1 3 300 0 13 1300 1 23 2300 1 4 400 0 14 1400 0 24 2400 1 5 500 0 15 1500 1 25 2500 1 6 600 0 16 1600 0 26 2600 1 7 700 0 17 1700 1 27 2700 1 8 800 0 18 1800 0 28 2800 1 9 900 0 19 1900 1 29 2900 1 10 1000 20 2000 1 30 3000 1 估计过程如下: 输入变量名,选择Probit 参数估计。

得到如下输出结果: 但是作为估计对象的不是原是模型,而是如下结果: =---+ YF CONRM X 1@[( 4.75390.003067*)] 可以得到不通X值下的Y选择1的概率。例如,当X=600时,查标准正态分布表,对应于2.9137的累积正态分布为0.9982;于是,Y的预测值YF=1-0.9982=0.0018,即对应于该个人,投赞成票的概率为0.0018。 1.某商业银行从历史贷款客户中随机抽取78个样本,根据涉及的指标体系分别计算它们

离散选择模型完整版

离散选择模型 HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】

第五章离散选择模型 在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。 本章主要介绍以下内容: 1、为什么会有离散选择模型。 2、二元离散选择模型的表示。 3、线性概率模型估计的缺陷。 4、Logit模型和Probit模型的建立与应用。 第一节模型的基础与对应的现象 一、问题的提出 在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。 1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。由离散数据建立的模型称为离散选择模型。 2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。这种类型的数据成为审查数据。再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。 下面是几个离散数据的例子。 例研究家庭是否购买住房。由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住

二元离散选择模型

二元离散选择模型 1.在一次选举中,由于候选人对高收入者有力,所以收入成为每个投票者表示同意或者反对的最主要影响因素。以投票者的态度(y )作为被解释变量,以投票者的月收入(x )作为解释变量建立模型,同意者其观测值为1,反对者其观测值为0,样本数据见表7.1。原始模型为:i i i y x αβμ=++。利用Probit 二元离散选择模型估计参数。表8.1样本观测值序号X Y 序号X Y 序号 X Y 11000111100021210012200012120002222001330001313001232300144000141400024240015500015150012525001660001616000262600177000171700127270018800018180002828001990001919001292900110 1000 20 20001 30 3000 1 估计过程如下: 输入变量名,选择Probit 参数估计。

得到如下输出结果: 但是作为估计对象的不是原是模型,而是如下结果: 1@[( 4.75390.003067*)] YF CONRM X =???+可以得到不通X 值下的Y 选择1的概率。例如,当X=600时,查标准正态分布表,对应于2.9137的累积正态分布为0.9982;于是,Y 的预测值YF=1-0.9982=0.0018,即对应于该个人,投赞成票的概率为0.0018。 1.某商业银行从历史贷款客户中随机抽取78个样本,根据涉及的指标体系分别计算它们

的“商业信用支持度”(XY)和“市场竞争地位等级”(SC),对它们贷款的结果(JG)采用二元离散变量,1表示贷款成功,0表示贷款失败。样本观测值见表8.2。目的是研究JG与XY、SC之间的关系,并为正确贷款决策提供支持。 表8.2样本观测值 JG XY SC JGF JG XY SC JGF JG XY SC JGF 0125-2001500-20054-10 0599-200960014221 0100-201-80104200.0209 0160-200375-2011821 046-20042-1 6.50E-130801 6.40E-12 080-2015211-501 0133-200172-20032620 0350-101-801026110 12300.9979089-201-2-10.9999 060-200128-20014-2 3.90E-07 070-10160112200.9991 1-8010150-10011310 0400-201542114210.9987 07200028-2015720.9999 0120-1012500.9906014600 14010.999812300.997911501 13510.999911401026-2 4.40E-16 12611049-10089-20 115-10.4472014-10.54981511 069-100610 2.10E-121-9-11 010710140211411 12911030-20054-20 12110112-1013211 13710.9999078-200540 1.40E-07 053-1010010131-20 0194000131-2011501 估计过程如下:

相关文档