文档库 最新最全的文档下载
当前位置:文档库 › 第五章离散选择模型(20140429)

第五章离散选择模型(20140429)

第五章离散选择模型(20140429)
第五章离散选择模型(20140429)

第五章离散选择模型

在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。

本章主要介绍以下内容:

1、为什么会有离散选择模型。

2、二元离散选择模型的表示。

3、线性概率模型估计的缺陷。

4、Logit模型和Probit模型的建立与应用。

第一节模型的基础与对应的现象

一、问题的提出

在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。

1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。由离散数据建立的模型称为离散选择模型。

2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。这种类型的数据成为审查数据。再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候,人们甚至更愿意将连续数据转化为上述类型数据

来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。

下面是几个离散数据的例子。

例5.1 研究家庭是否购买住房。由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即

1,0Y ?=??购买,不购买

我们希望研究买房的可能性,即概率(1)P Y =的大小。

例5.2 分析公司员工的跳槽行为。员工是否愿意跳槽到另一家公司,取决于薪资、发展潜力等诸多因素的权衡。员工跳槽的成本与收益是多少,我们无法知道,但我们可以观察到员工是否跳槽,即

1,0Y ?=??跳槽,不跳槽

例5.3 对某项建议进行投票。建议对投票者的利益影响是无法知道的,但可以观察到投票者的行为只有三种,即

1,23Y ??=???

支持,反对,弃权

研究投票者投什么票的可能性,即(),1,2,3P Y j j ==。

从上述被解释变量所取的离散数据看,如果变量只有两个选择,则建立的模型为二元离散选择模型,又称二元型响应模型;如果变量有多于二个的选择,则为多元选择模型。本章主要介绍二元离散选择模型。

离散选择模型起源于Fechner 于1860年进行的动物条件二元反射研究。1962年,Warner 首次将它应用于经济研究领域,用于研究公共交通工具和私人交通工具的选择问题。70-80年代,离散选择模型被普遍应用于经济布局、企业选点、交通问题、就业问题、购买行为等经济决策领域的研究。模型的估计方法主要发展于20世纪80年代初期。(参见李子奈,高等计量经济学,清华大学出版社,2000年,第155页-第156页)

二、线性概率模型

对于二元选择问题,可以建立如下计量经济模型。

1、线性概率模型的概念

设家庭购买住房的选择主要受到家庭的收入水平,则用如下模型表示

12i i i Y X u ββ=++

其中,i X 为家庭的收入水平,i Y 为家庭购买住房的选择,即

10Y ?=??家庭已购买住房家庭无购买住房

由于Y 是取值为0和1的随机变量,并定义取Y 值为1的概率是p ,则Y 的分布为

即随机变量Y 服从两点分布。根据两点分布,可得Y 的数学期望为

()0(1)1E Y p p p =?-+?= 显然

(1|)(|)()i i P Y X p E Y X E Y ====

从而

12(|)i i E Y X X p ββ=+= (5-1)

上述数学模型的经济学解释是,因为选择购买住房变量取值是1,其概率是p ,并且这时对应p 的表示是一线性关系,因此,Y 在给定i X 下的条件期望()i E Y X 可解释为在给定i X 下,事件(家庭购买住房)将发生的条件概率为(1)i i P Y X =,亦即家庭选择购买住房的概率是家庭收入的一个线性函数。我们称这一关系式为线性概率函数。

由于,Y 服从两点分布,所以,Y 的方差为

()(1)Var Y p p =-

2、线性概率函数的估计及存在的问题

对线性概率函数直接运用OLS 估计,会存在以下困难。

(1)随机误差项的非正态性表现

1212121,

10,i i i

i i i i i i

u Y X Y u X Y u X ββββββ=--∴==--==--

表明i u 服从两点分布。而在经典计量经济学中,假定i u 服从正态分布。

(2)i u 的异方差性。事实上,根据i u 服从两点分布

则i u 的方差为()(1)i i i Var u p p =-。表明i p 随着i 的变动是一个变量,则i u 的方差不是一个固定常数。

(3)利用加权最小二乘法修正异方差

取权数为

2β=

=∴=+

具有同方差。在具体估计线性概率模型时,用?i Y 作为p 的估计来计算权数w 的估计w

?。 3、可决系数2R 的非真实性。由于,被解释变量Y 只取值1或0,不可能有估计的线性概率模型能很好地拟合这些点,所以,这时计算的2R 会比1小许多,在大多数例子中,2R 介于0.2与0.6之间。

4、0≤()i i E Y X ≤1不成立。克服这一问题可直接从对线性概率模型的估计,求出?i Y ,用人工的方法定义当?i Y >1时,取?i Y =1;当?i Y <0时,取?i

Y =0。 但要比较好地解决这类问题,只能考虑采用新的估计方法,这就是将要介绍的Logit 模型和Probit 模型。

第二节Logit模型

一、Logit 模型的产生

1、产生Logit 模型的背景

由上述介绍可知,对于线性概率模型来说,存在一些问题,有的问题尽管可以用适当的方法加以弥补,但并不完善和理想。

(1)古典假定不再成立,如存在异方差性,可用加权OLS 方法加以弥补。

(2)在线性概率模型中,对于不满足0≤()i i E Y X ≤1的情况,用人工的方法处理,即

当?i Y >1时,取?i

Y =1 当?i Y <0时,取?i

Y =0 虽然能够弥补不足,但仍然具有较强的主观因素。

(3)经济意义也不能很好地得到体现。在线性概率模型12(|)i i E Y X X p ββ=+=中,概率(1)P Y =会随着i X 的变化而线性变化,但这与实际情况通常不符。例如购买住房,通常收入很高或很低,对于购买住房的可能性都不会有太大的影响,而当收入增加很快时,对购买住房的影响将会很大。所以,购买住房的可能性与收入之间并不是线性关系,有可能是一种非线性关系。

2、Logit 模型的含义

综合上述讨论,我们所需要的是具有如下二分性质的模型。

(1)随着i X 的减小,i p 趋近0的速度会越来越慢;反过来随着i X 的增大,

i p 接近1的速度也越来越慢,

而当i X 增加很快时,i p 的变化会比较快。故i p 与i X 之间应呈非线性关系。

(2)并且由概率的属性,i p 的变化应始终在0和1之间。

因此,一个很自然的想法是采用随机变量的分布函数来表示i p 与i X 的这种非线性关系。从几何图形看,所需要的模型有点像图5.1那样,概率位于0与1之间,并随着i X 非线性地变化。

形如图5.1所示的S 型曲线,就是随机变量的一个累积分布函数(CDF )。因此,当回归中的被解释变量是取0和1的二分变量时,并且概率值的变化与解释变量i X 之间有上述变化特征,则可用CDF 去建立回归模型。在二分被解释变量的研究中可使用多种分布函数(Cox ,1970)来表示。但最常用的是Logistic 分布函数和标准正态分布函数,前者导出Logit 模型,后者导出Probit 模型。

(3)Logistic 分布函数

12()11()11i i i i z X p F z e e ββ--+===++ (5-2) 式中,12i i Z X ββ=+。并且在该表达式中,有如下变动规律,

当i Z →+∞时,1i p →;

当i Z →-∞时,0i p →;

当0i Z =时,12

i p =。 称(5-2)式为Logistic 分布函数,它具有明显的S 型分布特征。

(4)Logit 模型

以下是由Logistic 分布函数导出Logit 模型。

12111,11111111ln()(53)

1i i i

i i i i i Z Z Z Z Z i Z i i i i i p p e e e p e e p e p Z X p ββ---=

∴-=-=++++∴==-+∴==+--

其中,1i i

p p -为机会概率比(简称机会比,下同),即事件发生与不发生所对应的概率之比。称(5-3)式为Logit 模型。

3、Logit 模型的特点

(1)随着P 从0变到1,ln()1p p

-从-∞变到∞(亦即i Z 从-∞变到∞)。可以看出,在LPM 中概率必须在0与1之间,但对Logit 模型并不受此约束。

(2)ln()1p p

-对i X 为线性函数。 (3)当ln()1p p

-为正的时候,意味着随着i X 的增加,选择1的可能性也增大了。当ln()1p p

-为负的时候,随着i X 的增加,选择1的可能性将减小。换言之,当机会比由1变到0时,ln()1p p

-会变负并且在幅度上越来越大;当机会比由1变到无穷时,ln()1p p

-为正,并且也会越来越大。 4、Logit 模型与线性回归模型的区别

(1)Logit 模型为非线性模型,尽管等式右端看上去是线性形式,而普通回归模型是线性模型。

(2)线性回归模型研究被解释变量Y 的均值(|)i E Y X 与解释变量i X 之间的依存关系,而Logistic 分布函数研究的是事件发生的概率(1|)i P Y X =与解释变量i X 的依存关系。

(3)线性回归模型中包含随机误差项i u ,对i u 的要求是要满足基本假定,而Logistic 分布函数没有出现随机误差项,对模型没有这样的要求。

(4)在估计Logit 模型时,要求数据必须来自于随机样本,即各观测值相互独立,或者说要求样本分布与总体分布具有同一性,而对线性回归模型一般情况下并无这样严格的要求。

此外,Logit 模型与线性回归模型的一个相同的要求是,解释变量之间要无多重共线性,否则,会导致参数估计的方差变大和不稳定。

二、Logit 模型的估计

为了估计Logit 模型,除了i X 外,我们还应有ln()1p p

-的数值。由于i p 只取值为1和0(即事件发生或不发生,如买房或不买房),使得ln()1p p

-无意义,通常情况下,i p 没有具体的数据,所以直接对Logit 模型进行估计有困难。这时,

可有以下估计方法。

1、根据数据类型选用OLS 方法 可通过市场调查获得分组或重复数据资料,用相对频数?i i i

r p n =作为i p 的估计。以购买住房为例,将购买住房的情况分组,假设第i 组共有i n 个家庭,收入

为i X ,其中有i r 个家庭已购买住房,其余未购买。则收入为i X 的家庭,购买住房的频率为

?i i i

r p n = 将其作为i p 的估计,并代入对数机会比,有

?ln()ln()?11i i i i

p p p p ≈-- 于是,样本回归函数为

12???ln()?1i i i p X p

ββ=+- 对上式可直接运用OLS 法估计未知参数了。具体应用可参见Damodar N. Gujarati 《计量经济学基础》(第四版)下册,中国人民大学出版社,2005年。第559页-第560页。

2、最大似然估计方法

在线性回归中估计总体未知参数时主要采用OLS 方法,这一方法的原理是

根据线性回归模型选择参数估计,使被解释变量的观测值与模型估计值之间的离差平方值为最小。而最大似然估计方法则是统计分析中常用的经典方法之一,它是建立在由联合密度函数所导出的似然函数,并对其求极值而得到参数估计的一种方法。在线性回归分析中最大似然估计法可以得到与最小二乘法一致的结果。但是,与最小二乘法相比,最大似然估计法既可以用于线性模型,又可以用于非线性模型,由于Logit 回归模型是非线性模型,因此,最大似然估计法是估计Logit 回归模型最常用的方法。下面,以单变量为例,说明该方法的运用。

假设有n 个样本观测数据(,),1,2,,i i X Y i n =,

由于样本是随机抽取,所以,在给定i X 条件下得到的1i Y =和0i Y =的概率分别是i p 和1i p -。于是,一个观测

值的概率为

1()(1)i i Y Y i i i P Y p p -=-

其中,1i Y =或0i Y =。因为,各项观察相互独立,则n 次观察所得的样本数据的联合分布可表示为各边际分布的连乘积

(1)1211(,)()(1)i i n n

Y Y i i i i i L P Y p p ββ-====-∏∏

称上式为n 次观察的似然函数。由最大似然估计法的原理知,最大似然估计就是求解出具有最大可能取所给定的样本观测数据的参数估计。于是,最大似然估计

的关键是估计出1

?β和2?β,使得上述表达式取得最大值。将上式两端取对数得 [][]

121212(1)1211

1121121ln (,)ln (1)ln (1)ln(1)ln()ln(1)1()ln(1)1()ln(1)i i i i i n Y Y i i i n

i i i i i n i i i i i X n i i X i n

X i i i L p p Y p Y p p Y p p e Y X e Y X e ββββββββββββ-===++=+=??=-????

=+--??=+-??-??

??=++-??+??

??=+-+??∏∑∑∑∑ 称上式为对数似然函数。为了估计能使[]12ln (,)L ββ有最大的总体参数估计1

?β和

2

?β,先分别对12,ββ求偏导数,然后令其为0,得 [][]1212121212111212ln (,)01ln (,)01i i i i X n i X i X n i i X i L e Y e L e Y X e ββββββββββββββ++=++=???=-=???+?????=-=???+??

∑∑ 在线性回归中,似然函数是通过把偏离差平方和分别对12,ββ求偏导数得到,它

对于未知参数都是线性的,因此,很容易求解。但是对于Logit 回归中的上述两个方程是关于12,ββ的非线性函数,求解十分困难。随着现代计算机技术的发展,

许多计量经济学和统计学的软件包均有Logit 回归的参数最大似然估计值,常用的EViews 软件就含有该估计方法。

3、Logit 回归最大似然估计的统计性质

(1)参数估计具有一致性,即当样本观测增大时,模型的参数估计值将比较接近参数的真值。

(2)参数估计为渐近有效,即当样本观测增大时,参数估计的标准误相应减小。

(3)参数估计满足渐近正态性,即随着样本观测的增大,估计的分布近似于正态分布。这意味着,可以利用这一性质对未知参数进行假设检验和区间估计了。

有关证明可参见Aldrich, John & Forrest D. Nelson. 1984. Linear Probability, Logit, and Probit Models. Newbury Park, Sage Publications.

三、Logit 回归模型的评价和参数的统计检验

与一般线性回归模型一样,在得到Logit 回归模型的参数估计后,还应对模型进行评价和相应的统计检验。

1、模型的拟合优度检验

模型估计完成以后,需要对模型是否有效地描述了模型与观测数据的匹配程度进行评价。如果模型的预测值(拟合值)能够与对应的观测值有较高的一致性,就认为该模型能拟合数据,否则,将不接受这一模型。对Logit 回归模型的评价有多种方法,不同的计算软件给出的评价结果也有差异。这里,我们将根据EViews 软件,介绍模型拟合优度的检验方法。

(1)McFadden 2R

在前面的介绍中,已经提到对于离散选择模型,通常的拟合优度2R 没有多

大意义。在EViews 软件里,有一种方法即McFadden 2R ,简记为2McF R 。其计

算公式为

21ur McF r

LIF R LIF =- 式中,ur LIF 为模型中包含所有解释变量的无约束对数似然函数值,r LIF 为模型

中仅含有截距项的有约束的对数似然函数值。从概念上讲,ur LIF 和r LIF 分别等

价于普通线性回归模型中的RSS 和TSS 。2McF R 与2R 一样,也在0到1之间变动。

(2)期望-预测表检验

该方法的原理是,在模型参数估计后,选取适当的截断值(01)p p <<,将观测数据分成两组,一组为1/(1)Z e -+≤p ,另一组为1/(1)Z e -+>p ,其中,

12??i i

Z X ββ=+。如果样本中的一个观测数据Y 的数值为0,并且该样本属于第1组,同时另一个观测数据Y 的数值为1,并且属于第2组,就称这个观测数据是分组恰当的,否则就称这个观测数据是分组不恰当的。该方法的思想是利用分组恰当与否,得到观测数据占总样本的比重来检验模型的拟合优度。如果模型估计与实际观测数据比较一致,则大多数的观测数据应该是分组恰当的,反之,如果分组不恰当的观测数据所占的比重很大,说明模型估计与实际观测数据的拟合程度较差,模型就需要调整。

利用软件EViews 进行期望-预测表检验的步骤如下:

第一步,在估计好模型的窗口中按此路径选择View/Expectation Prediction Table 。

第二步,出现一个对话框,在对话框里输入一个截断值(01)p p <<,系统默认的截断值是0.5。通常情况下,可取i Y 为1的次数在总观测次数中所占的比例作为截断值的估计值。

第三步,点击OK 后可生成对应的期望-预测表。这时便可利用该表进行拟

合优度的判断。

有关Logit 回归模型的拟合优度其它检验方法,如皮尔逊2χ检验、偏差检验、Hosmer Lemeshow -拟合优度指标和信息测量指标等。可参见相关文献,如王济川、郭志刚,Logistic 回归模型——方法与应用,高等教育出版社,2001年,第58页——第89页。

2、参数的显著性检验

对模型中参数的显著性检验,就是决策判断某个解释变量对事件的发生(即选取1Y =)是否有显著性影响。如果检验结果表明该解释变量对选取1Y =的发生有显著性影响,则认为将该解释变量放入Logit 回归模型中是恰当的。否则,需要对模型进行适当的调整。

(1)Z 检验

以一元Logit 回归模型为例,设模型为

12()121

1(1|)11exp()i i X i P Y X e X ββββ-+===++--

对该模型中的参数2β的显著性检验的原假设为02:0H β=,即解释变量i X 对事件1Y =发生的概率没有显著性影响。根据参数的最大似然估计性质可知,在大样

本条件下,2

?β渐近服从正态分布,于是,在02:0H β=成立的前提下,检验统计量为

22??()

Z se ββ= 渐近服从标准正态分布。式中,2

?()se β为最大似然估计2?β的标准误差。因此,可按常规查标准正态分布表,对原假设进行判断,从而检验模型中参数的显著性。

(2)Wald 检验

对模型中参数显著性检验还可使用Wald 检验,其检验统计量为

222

?()?()W se ββ= 在02:0H β=下,W 渐近服从自由度为1的2χ分布。因此,可根据2χ分布表,在给定的显著性水平α下,得到相应的临界值,从而判断参数的显著性。

可参阅Hauck, W. W. & A. Donner.1977.Wald ’s tests as applied to hypotheses in logit analysis. Journal of the American Statistical Association,V ol.72:851-853.

(3)似然比检验

统计学上已经证明,在大样本情况下,两个模型之间如果具有嵌套关系,则两个模型之间的对数似然值乘以-2的结果之差近似服从2χ分布。这一统计量就是似然比统计量。

该检验的思想是,假设一个模型记为1Model 中有解释变量j X ,另一个模型

记为2Model 包含了1Model 中所有其它解释变量,而没有包含j X ,则称2Model 嵌套于1Model ,亦即1Model 中包含了2Model 。通过这一模型之间嵌套关系,我们实际上需要判断的是j X 出现在模型1Model 中是否合适。Hanushek & Jackson ,1977; Aldrich & Nelso, 1984; Greene, 1990; Long, 1997分别证实了似然比统计量为

m o d 2m o d 1m o d 2m o d 1??(2l n ())(2l n ())

?)2l n ()?e l e l el el LR L L L L =--

-=- 其中,mod 1?ln()el L 为所设定的原模型(即包含了所有解释变量——“有约束”)的

最大似然函数的对数值, mod 2?ln()el L 为省略模型(即省略了解释变量j X ——“无

约束”)的最大似然函数的对数值,两者之间的差乘以-2近似地服从2χ分布,其自由度为省略了的解释变量的个数。接下来,可根据2χ分布表,在给定的显著性水平α下,得到临界值,从而判断参数的显著性。

例 分析某种教学方法对成绩影响的有效性,被解释变量GRADE 为接受新教学方法后成绩是否改善,如果改善取1,否则取0;GPA 为平均 分数;TUCE 为测验得分;PSI 为是否接受新教学方法,如果接受取1,否则取0。运用EViews 软件中Logit 模型估计方法得到如下结果

1、由表格写出估计表达式

?

1

?(1|,,)1?13.0214 2.82610.0952 2.3787z P Y GPA TUCE PSI e z

GPA TUCE PSI -==+=-+++ 2、参数的显著性检验

包括截距项在内的4个参数估计的标准差分别为

1234

????() 4.9313,() 1.2629,()0.1415,() 1.0646se se se se ββββ==== 它们的z 统计量分别是

1234

????2.6405 2.23770.6722 2.2344z z z z ββββ=-=== 给定0.05α=,表明除了变量TUCE 外,其它两个变量对机会比均有显著性的正影响。

3、模型的显著性检验

(1)由计算表格知,拟合优度指标20.3743McF R =,表明模型有一定的拟合

优度。

(2)期望-预测表检验。因为,接受新方法成绩有所改善的比例为34.38%,所以选取截断值为0.34。在建好模型的窗口按前述的路径得到如下结果

由上表可知,左边给出的是对观测数值分组的结果,归入第1组的观测数值共为19个,其中,分组恰当的为17个,分组不恰当的为2个,即对被解释变量0Y =的观测数值(总共21个)来讲,模型分组恰当的比率为80.95%(1721

);归入第2组的观测数值为13个,其中,分组恰当的为9个,分组不恰当的为4个,即对被解释变量1Y =的观测数值(总共11个)来讲,模型分组的恰当比率为81.82%(911);由此得到模型所有观测数值总的分组恰当比率为81.25%(2632

),说明估计的模型有较好的拟合优度。

四、Logit 模型回归系数的解释

由前面的推导可知,将事件发生的条件概率定义为(1|)i i P Y X p ==,则我们可得到如下模型

12()121

1(1|)11exp()i i X i P Y X e X ββββ-+===++-- (5-3)

进一步,在发生比的基础上,我们还可得到如下模型

12ln()1i i i

p X p ββ=+- (5-4) 对模型(5-4),由于等式右端为线性表示,则可完全按照线性回归模型系数那样来解释。一个解释变量的作用如果是增加对数发生比的话,也就增加了事件发生的概率。具体来讲, Logit 模型的系数如果是正的并且统计显著,则在控制其它变量的情况下,对数发生比随对应的解释变量值增加而增加,相反,一个显著的负系数代表对数发生比随对应解释变量的增加而减少。如果系数的统计性质不显著,说明对应解释变量的作用在统计上与0无差异。

1、按发生比率来解释Logit 模型的系数

对Logit 模型的回归系数进行解释时,很难具体把握以对数单位测量的作用幅度,所以通常是将Logit 作用转换成对应的发生比来解释。

设模型为

12ln()1i i i

p X p ββ=+- 转换成发生比的形式(还原成以e 为底的指数函数)

12211i i X X i i

p e e e p ββββ+==?- (5-5) 式中,截距1β可以作为基准发生比的对数。基准的意思是指当Logit 模型中没有

任何解释变量时所产生的发生比。或者,除了常量外,所有解释变量都取0值时所产生的发生比。对于解释变量的作用的解释,由(5-5)式看出,各项作用之间已经由加法的关系转变为乘法关系。因此,系数2β的作用可解释为,当2β为正值时,2e β将大于1,则在其它条件不变的情况下,i X 每增加一个单位值时发

生比会相应增加;当2β为负值时,2e β将小于1,说明i X 每增加一个单位值时发

生比会相应减少;而当2β为0时,2e β将等于1,那么i X 不论怎样变化发生比都不会变化。

例如,在新教学方法采纳的分析中,已估计的方程可按指数运算法则转变为

?(13.0214 2.82610.0952 2.3787)(13.0214 2.82610.0952 2.3787)

13.0214 2.82610.0952 2.378711?(1|,,)11??1z GPA TUCE PSI GPA TUCE PSI GPA TUCE PSI

P

Y GPA TUCE PSI e e p e p

e e e e ---+++--+++===++∴=-=??? 由上述表达式可以看出,由于GPA>0,则 2.82611e >,因此,在其它条件不变的情况下,平均分数每增加一个单位,将导致接受新教学方法后成绩有所改善的发生比会相应提高。同理,对于变量TUCE 也可作类似的讨论;由于PSI 为虚拟解释变量,表示是否接受新教学方法,如果接受取1,否则取0,因此,在其它条件不变的情况下,当PSI=1时,则将会使接受新教学方法后,学习成绩改善的发生

比有所提高,而当PSI=0时,则将会使接受新教学方法后,学习成绩改善的发生比保持不变。

2、用概率来解释Logit 模型的系数

除了解释变量对于对数发生比的偏作用外,有时也用事件发生的概率来解释模型中系数的偏作用。对事件发生概率的偏作用可以通过对Logit 模型

121212()1

(1|)11i i i

X i X X e P Y X e e ββββββ+-++===++ 求i X 的偏导数来加以解释。其求导结果如下

12121212222()1(1)(1)

i

X i i i X X X i i e e p e p p X X e ββββββββββ++++??+===-??+ 于是,变量i X 对事件发生概率的偏作用就等于该解释变量的系数2β与(1)p p -的乘积。因为(1)p p -永远为正值,所以偏作用的符号由2β决定,作用的幅度依赖于2β的幅度和对应于i X 特定值的概率,而它与模型中所有其它解释变量有关。因此,不同于对发生比作用的解释,对事件发生概率的偏作用是随p 值的变化而变化的。这就需要在讨论变量i X 对事件发生概率的偏作用时,应将概率p 值计算出来后,才能解释其偏作用。

3、预测概率

与一般线性回归模型一样,根据Logit 模型也可以获得事件发生的预测概率。

以一个解释变量的Logit 模型为例,如果我们知道参数估计1

?β和2?β,并确定某一事件的(1,2,,)i X i n ≠,便可将其代入Logit 模型,计算预测概率。计算公式为

121212??????()1

?11i i i X X X e p e e ββββββ+-++==++

在计算预测概率的基础上,还进一步计算在解释变量发生离散变化时预测概率的变化,这种方法被称为概率离散变化法。其计算公式是

[][][]11|1|1|i i p P Y X P Y X P Y X +?==-===?

另外,与一般线性回归模型一样,由一个解释变量的Logit 模型也可扩展到

多个解释变量的Logit 模型,见下式

111111()

1

(1,2,,)11k j ji j k k j ji j ji

j j X i X X e p i n e e ββββββ===+-++∑===∑∑++

相应的对数发生比为

11l n ()(1,2,,)

1k i j j i j i p X i n p ββ==+=-∑ 类似多元线性回归模型,在Logit 模型中,由于多个解释变量可能会以多个不同的尺度加以测量,这个时候要直接对比不同解释变量对发生比的影响是不行的,因此,需要对解释变量进行标准化变换,将解释变量和被解释变量由非标准化变量转换为标准化变量,从而,才直接对比各个解释变量对发生比的影响大小。其变换方法与多元线性回归模型一样。可参见王济川、郭志刚,Logistic 回归模型——方法与应用,高等教育出版社,2001年。第115页-第117页。

第三节 Probit 模型

一、Probit 模型及参数估计

在前面已经看到,由S 型曲线,可分别得到累积分布函数和标准正态分布函数,对于后者可建立一个二元选择的Probit 模型。单一解释变量i X 的Probit 模型为

1212(1|)()()i

X i i P Y X X z dz ββββ?+-∞==Φ+=

?

式中(),()z z ?Φ分别为标准正态分布的分布函数和密度函数。

与Logit 模型的参数估计相似,对Probit 模型的参数估计也可采用最大似然估计方法。有的教科书还介绍了一种运用效用行为选择理论建立Probit 模型,并采用群组数据对Probit 模型的参数应用OLS 方法进行估计(参见Damodar N.Gujarati 《计量经济学基础》(第四版)下册,中国人民大学出版社,2005年,第569页-573页)。这里我们仅根据计算软件EViews 的功能,介绍最大似然估

计法对Probit 模型参数的估计。在样本分布与总体分布一致的前提下,按随机抽样原则抽取样本,对n 个样本(,)

1,2,,i i X Y i n =,建立对数似然函数 [][]1212121l n (,)l n ()(1)l n (1())n i

i

i i i L Y X Y X ββββββ==Φ++--Φ+∑ 上述模型的最大似然估计就是使该表达式有最大值时的12ββ、的估计1

?β、2?β。具体求解过程这里不再赘述。

例 在前述新教学方法的例子里,运用EViews 软件里的Probit 模型估计方法得到如下结果

写出具体表达式为

?(1|,,)(7.4523 1.62580.0517 1.4263)P

Y GPA TUCE PSI GPA TUCE PSI ==Φ-+++ 关于系数的解释可以从两个方面考虑。

1、用预测概率的方法

2、对概率的边际作用

相关内容可参见,王济川、郭志刚,Logistic 回归模型——方法与应用,高等教育出版社,2001年。

第八章 离散因变量模型

第八章离散因变量模型 离散(分类)因变量模型(Models with Discrete /Categorical Dependent Variables)分为二元选择模型(Binary Choice Models)和多类别选择(反应)模型(Multicategory Choice /Polytomous Response Models)。在多类别选择模型中,根据因变量的反应类别(response category)是否排序,又分为无序选择模型(Multinominal Choice Models)和有序选择模型(Ordered Choice Models)(也称有序因变量模型Ordered Dependent Variable Models、有序类别模型Ordered Category Models等) 一、二元选择模型 设因变量 1、线性概率模型(LPM模型) 如果采用线性模型, 给定,设某事件发生的概率为P i,则有 所以 称之为线性概率模型。 不足之处: 1、不能满足对自变量的任意取值都有。 2、 3、 所以线性概率模型不是标准线性模型。 给定,为使, 可对建立某个分布函数,使的取值在(0,1)。 2、Logit模型(Dichotomous/ Binary Logit Model) Logit模型是离散(分类)因变量模型的常用形式,它采用的是逻

辑概率分布函数(Cumulative Logistic Probability Function)(e为自然对数的底),逻辑曲线如图4-1所示。其中,二元Logit模型是掌握多类别Logit模型的基础。

图4-1 逻辑曲线(Logit Curve) 以二元选择问题为例,设因变量有0和1两个选择,由自变量来决定选择的结果。为了使二元选择问题的研究成为可能,首先建立随机效用模型: 令表示个体i选择=1的效用, 表示个体i选择=0的效用, 显然当时,选择结果为1,反之为0。将两个效用相减,即得随机效用模型: , 记为(4-1) 当时,,则个体i选择=1的概率为: 若的概率分布为Logistic分布,则有 即(4-2) 式(4-2)即为最常用的二元选择模型——Logit模型。 二元Logit选择模型的参数估计通常使用最大似然估计法,令似然函数,再求似然函数L的对数值最大时的参数估计量。 对(4-2)式进行适当的变换,得 即(4-3) 式(4-3)与式(4-2)是等价的,而且更易于解释,式中为个体i做出选择1的机会比(odds),式中的因变量是机会比(odds)的自然对数,参数的含义为自变量每增加一个单位机会比(odds)的自然对数

第八章_Black-Scholes_模型(金融衍生品定价理论讲义)

第八章 Black-Scholes 模型 金融学是一门具有高度分析性的学科,并且没有什么能够超过连续时间情形。概率论和最优化理论的一些最优美的应用在连续时间金融模型中得到了很好地体现。Robert C. Merton ,1997年诺贝尔经济学奖得主,在他的著名教科书《连续时间金融》的前言中写到: 过去的二十年证明,连续时间模型是一种最具有创造力的多功能的工具。虽然在数学上更复杂,但相对离散时间模型而言,它能够提供充分的特性来得到更精确的理论解和更精练的经验假设。 因此,在动态跨世模型中引入的真实性越多,就能够得到比离散时间模型越合理的最优规则。在这种意义上来说,连续时间模型是静态和动态之间的分水岭。 直到目前为止,我们已经利用二项树模型来讨论了衍生证券的定价问题。二项树模 型是一种离散时间模型,它是对实际市场中交易离散进行的一种真实刻画。离散时间模型的极限情况是连续时间模型。事实上,大多数衍生定价理论是在连续时间背景下得到的。与离散时间模型比较而言,尽管对数学的要求更高,但连续时间模型具有离散时间模型所没有的优势:(1)可以得到闭形式的解。闭形式解对于节省计算量、深入了解定价和套期保值问题至关重要。(2)可以方便的利用随机分析工具。 任何一个变量,如果它的值随着时间的变化以一种不确定的方式发生变化,我们称它为随机过程。如果按照随机过程的值发生变化的时间来分,随机过程可以分为离散时间随机过程和连续时间随机过程。如果按照随机过程的值所取的范围来分,随机过程可以分为连续变量随机过程和离散变量随机过程。在这一章中,我们先介绍股票价格服从的连续时间、连续变量的随机过程:布朗运动和几何布朗运动。理解这个过程是理解期权和其他更复杂的衍生证券定价的第一步。与这个随机过程紧密相关的一个结果是Ito 引理,这个引理是充分理解衍生证券定价的关键。 In this chapter we study the best-known continuous time model, the Black-SCHOLES MODEL. This model, developed by Fischer Black and Myron Scholes in 1973, describes the value of a European option on an asset with no cash flows. The model has had a huge influence on the way that traders price and hedge options. It has also been pivotal to the growth and success of financial engineering in the 1980s and 1990s. The model requires only five inputs: the asset price, the strike price, the time to maturity, the risk-free rate of interest, and the volatility. The Black-Scholes model has becomes the basic benchmark model for pricing equity options and foreign currency options. It is also sometimes used, in a modified form, to price Eurodollar futures options, Treasury bond options, caps, and floors. We cannot say that we have mastered option pricing theory unless we understand the Black-Scholes formula. 本章的第二部分内容在连续时间下推导Black-Scholes 欧式期权定价公式,我们分别利用套期保值方法和等价鞅测度方法。并对所需的参数进行估计。最后讨论标的股票支付红利的欧式期权定价问题。 1.连续时间随机过程 我们先介绍Markov 过程。 定义:一个随机过程{}03t t X 称为Markov 过程,如果预测该过程将来的值只与它的目 前值相关,过程过去的历史以及从过去运行到现在的方式都是无关的,即 [][]t s t s X X E X E =Y (1) 这里,t s 3,t Y 表示直到时间t 的信息。 我们通常假设股票的价格过程服从Markov 过程。假设IBM 公司股票的现在的价格是100元。如果股票价格服从Markov 过程,则股票一周以前、一个月以前的价格对于预测股票将来价格是无用的。唯一相关的信息是股票当前的价格100元。由于我们对将来价格

第五章离散选择模型

第五章离散选择模型 在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。 本章主要介绍以下内容: 1、为什么会有离散选择模型。 2、二元离散选择模型的表示。 3、线性概率模型估计的缺陷。 4、Logit模型和Probit模型的建立与应用。 第一节模型的基础与对应的现象 一、问题的提出 在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。 1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。由离散数据建立的模型称为离散选择模型。 2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。这种类型的数据成为审查数据。再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,

就把高出分数线和低于分数线划分为了两类。 下面是几个离散数据的例子。 例5.1 研究家庭是否购买住房。由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即 我们希望研究买房的可能性,即概率(1) P Y=的大小。 例5.2 分析公司员工的跳槽行为。员工是否愿意跳槽到另一家公司,取决于薪资、发展潜力等诸多因素的权衡。员工跳槽的成本与收益是多少,我们无法知道,但我们可以观察到员工是否跳槽,即 例5.3 对某项建议进行投票。建议对投票者的利益影响是无法知道的,但可以观察到投票者的行为只有三种,即 研究投票者投什么票的可能性,即(),1,2,3 ==。 P Y j j 从上述被解释变量所取的离散数据看,如果变量只有两个选择,则建立的模型为二元离散选择模型,又称二元型响应模型;如果变量有多于二个的选择,则为多元选择模型。本章主要介绍二元离散选择模型。 离散选择模型起源于Fechner于1860年进行的动物条件二元反射研究。1962年,Warner首次将它应用于经济研究领域,用于研究公共交通工具和私人交通工具的选择问题。70-80年代,离散选择模型被普遍应用于经济布局、企业选点、交通问题、就业问题、购买行为等经济决策领域的研究。模型的估计方法主要发展于20世纪80年代初期。(参见李子奈,高等计量经济学,清华大学出版社,2000年,第155页-第156页) 二、线性概率模型 对于二元选择问题,可以建立如下计量经济模型。

离散选择模型1121

Logistic回归在SPSS中应用讲课人:谢小燕 Email:xiexy@https://www.wendangku.net/doc/f910067921.html,.cm 办公室:通博楼B座211 1

内容 第一节模型的种类和形式 第二节模型系数的检验和拟合优度 第三节应用SPSS完成模型估计和输出解读 2

第一节模型的种类和形式 当遇到被解释变量是分类变量时,我们可能选择离散选择模型来建立变量间的因果关系,而不是用线性回归方程。这类模型可以用来了解客户的信用度、消费者的消费行为、癌症是否转移、医生是否选择多点从业和出行选择何种交通工具等。根据被解释变量分类变量和概率分布函数的类型,产生了不同的离散选择模型。 3

二元Logistic模型—如果被解释变量是二分变量,连接分布函数(link function)为逻辑斯蒂函数。 多元Logistic模型—如果被解释变量是多分类无序次变量,连接分布函数为逻辑斯蒂函数。 有序Logistic模型—如果被解释变量是多分类有序次变量,连接分布函数为逻辑斯蒂函数。 Probit模型—连接分布函数是标准正态分布函数。 为了说明这类模型的机理,我们以二元Logistic回归为例,介绍模型形成过程。从而理解一些概念。 4

5 一、二元Logistic 模型 在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。 1 yes y no ?=?? 考虑某个家庭在一定的条件下是否购买住房问题时,表示状态的虚拟变量作为一个被说明对象的因变量出现在经济模型中。 后面变量下标i 表示各不同的样本点,取值0或l 的因变量i y 表示第i 个样本点具体选择,而影响其进行选择的自变量i x 。如果选择响应YES 的概率为(1/)i p y =i x ,则经济主体选择响应NO 的概率为1(1/)i i p y -=x 。 则(/)1(1/)0(0/)i i i i i i E y p y p y =?=+?=x x x =(1/)i i p y x =。

离散选择模型完整版

离散选择模型 HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】

第五章离散选择模型 在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。 本章主要介绍以下内容: 1、为什么会有离散选择模型。 2、二元离散选择模型的表示。 3、线性概率模型估计的缺陷。 4、Logit模型和Probit模型的建立与应用。 第一节模型的基础与对应的现象 一、问题的提出 在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。 1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。由离散数据建立的模型称为离散选择模型。 2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。这种类型的数据成为审查数据。再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。 下面是几个离散数据的例子。 例研究家庭是否购买住房。由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住

离散选择模型

离散选择模型 集团标准化工作小组 [Q8QX9QT-X8QQB8Q8-NQ8QJ8-M8QMN]

第五章离散选择模型 在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。 本章主要介绍以下内容: 1、为什么会有离散选择模型。 2、二元离散选择模型的表示。 3、线性概率模型估计的缺陷。 4、Logit模型和Probit模型的建立与应用。 第一节模型的基础与对应的现象 一、问题的提出 在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。 1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。由离散数据建立的模型称为离散选择模型。 2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。这种类型的数据成为审查数据。再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。 下面是几个离散数据的例子。 例研究家庭是否购买住房。由于,购买住房行为要受到许多因素的影响,不仅

第8章 离散模型

第8章 离散模型 8.1 设n 阶矩阵A 为一致阵,证明A 具有下列性质: (1)A 的秩为1,唯一的非零特征根为n ; (2)A 的任一列向量都是对应于n 的特征向量。 解: (1) 由一致阵的定义, ik ij jk a a a =,1,2,k n = ,所以A 的任意两行成比例,对A 进行初等行变换得B B=111210000 00n a a a ????? ??? ? ? ?? ,所以A 的秩为1。 由初等变换及初等矩阵的关系得,存在可逆阵P ,使得PA=B ,所以 11PAP BP --== 1112 100000 0n c c c ???????? ? ??? =C ,则A 与C 相似,便有相同的特征根。 易知C 的特征根为11c (一次根),0;由于对任意矩阵A 有12()n tr A λλλ+++= ,于是11c =n , 所以A 的唯一非零特征值为n 。 (2) 对于A 的任一列向量[]12,,,T k k nk a a a ,有: []12,,,T k k nk A a a a =12111,,,T n n n j jk j jk nj jk j j j a a a a a a ===??????∑∑∑ =12111,,,T n n n k k nk j j j a a a ===?????? ∑∑∑ =[]12,,,T k k nk n a a a 所以,每一列均为对应于n 的特征向量。 8.2 若发现一成对比较矩阵A 的非一致性较为严重,应如何寻找引起非一致性的元素?例如,设已构造了成对比较矩阵 ?? ?? ? ?????=16131615311A (1)对A 作一致性检验; (2)若A 的非一致性较严重,应如何作修正。 解:(1) 对A 作一致性检验,算出A 的最大特征值,

离散选择模型在市场研究中的应用

离散选择模型在市场研究中的应用 黄晓兰沈浩 北京广播学院, 北京100024 摘要:离散选择模型是一种复杂、非线性的多元统计分析方法和市场研究技术,主要基于消费者对产品/服务的选择来模拟消费者的购买行为。本文通过手机话费价格研究介绍了离散选择模型的基本原理和操作步骤,以及采用M ultinomial Logit Model计算属性效用值、选择概率和模拟市场占有率,获得价格弹性曲线的方法。 关键词:属性;水平;正交实验设计、选择集、效用值、选择概率、M ultinomial Logit Model 离散选择模型(Discrete Choice Model),也叫做基于选择的结合分析模型(Choice-Based Conjoint Analysis),是一种非常有效且实用的市场研究技术。该模型是在实验设计的基础上,通过模拟所要研究产品/服务的市场竞争环境,来测量消费者的购买行为,从而获知消费者如何在不同产品/服务属性水平和价格条件下进行选择。这种技术可广泛应用于新产品开发、市场占有率分析、品牌竞争分析、市场细分和价格策略等市场营销领域。同时离散选择模型也是一种处理离散的、非线性的定性数据的复杂高级多元统计分析技术,它采用Multinomial Logit Model进行数据统计分析。目前,国内在采用该模型进行市场研究方面还是一项空白,本文主要介绍了离散选择模型的基本原理,选择集实验设计、问卷设计、数据收集和处理、模型分析和结果解释等主要操作步骤,并给出了一个手机市场价格研究的应用案例。 1离散选择模型的基本概念和原理 离散选择模型主要用于测量消费者在实际或模拟的市场竞争环境下如何在不同产品/服务中进行选择。通常是在正交实验设计的基础上,构造一定数量的产品/服务选择集(Choice Set),每个选择集包括多个产品/服务的轮廓(Profile),每一个轮廓是由能够描述产品/服务重要特征的属性(Attributes)以及赋予每一个属性的不同水平(Level)组合构成。例如消费者购买手机的重要属性和水平可能包括:品牌(A,B,C)、价格(1500元,1750万元,2000元)、功能(短信,短信语音,图片短信)等,离散选择模型是测量消费者在给出不同的产品价格、功能条件下是选择购买品牌A,还是品牌B或者品牌C,还是什么都不选择。离散选择模型的一个重要的假定是:消费者是根据构成产品/服务的多个属性来进行理解和作选择判断;另一个基本假定是:消费者的选择行为要比偏好行为更接近现实情况。 它与传统的全轮廓结合分析(Full Profiles Conjoint Analysis)都是在全轮廓的基础上采用分解的方法测量消费者对某一轮廓(产品)的选择与偏好,对构成该轮廓的多个属性和水平的选择与偏好,用效用值(Utilities)来描述。但是,它与传统的结合分析的最大区别在于:离散选择模型不是测量消费者的偏好,而是获知消费者如何在不同竞争产品选择集中进行选择。因此,离散选择模型在价格研究中是一种更为实际、更有效、也更复杂的技术。具体表现在: ●将消费者的选择置于模拟的竞争市场环境,“选择”更接近消费者的实际购买行为; 消费者的选择行为要比偏好态度更能反映产品不同属性和水平的价值,也更具有针 对性; ●消费者只需做出“买”或“不买”的回答,数据获得更容易,也更准确; ●消费者可以做出“任何产品都不购买”的决策,这与现实是一致的; ●实验设计可以排除不合理的产品组合,同时可以分析产品属性水平存在交互作用的

数学建模专题汇总_离散模型

离散模型 § 1 离散回归模型 一、离散变量 如果我们用0,1,2,3,4,…说明企业每年的专利申请数,申请数是一个离散的变量,但是它是间隔尺度变量,该变量类型不在本章的讨论的被解释变量中。但离散变量0和1可以用来说明企业每年是否申请专利的事项,类似表示状态的变量才在本章的讨论中。在专利申请数的问题中,离散变量0,1,2,3和4等数字具有具体的经济含义,不能随意更改;而在是否申请专利的两个选择对象的选择问题中,数字0和1只是用于区别两种不同的选择,是表示一种状态。本专题讨论有序尺度变量和名义尺度变量的被解释变量。 .word版.

.word 版. 二、离散因变量 在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。 10yes x no ?=?? 如果x 作为说明某种具体经济问题的自变量,则应用以前介绍虚拟变量知识就足够了。如果现在考虑某个家庭在一定的条件下是否购买住房问题时,则表示状态的虚拟变量就不再是自变量,而是作为一个被说明对象的因变量出现在经济模型中。因此,需要对以前讨论虚拟变量的分析方法进行扩展,以便使其能够适应分析类似家庭是否购房的问题。因为在家庭是否购房问题中,虚拟因变量的具体取值仅是为了区别不同的状态,所以将通过虚拟因变量讨论备择对象选择的回归模型称为离散选择模型。

.word 版. 三、线性概率模型 现在约定备择对象的0和1两项选择模型中,下标i 表示各不同的经济主体,取值0或l 的因变量i y 表示经济主体的具体选择结果,而影响经济主体进行选择的自变量i x 。如果选择响应 YES 的概率为(1/)i p y =i x ,则经济主体选择响应NO 的 概率为1(1/)i i p y -=x , 则(/)1(1/)0(0/)i i i i i i E y p y p y =?=+?=x x x =(1/)i i p y x =。 根据经典线性回归,我们知道其总体回归方程是条件期望建立的,这使我们想象可以构造线性概率模型 (1/)(/)i i i i i p y x E y x '===x β 011i k ik i x x u βββ=++++ 描述两个响应水平的线性概率回归模型可推知,根据统计数据得到的回归结果

第八章离散选择模型Logist回归

第八章离散选择模型—Logistic回归 基于logistic回归模型的企业信用评价 ——以材料和机械制造行业上市公司为例 一、引言 中国市场经济制度的日益健全与完善以及证券债券等金融市场的逐步建立与发展,信用成为经济交往、债务形成的一个重要的基础,信用风险越来越受到市场交易者的关注。信用风险是指借款人、证券发行人或交易方由于各种原因不愿或无能力履行商业合同而违约,致使债权人、投资者或交易方遭受损失的可能性。对于上市公司而言,这种违约行为经常表现为拖欠账款、资不抵债以及以发行证券或债券进行圈钱等失信行为。对这种违约失信的可能性的度量显得十分重要。怎样分析公司的信用状况,对信贷管理者如何分析企业的信用,对证券投资者如何衡量投资项目的风险和价值以及企业家如何评价自己管理的公司,都有极大的价值。 自上世纪中期以来,国内外以计算违约率(本文计算守信率,守信率=1-违约率)对信用风险进行评价和度量的方法和模型得到了迅速发展。对企业的信用评价主要是基于综合财务指标特征计算违约风险并用来划分等级。以综合财务指标为解释变量,运用计量统计方法建立模型,分析信用在金融和学术界成为主流,并且评价效果显著。特别对于logistic回归模型效果更好,因为该模型没有关于变量分布的假设,也不要求假设指标存在多元正态分布。最早有Martin(1977)建立logistic回归模型预测公司的破产以及违约的概率。Madalla(1983)建立logistic回归模型来区分违约和非违约贷款申请人,并确认0.551为两者的分界线。比如在我国,张后启等(2002),杨朝军等(2002),应用Logistic模型研究上市公司财务危机,得出有效结论等等。 面对我国在深沪两家证券市场上市的一千多家上市公司,由于公司体制和管理机制缺陷,或者自身利益最大化利益驱使,或者多部分有国企改制而来等各种原因,信用风险程度变的更大。若能够应用一个较简单的计量模型对他们的信用状况进行评价,对债权人选择贷款对象,投资者投资和交易方的选取都有较大帮助。本文则利用上市公司综合财务数据,运用主成分分析,建立logistic回归模型。并为了消除行业因素的影响,仅对材料和机械制造行业的100家上市企业作为样本进行建立模型,对于其他行业可依次方法进行评价。 二、指标选取与数据搜集 ㈠选择指标的类别 一般而言,企业信用评价及违约风险大小与企业财务状况密切相关的,企业财务状况良好时,资本运营顺畅、现金流量管理较好,企业就可能守信、有能力且可及时还款。反过来,当一个企业财务出现危机时,企业的经营、运作和盈利均处于不利状态,可能出现拖欠货款,圈钱,丧失信誉等行为,导致企业信用危机,更加剧了财务困境。从而企业信用评价基于企业财务状况,在建立信用评价模型时,就选择几个有代表性的综合财务指标作为分析的对象。

第五周:离散选择模型分析技术——每周一讲多变量分析

第五周:离散选择模型分析技术——每周一讲多变量分析 离散选择模型(Discrete Choice Model),也叫做基于选择的结合分析模型(Choice-Based Conjoint Analysis,CBC),是一种非常有效且实用的市场研究技术。该模型是在实验设计的基础上,通过模拟所要研究产品/服务的市场竞争环境,来测量消费者的购买行为,从而获知消费者如何在不同产品/服务属性水平和价格条件下进行选择。这种技术可广泛应用于新产品开发、市场占有率分析、品牌竞争分析、市场细分和价格策略等市场营销领域。同时离散选择模型也是一种处理离散的、非线性的定性数据的复杂高级多元统计分析技术,它采用Multinomial Logit Model进行数据统计分析。 根据Sawtootch公司调查显示:在市场研究中,CBC方法正在快速增长,应用比传统的结合分析(联合分析)应用更多! 离散选择模型主要用于测量消费者在实际或模拟的市场竞争环境下如何在不同产品/服务中进行选择。通常是在正交实验设计的基础上,构造一定数量的产品/服务选择集(Choice Set),每个选择集包括多个产品/服务的轮廓(Profile),每一个轮廓是由能够描述产品/服务重要特征的属性(Attributes)以及赋予每一个属性的不同水平(Level)组合构成。例如消费者购买手机的重要属性和水平可能包括:品牌(A,B,C)、价格(1500元,1750万元,2000元)、功能(短信,短信语音,图片短信)等,离散选择模型是测量消费者在

给出不同的产品价格、功能条件下是选择购买品牌A,还是品牌B或者品牌C,还是什么都不选择。离散选择模型的一个重要的假定是:消费者是根据构成产品/服务的多个属性来进行理解和作选择判断;另一个基本假定是:消费者的选择行为要比偏好行为更接近现实情况。 它与传统的全轮廓结合分析(Full Profiles Conjoint Analysis)都是在全轮廓的基础上采用分解的方法测量消费者对某一轮廓(产品)的选择与偏好,对构成该轮廓的多个属性和水平的选择与偏好,用效用值(Utilities)来描述。 但是,它与传统的结合分析的最大区别在于:离散选择模型不是测量消费者的偏好,而是获知消费者如何在不同竞争产品选择集中进行选择。因此,离散选择模型在价格研究中是一种更为实际、更有效、也更复杂的技术。具体表现在: ?将消费者的选择置于模拟的竞争市场环境,“选择”更接近消费者的实际购买行为; 消费者的选择行为要比偏好态度更能反映产品不同属性和水平的价值,也更具有针对性; ?消费者只需做出“买”或“不买”的回答,数据获得更容易,也更准确; ?消费者可以做出“任何产品都不购买”的决策,这与现实是一致的; ?实验设计可以排除不合理的产品组合,同时可以分析产品属性水平存在交互作用的情况; ?离散选择集能够较好地处理产品属性水平个数(大于4)较多的情况; ?统计分析模型和数据结构更为复杂,但可以模拟更广泛的市场竞争环境; ?模型分析是在消费者群体层面,而非个体层面。 离散选择模型主要采用离散的、非线性的Multinomial Logit统计分析技术,其因变量是消费者在多个可选产品中,选择购买哪一种产品;而自变量是构成选择集的不同产品属性。 目前统计分析软件主要有SAS/STAT统计过程和SAS Market模块,二者均采用SAS/STAT Proc PHREG过程—比例风险回归(Proportional Hazards Regression)分析。另外,Sawtooth 软件公司开发了专用的CBC市场研究分析软件(Choice-Based Conjoint Analysis),该软件集成了从选择集实验设计、问卷生成、数据收集到统计分析,市场模拟等离散选择模型的市

第八章 离散因变量模型

第八章 离散因变量模型 离散(分类)因变量模型(Models with Discrete /Categorical Dependent Variables )分为二元选择模型(Binary Choice Models )和多类别选择(反应)模型(Multicategory Choice /Polytomous Response Models )。在多类别选择模型中,根据因变量的反应类别(response category )是否排序,又分为无序选择模型(Multinominal Choice Models )和有序选择模型(Ordered Choice Models )(也称有序因变量模型Ordered Dependent Variable Models 、有序类别模型Ordered Category Models 等) 一、二元选择模型 设因变量?? ?=选择 某事件不发生或不做出选择某事件发生或做出某种 01Y 1、线性概率模型(LPM 模型) 如果采用线性模型i ki k i i X X Y εβββ++++= 110, 给定 ki i X X 1,设某事件发生的概率为P i ,则有 i i i ki i i P p P X X Y E =-?+?=)1(01)/(1 所以 ki k i i X X P βββ+++= 110 称之为线性概率模型。 不足之处: 1、不能满足对自变量的任意取值都有10≤≤i P 。 2、? ??=-=-=)0() 1(1i i i i i i Y P Y P ,,当当因为而是服从二项分布 不服从正态分布 εε 3、 ) 1()1()()1()()(0 )(2 2 2 i i i i i i i i i i P P P P P P E Var E -?=-?-+?-===εεεε存在异方差

浅谈排序多元离散选择模型(非参数统计,西南财大)

浅谈离散选择模型 第一节引言 在实际经济问题的分析中,除可以利用连续变量表示居民消费或企业投资规模,还会遇到一些表示研究对象的数量或状态的离散变量。例如,不仅可以用离散变量0,1,2,3,4,…说明企业每年的专利申请数,而且也可以用离散变量0和1说明企业每年是否申请专利的事项。在专利申请数的问题中,离散变量0,1,2,3和4等数字具有具体的经济含义,不能随意更改;而在是否申请专利的两个备择对象的选择问题中,数字0和1只是用于区别两种不同的选择,是表示一种状态,将它们更换成数字3和4也未尝不可。于是,在将离散变量理解成仅表示选择状态的基础上,可以进一步地利用离散变量讨论类似家庭是否购房或某人是否有工作等问题。即结合离散变量的具体含义,可以通过以前介绍的虚拟变量描述和分析家庭是否购买住房或某人是否有工作等具体经济问题。在讨论某人是否有工作的问题中,可以将某人有工作的状态用数字l表示,而将没有工作的状态用数字0表示。同样地,在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。如果某个家庭是否购买住房或某人是否有工作的状态仅是作为用于说明某种具体经济问题的自变量,则应用以前介绍的虚拟变量的知识就足够了。如果现在考虑某个家庭在一定的条件下是否购买住房或某人在一定的条件下是否有工作等问题时,则表示状态的虚拟变量就不再是自变量,而是作为一个被说明对象的因变量出现在经济模型中。因此,需要对以前讨论虚拟变量的分析方法进行扩展,以便使其能够适应分析类似家庭是否购房或某人是否有工作等虚拟因变量的问题。因为在家庭是否购房或某人是否有工作等选择问题中,虚拟因变量的具体取值仅是为了区别不同的状态,所以将通过虚拟因变量讨论备择对象选择的回归模型称为选择模型。作为最简单的选择模型,可以考虑只具有两个备择对象的两项选择模型。实际上,两项选择模型具有广泛的应用性,它不仅可以用于讨论家庭购房等问题,还可以用于讨论家庭购房是否申请银行贷款、家庭成员是否利用公共交通设施等两者择一的问题。 在最简单的因变量仅取两个不同数的两项反应模型或两项选择模型中,由于回归模型讨论的对象是两者择一的问题,利用取值0或1的虚拟变量表示经济主体的具体选择行为并不影响选择问题的实质性讨论。现在约定在具有备择对象的0和1两项选择模型中,下标t y表示经济主体的具体选择结果,而影响经表示各不同的经济主体,取值0或l的因变量 t

离散选择模型与在交通行为分析中的应用

离散选择模型与在交通行为分析中的应用 隋拓方 今天,基于智能交通模式下应用离散选择行为分析的交通是国内外的热点。本文首先介绍了离散选择模型的基本原理,包括其概念,其理论基石的效用最大化的理论,和它的四个主要模式(Logit模型,GEV模型,Probit模型,Mixed Logit模型);再以显示离散选择模型的行为在交通中的应用,介绍了上海市快速路系统的背景,探讨驾驶员的信息影响下的路径选择行为的情况。在这种情况下调查方法获得的数据将行为,使用离散选择分析的影响因素,路径选择路由的概率模型,多变量分析,揭示路由信息和虚拟机。案件的结果清楚地反映了有效性离散模型,该方法可应用于交通管理更准确地预测运输需求与运输有关的规划和管理提供科学依据。 离散选择模型:离散选择模型,有时称为定性选择模型,是一个令人兴奋的新的统计方法并风靡全球的市场研究。离散选择模型看起来在客户之间作出选择的产品或服务。通过确定这些模式的选择,离散选择模型是不同的消费者对竞争产品。离散选择模型,使营销人员审查分享影响产品配置,服务捆绑销售,定价和促销的不同类别的客户。为第一时间,企业有一个定量工具的设计和定价的产品优化竞争优势。 四个主要模型:Logit ,GEV ,Probit ,Mixed Logit 离散选择模型的研究真正兴起于19 世纪50 年代末, 属于微观计量经济学的范畴。该模型能够对个体和家庭行为进行经验性的统计分析, 因而在经济学和其他社会科学中得到广泛的应用。本文从离散选择模型的基本性质及效用最大化的理论背景出发, 指出logit 模型虽然使用的是最早并且最为广泛的离散选择模型, 但是其存在着三大局限性: 不能表示随机口味的变化、暗含成比例的替代形式和不能处理不可观测因素在不同期间相关的情形。GEV ( 含嵌套logit) 、pr obit 和混合logit 模型等其他的离散选择模型, 很大程度上都是为了避免这些限制而产生并发展起来的。 SP调查定义:SP调查是指,为了获得“人们对假定条件下的多个方案所表现出来的主观偏好,而进行的实际调查。因此实践证明,SP方法已成为交通出行行为研究中一种重要的工具。 SP调查国内外研究现状: 上世纪70年代末,英国开始交通间题SP调查以后,美国、澳大利亚等也进行了相关调查。80年代,研究人员从理论和实际两方面进行了更为深入的研究,1989年《运输经济与政策学报》上出版了《运输领域的SP方法研究》专辑,使SP调查在交通领域得到进一步推广。近年来,由于交通SP调查有效地弥补了以往RP调查的缺陷,在各国的研究中已经被广泛采用。日本广岛大学大学院国际协力研究科的藤原章正和杉惠赖宁等人将SP调查方法运用在交通预测中。他对SP调查与RP调查进行了比较,并对SP调查的主要过程、注

二元离散选择模型

二元离散选择模型 1.在一次选举中,由于候选人对高收入者有力,所以收入成为每个投票者表示同意或者反对的最主要影响因素。以投票者的态度(y )作为被解释变量,以投票者的月收入(x )作为解释变量建立模型,同意者其观测值为1,反对者其观测值为0,样本数据见表7.1。原始模型为:i i i y x αβμ=++。利用Probit 二元离散选择模型估计参数。表8.1样本观测值序号X Y 序号X Y 序号 X Y 11000111100021210012200012120002222001330001313001232300144000141400024240015500015150012525001660001616000262600177000171700127270018800018180002828001990001919001292900110 1000 20 20001 30 3000 1 估计过程如下: 输入变量名,选择Probit 参数估计。

得到如下输出结果: 但是作为估计对象的不是原是模型,而是如下结果: 1@[( 4.75390.003067*)] YF CONRM X =???+可以得到不通X 值下的Y 选择1的概率。例如,当X=600时,查标准正态分布表,对应于2.9137的累积正态分布为0.9982;于是,Y 的预测值YF=1-0.9982=0.0018,即对应于该个人,投赞成票的概率为0.0018。 1.某商业银行从历史贷款客户中随机抽取78个样本,根据涉及的指标体系分别计算它们

的“商业信用支持度”(XY)和“市场竞争地位等级”(SC),对它们贷款的结果(JG)采用二元离散变量,1表示贷款成功,0表示贷款失败。样本观测值见表8.2。目的是研究JG与XY、SC之间的关系,并为正确贷款决策提供支持。 表8.2样本观测值 JG XY SC JGF JG XY SC JGF JG XY SC JGF 0125-2001500-20054-10 0599-200960014221 0100-201-80104200.0209 0160-200375-2011821 046-20042-1 6.50E-130801 6.40E-12 080-2015211-501 0133-200172-20032620 0350-101-801026110 12300.9979089-201-2-10.9999 060-200128-20014-2 3.90E-07 070-10160112200.9991 1-8010150-10011310 0400-201542114210.9987 07200028-2015720.9999 0120-1012500.9906014600 14010.999812300.997911501 13510.999911401026-2 4.40E-16 12611049-10089-20 115-10.4472014-10.54981511 069-100610 2.10E-121-9-11 010710140211411 12911030-20054-20 12110112-1013211 13710.9999078-200540 1.40E-07 053-1010010131-20 0194000131-2011501 估计过程如下:

相关文档