文档库 最新最全的文档下载
当前位置:文档库 › 比较线性模型和Probit模型、Logit模型

比较线性模型和Probit模型、Logit模型

比较线性模型和Probit模型、Logit模型
比较线性模型和Probit模型、Logit模型

研究生考试录取相关因素的实验报告

一,研究目的

通过对南开大学国际经济研究所1999级研究生考试分数及录取情况的研究,引入录取与未录取这一虚拟变量,比较线性概率模型与Probit模型,Logit模型,预测正确率。

二,模型设定

表1,南开大学国际经济研究所1999级研究生考试分数及录取情况见数据表

定义变量SCORE :考生考试分数;Y :考生录取为1,未录取为0。

上图为样本观测值。 1. 线性概率模型 根据上面资料建立模型

i i i SCORE B B Y μ++=*21

用Eviews 得到回归结果如图:

Dependent Variable: Y Method: Least Squares Date: 12/10/10 Time: 20:38

Sample: 1 97

Included observations: 97

Variable

Coefficien

t

Std. Error t-Statistic Prob.

C -0.847407 0.159663 -5.307476 0.0000 SCORE

0.003297

0.000521

6.325970

0.0000

R-squared

0.296390 Mean dependent var 0.144330 Adjusted R-squared 0.288983 S.D. dependent var 0.353250 S.E. of regression 0.297866 Akaike info criterion 0.436060 Sum squared resid 8.428818 Schwarz criterion 0.489147 Log likelihood -19.14890 F-statistic 40.01790 Durbin-Watson stat

0.359992 Prob(F-statistic) 0.000000

参数估计结果为: i

Y ?-0.847407+0.003297 i SCORE

Se=(0.159663)( 0.000521) t=(-5.307476) (6.325970) p=(0.0000) (0.0000)

预测正确率:

Forecast: YF Actual: Y

Forecast sample: 1 97

Included observations: 97

Root Mean Squared Error0.294780

Mean Absolute Error 0.233437

Mean Absolute Percentage Error8.689503

Theil Inequality Coefficient 0.475786

Bias Proportion 0.000000

Variance Proportion 0.294987

Covariance Proportion 0.705013

2.Logit模型

Dependent Variable: Y

Method: ML - Binary Logit (Quadratic hill climbing) Date: 12/10/10 Time: 21:38

Sample: 1 97

Included observations: 97

Convergence achieved after 11 iterations Covariance matrix computed using second derivatives

Variable Coefficien

t Std. Error z-Statistic Prob.

C-243.7362125.5564-1.9412480.0522

SCORE

0.679441 0.350492 1.938536 0.0526

Mean dependent var 0.144330 S.D. dependent var 0.353250 S.E. of regression 0.115440 Akaike info criterion 0.123553 Sum squared resid 1.266017 Schwarz criterion 0.176640 Log likelihood -3.992330 Hannan-Quinn criter. 0.145019 Restr. log likelihood -40.03639 Avg. log likelihood -0.041158 LR statistic (1 df) 72.08812 McFadden R-squared 0.900282

Probability(LR stat) 0.000000

Obs with Dep=0 83 Total obs 97

Obs with Dep=1

14

得Logit 模型估计结果如下

p i = F (y i ) =

)

6794.07362.243(11

i x e +--+ 拐点坐标 (358.7, 0.5)

其中Y=-243.7362+0.6794X

预测正确率

Forecast: YF Actual: Y

Forecast sample: 1 97 Included observations: 97

Root Mean Squared Error 0.114244 Mean Absolute Error

0.025502

Mean Absolute Percentage Error 1.275122

Theil Inequality Coefficient 0.153748

Bias Proportion 0.000000

Variance Proportion 0.025338

Covariance Proportion 0.974662

3.Probit模型

Dependent Variable: Y

Method: ML - Binary Probit (Quadratic hill climbing) Date: 12/10/10 Time: 21:40

Sample: 1 97

Included observations: 97

Convergence achieved after 11 iterations Covariance matrix computed using second derivatives

Variable Coefficien

t Std. Error z-Statistic Prob.

C-144.456070.19809-2.0578330.0396

SCORE0.4028680.196186 2.0535040.0400 Mean dependent var0.144330 S.D. dependent var0.353250 S.E. of regression0.116277 Akaike info criterion0.122406 Sum squared resid 1.284441 Schwarz criterion0.175493

Log likelihood-3.936702 Hannan-Quinn criter.0.143872 Restr. log likelihood-40.03639 Avg. log likelihood-0.040585

LR statistic (1 df)72.19938 McFadden R-squared0.901672 Probability(LR stat)0.000000

Obs with Dep=083 Total obs97

Obs with Dep=114

Probit模型最终估计结果是

p i = F(y i) = F (-144.456 + 0.4029 x i) 拐点坐标(358.5, 0.5)预测正确率

Forecast: YF

Actual: Y

Forecast sample: 1 97

Included observations: 97

Root Mean Squared Error0.115072

Mean Absolute Error 0.025387

Mean Absolute Percentage Error 1.216791

Theil Inequality Coefficient 0.154476

Bias Proportion 0.000084

Variance Proportion 0.020837

Covariance Proportion 0.979080

预测正确率结论:线性概率模型RMSE=0.294780 MAE=0.233437 MAPE=8.689503

Logit模型RMSE=0.114244 MAE=0.025502 MAPE=1.275122

Probit模型RMSE=0.115072 MAE=0.025387 MAPE=1.216791

由上面结果可知线性概率模型的RMSE、MAE、MAPE 均远远大于Logit模型和Probit模型,说明其误差率比Logit模型和Probit模型大很多,所以正确率远远小于Logit模型和Probit模型。而Logit模型和Probit模型的RMSE、MAE、MAPE相差很小,所以正确率相差不大。综上所诉,此数据可以用Logit 模型和Probit模型代替线性概率模型进行分析。

Chapter9-受限因变量模型

第1章 受限因变量模型 这一章讨论响应变量仅仅被部分观测到的情况。引入被部分观测到的潜在随机变量y *,y *的实际观测变量为y i 。引入二元指示变量D i ,如果a i < y *? 如果如果如果。 (1) 如果只有当D i = 1时实际观测变量y i 才有观测数据,即:当D i = 1时,潜在变量与实际观测变量相等,而当D i = 0时,y i 没有观测值,这时称数据被截断(truncated ),即小于a i 的数据和大于a i 的数据被截断了。因此截断数据与归并数据的区别在于,对于观测区间外的数据,归并数据将将其都归并为一点,而截断数据没有观测值。 将潜在随机变量y *的基本模型设定为: *i i i y v μσ=+。 (2) 其中μi 为位置参数,σ为刻度参数;v i 为独立于x i 的连续随机扰动项,均值为0,方差为1,其分布函数、密度函数分别为F 、f 。在这些假定条件下,y i *的均值为μi ,方差为σ2,分布函数为*()i i y F μσ -, 概率密度函数为*( )/i i y f μσσ-(证明请参见附录1) 。a i < y i * < b i 等价于i i i i i i i a b c v d μμσ σ --=<< =, 那么y i *被观测到的概率为: *Pr()Pr(1)()()i i i i i i a y b D F d F c <<===- (3) 下面对截断数据模型和归并数据模型分别进行介绍 1.1 截断数据模型 如果样本数据是从总体的一部分抽取得到,我们把这类数据称为截断数据。比如,研究高收入阶层(月收入x ≥ 10000)的消费与收入的关系,所采集的数据只是位于收入总体分布的一个区间里。假设所有居民的收入服从正态分布,那么高收入阶层的收入只是在x ≥ 10000的区间里观测得到的。下面介绍截断数据的分布特征和模型估计。

计量经济学经典eviews 离散和受限因变量模型

离散和受限因变量模型 前面所描述的回归方法要求能在连续和无限制的规模上观察到因变量。然而,也经常出现违背上述条件的情形,即产生非连续或受限因变量。我们将会识别三种类型的变量: 1.定性(在离散或排序的规模上); 2.审查或截断; 3.整数估值(计数数据)。 在这章里我们讨论这几种定性和受限因变量模型的估计方法。EViews 提供了二元或排序(普罗比特probit 、逻辑logit 、威布尔gompit ),审查或截断(托比特tobit 等),和计数数据模型的估计程序。 §17.1 二元因变量模型 二元因变量模型(Binary Dependent V ariable Models )估计方法主要发展与20世纪80年代初期。普遍应用于经济布局、企业定点、交通问题、就业问题、购买决策领域的研究。例如,公共交通工具和私人交通工具的选择问题。选择利用公共交通工具还是私人交通工具,取决于两类因素:一类是诸如速度、耗费时间、成本等两种交通工具所具有的属性;一类是决策个体所具有的属性,诸如职业、年龄、收入水平、健康状况等。从大量的统计中,可以发现选择结果与影响因素之间具有一定的因果关系。研究这一关系对制定交通工具发展规划无疑是十分重要的。 在本节介绍的模型中,因变量y 只具有两个值:1或者0。y 可能是代表某一事件出现的虚拟变量,或者是两种选择中的一种。例如,y 可能是每个人(被雇佣或不被雇佣)雇用状况的模型,每一人在年龄、教育程度、种族、婚姻状况和其它可观测的特征方面存在差异,我们将其设为x 。目标是将个体特征和被雇用的概率之间的关系量化。 假定一个二元因变量y ,具有0和1两个值。y 对x 简单的线性回归是不合适的。而且从简单的线性回归中得到y 的的拟合值也不局限于0和1之间。替代地,我们采用一种设定用于处理二元因变量的特殊需要。假定我们用以下模型刻画观察值为1的概率为: Pr )(1),1(ββi i i x F x y '--== 这里F 是一个连续、严格单调递增的函数,它采用实际值并返回一个介于0和1之间的数。F 函数的选择决定了二元模型的类型。可以得到 Pr )(),0(ββi i i x F x y '-== 给出了这样的设定以后,我们能用极大似然估计方法估计模型的参数。极大似然函数为 ∑=--+'--==n i i i i i x F y x F y L 0))(log )1())(1log(()(log )(ββββ 极大似然函数的一阶条件是非线性的,所以得到参数估计需要一种迭代的解决方法。缺省地,EViews 使用二阶导数用于参数估计的协方差矩阵的迭代和计算。 有两种对这种设定的重要的可选择的解释。首先,二元变量经常作为一种潜在的变量规定被生成。假定有一个未被观察到的潜在变量*i y ,它与x 是线性相关的: i i i u x y +'=β* 这里i u 是随机扰动。然后被观察的因变量由*i y 是否超过临界值来决定

第14章-受限被解释变量

? 陈强,《高级计量经济学及Stata 应用》课件,第二版,2014 年,高等教育出版社。 第 14 章受限被解释变量 被解释变量的取值范围有时受限制,称为“受限被解释变量”(Limited Dependent Variable)。 14.1 断尾回归 对线性模型y i =x i 'β +ε i ,假设只有满足y i ≥c 的数据才能观测到。 例:y i 为所有企业的销售收入,而统计局只收集规模以上企业 数据,比如y i ≥100,000。被解释变量在100,000 处存在“左边断尾”。

2 ? 断尾随机变量的概率分布 随机变量 y 断尾后,其概率密度随之变化。 记 y 的概率密度为 f ( y ) ,在 c 处左边断尾后的条件密度函数为 ? f ( y ) 若 y > c f ( y | y > c ) = ? ?? P( y 0, > c ) , 若 y ≤ c 由于概率密度曲线下面积为 1,故断尾变量的密度函数乘以因子 1 。 P( y > c )

图14.1 断尾的效果 3

断尾分布的期望也发生变化。以左边断尾为例。对于最简单情形,y ~ N (0, 1),可证明(参见附录) E( y |y >c) = φ(c) 1 -Φ(c) 对于任意实数c,定义“反米尔斯比率”(Inverse Mill’s Ratio,简记IMR)为 则E( y | y >c) =λ(c)。λ(c) ≡ φ(c) 1 -Φ(c) 4

图14.2 反米尔斯比率 5

6 对 于 正 态 分 布 y ~ N (μ, σ 2 ) , 定 义 y - μ z ≡ σ ~ N (0, 1) , 则 y = μ + σ z 。故 E( y | y > c ) = E(μ + σ z | μ + σ z > c ) = E ??μ + σ z z > (c - μ) ?? = μ + σ E ?? z z > (c - μ) σ ?? = μ + σ ? λ [(c - μ) σ ] 对于模型y = x 'β + ε ,ε | x ~ N (0, σ 2 ),则y | x ~ N ( x 'β , σ 2 ),故 i i i i i i i i E( y i | y i > c ) = x i 'β + σ ? λ [(c - x i 'β ) σ ] 如 果 用 OLS 估 计 y i = x i 'β + εi , 则 遗 漏 了 非 线 性 项 σ ? λ [(c - x i 'β ) σ ],与x i 相关,导致 OLS 不一致。

第4章(3)受限数据模型

§4.6受限被解释变量数据模型 ——选择性样本 Model with Limited Dependent Variable ——Selective Samples Model 一、经济生活中的受限被解释变量问题 二、“截断”问题的计量经济学模型 三、“归并”问题的计量经济学模型

The Bank of Sweden Prize in Economic Sciences in Memory of Alfred Nobel 2000 "for his development of theory and methods for analyzing selective samples” James J Heckman USA

?“Shadow Prices, Market Wages and Labour Supply”,Econometrica42 (4), 1974, P679-694发现并提出“选择性样本”问题。 ?“Sample Selection Bias as a Specification Error”,Econometrica47(1), 1979, P153-161 证明了偏误的存在并提出了Heckman两步修正法。

一、经济生活中的受限被解释变量问题

2、“归并”(censoring)问题 ?将被解释变量的处于某一范围的样本观测值都用一个相同的值代替。 ?经常出现在“检查”、“调查”活动中,因此也称为“检查”(censoring) 问题。 ?需求函数模型中用实际消费量作为需求量的观测值,如果存在供给限制,就出现“归并”问题。?被解释变量观测值存在最高和最低的限制。例如考试成绩,最高100,最低0,出现“归并”问题。

第14 章 受限被解释变量

教学用PPT ,《高级计量经济学及Stata 应用》,陈强编著,高等教育出版社,? 2010年 第14章 受限被解释变量 14.1断尾回归(Truncated Regression ) 对于线性模型(1,2,,)i i i y i n ε′=+=x β",假设只有满足 i y c ≥(c 常数)的数据才能观测到。

断尾随机变量的概率分布 记y 原来的概率密度为()f y ,则断尾后的条件密度函数为, ()P() (|)0f y if y c y c f y y c if y c ???>?>>=???≤??? (14.1)

图14.1、断尾的效果 首先,对于最简单的情形,~(0,1)y N ,可以证明

() E(|)1()c y y c c φ>=?Φ (14.2) 对于一个任意实数c ,定义“反米尔斯比率”(Inverse Mill’s Ratio ,IMR )为() ()1() c c c φλ≡?Φ,则E(|)()y y c c λ>=。

图14.2、反米尔斯比率 其次,对于2~(,)y N μσ,定义~(0,1)y z N μσ ?≡,则

y z μσ=+, []E(|)E(|)E ()E ()()y y c z z c z z c z z c c μσμσμσμσμσμσμσλμσ??>=++>=+>??? ??=+>?=+???? (14.3) 对于回归模型i i i y ε′=+x β,假设2 |~(0,)i i N εσx 。因此, 2 |~(,)i i i y N σ′x x β。套用方程(14.3)可得, E(|)()i i i i y y c c σλ??′′>=+????x βx β (14.4)

chapter受限因变量模型

c h a p t e r受限因变量模 型 SANY标准化小组 #QS8QHH-HHGX8Q8-GNHHJ8-HHMHGN#

第1章 受限因变量模型 这一章讨论响应变量仅仅被部分观测到的情况。引入被部分观测到的潜在随机变量y *,y *的实际观测变量为y i 。引入二元指示变量D i ,如果a i < y *?如果如果如果。 (1) 如果只有当D i = 1时实际观测变量y i 才有观测数据,即:当D i = 1时,潜在变量与实际观测变量相等,而当D i = 0时,y i 没有观测值,这时称数据被截断 (truncated ),即小于a i 的数据和大于a i 的数据被截断了。因此截断数据与归并数据的区别在于,对于观测区间外的数据,归并数据将将其都归并为一点,而截断数据没有观测值。 将潜在随机变量y *的基本模型设定为: *i i i y v μσ=+。 (2) 其中?i 为位置参数,?为刻度参数;v i 为独立于x i 的连续随机扰动项,均值为0,方差为1,其分布函数、密度函数分别为F 、f 。在这些假定条件下,y i *的均值为?i ,方差为?2 ,分布函数为*( )i i y F μσ -,概率密度函数为*( )/i i y f μσσ -(证明请参见附录1)。a i < y i * < b i 等价于i i i i i i i a b c v d μμσ σ --= << =,那么y i * 被观测到的概率为: *Pr()Pr(1)()()i i i i i i a y b D F d F c <<===- (3) 下面对截断数据模型和归并数据模型分别进行介绍 1.1 截断数据模型 如果样本数据是从总体的一部分抽取得到,我们把这类数据称为截断数据。比如,研究高收入阶层(月收入x ? 10000)的消费与收入的关系,所采集的数据只是位于收入总体分布的一个区间里。假设所有居民的收入服从正态分布,那么高收入阶层的收入只是在x ? 10000的区间里观测得到的。下面介绍截断数据的分布特征和模型估计。

相关文档 最新文档