文档库 最新最全的文档下载
当前位置:文档库 › 第十讲受限因变量模型(Tobit)

第十讲受限因变量模型(Tobit)

Chapter9-受限因变量模型

第1章 受限因变量模型 这一章讨论响应变量仅仅被部分观测到的情况。引入被部分观测到的潜在随机变量y *,y *的实际观测变量为y i 。引入二元指示变量D i ,如果a i < y *? 如果如果如果。 (1) 如果只有当D i = 1时实际观测变量y i 才有观测数据,即:当D i = 1时,潜在变量与实际观测变量相等,而当D i = 0时,y i 没有观测值,这时称数据被截断(truncated ),即小于a i 的数据和大于a i 的数据被截断了。因此截断数据与归并数据的区别在于,对于观测区间外的数据,归并数据将将其都归并为一点,而截断数据没有观测值。 将潜在随机变量y *的基本模型设定为: *i i i y v μσ=+。 (2) 其中μi 为位置参数,σ为刻度参数;v i 为独立于x i 的连续随机扰动项,均值为0,方差为1,其分布函数、密度函数分别为F 、f 。在这些假定条件下,y i *的均值为μi ,方差为σ2,分布函数为*()i i y F μσ -, 概率密度函数为*( )/i i y f μσσ-(证明请参见附录1) 。a i < y i * < b i 等价于i i i i i i i a b c v d μμσ σ --=<< =, 那么y i *被观测到的概率为: *Pr()Pr(1)()()i i i i i i a y b D F d F c <<===- (3) 下面对截断数据模型和归并数据模型分别进行介绍 1.1 截断数据模型 如果样本数据是从总体的一部分抽取得到,我们把这类数据称为截断数据。比如,研究高收入阶层(月收入x ≥ 10000)的消费与收入的关系,所采集的数据只是位于收入总体分布的一个区间里。假设所有居民的收入服从正态分布,那么高收入阶层的收入只是在x ≥ 10000的区间里观测得到的。下面介绍截断数据的分布特征和模型估计。

面板数据的F检验固定效应检验

面板数据的F检验固定 效应检验 标准化工作室编码[XX968T-XX89628-XJ668-XT689N]

面板数据模型(P A N E L D A T A)F检验,固定效应检验1.面板数据定义。 时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。 面板数据用双下标变量表示。例如 y , i= 1, 2, …, N; t= 1, 2, …, T i t N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,y , ( i i . = 1, 2, …, N)是横截面上的N个随机变量;若固定i不变,y. t, (t= 1, 2, …, T)是纵剖面上的一个时间序列(个体)。 图1 N=7,T=50的面板数据示意图 例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。 对于面板数据y i t, i = 1, 2, …, N; t= 1, 2, …, T来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。 注意:EViwes 、、既允许用平衡面板数据也允许用非平衡面板数据估计模型。

第八章 离散因变量模型

第八章离散因变量模型 离散(分类)因变量模型(Models with Discrete /Categorical Dependent Variables)分为二元选择模型(Binary Choice Models)和多类别选择(反应)模型(Multicategory Choice /Polytomous Response Models)。在多类别选择模型中,根据因变量的反应类别(response category)是否排序,又分为无序选择模型(Multinominal Choice Models)和有序选择模型(Ordered Choice Models)(也称有序因变量模型Ordered Dependent Variable Models、有序类别模型Ordered Category Models等) 一、二元选择模型 设因变量 1、线性概率模型(LPM模型) 如果采用线性模型, 给定,设某事件发生的概率为P i,则有 所以 称之为线性概率模型。 不足之处: 1、不能满足对自变量的任意取值都有。 2、 3、 所以线性概率模型不是标准线性模型。 给定,为使, 可对建立某个分布函数,使的取值在(0,1)。 2、Logit模型(Dichotomous/ Binary Logit Model) Logit模型是离散(分类)因变量模型的常用形式,它采用的是逻

辑概率分布函数(Cumulative Logistic Probability Function)(e为自然对数的底),逻辑曲线如图4-1所示。其中,二元Logit模型是掌握多类别Logit模型的基础。

图4-1 逻辑曲线(Logit Curve) 以二元选择问题为例,设因变量有0和1两个选择,由自变量来决定选择的结果。为了使二元选择问题的研究成为可能,首先建立随机效用模型: 令表示个体i选择=1的效用, 表示个体i选择=0的效用, 显然当时,选择结果为1,反之为0。将两个效用相减,即得随机效用模型: , 记为(4-1) 当时,,则个体i选择=1的概率为: 若的概率分布为Logistic分布,则有 即(4-2) 式(4-2)即为最常用的二元选择模型——Logit模型。 二元Logit选择模型的参数估计通常使用最大似然估计法,令似然函数,再求似然函数L的对数值最大时的参数估计量。 对(4-2)式进行适当的变换,得 即(4-3) 式(4-3)与式(4-2)是等价的,而且更易于解释,式中为个体i做出选择1的机会比(odds),式中的因变量是机会比(odds)的自然对数,参数的含义为自变量每增加一个单位机会比(odds)的自然对数

计量经济学经典eviews 离散和受限因变量模型

离散和受限因变量模型 前面所描述的回归方法要求能在连续和无限制的规模上观察到因变量。然而,也经常出现违背上述条件的情形,即产生非连续或受限因变量。我们将会识别三种类型的变量: 1.定性(在离散或排序的规模上); 2.审查或截断; 3.整数估值(计数数据)。 在这章里我们讨论这几种定性和受限因变量模型的估计方法。EViews 提供了二元或排序(普罗比特probit 、逻辑logit 、威布尔gompit ),审查或截断(托比特tobit 等),和计数数据模型的估计程序。 §17.1 二元因变量模型 二元因变量模型(Binary Dependent V ariable Models )估计方法主要发展与20世纪80年代初期。普遍应用于经济布局、企业定点、交通问题、就业问题、购买决策领域的研究。例如,公共交通工具和私人交通工具的选择问题。选择利用公共交通工具还是私人交通工具,取决于两类因素:一类是诸如速度、耗费时间、成本等两种交通工具所具有的属性;一类是决策个体所具有的属性,诸如职业、年龄、收入水平、健康状况等。从大量的统计中,可以发现选择结果与影响因素之间具有一定的因果关系。研究这一关系对制定交通工具发展规划无疑是十分重要的。 在本节介绍的模型中,因变量y 只具有两个值:1或者0。y 可能是代表某一事件出现的虚拟变量,或者是两种选择中的一种。例如,y 可能是每个人(被雇佣或不被雇佣)雇用状况的模型,每一人在年龄、教育程度、种族、婚姻状况和其它可观测的特征方面存在差异,我们将其设为x 。目标是将个体特征和被雇用的概率之间的关系量化。 假定一个二元因变量y ,具有0和1两个值。y 对x 简单的线性回归是不合适的。而且从简单的线性回归中得到y 的的拟合值也不局限于0和1之间。替代地,我们采用一种设定用于处理二元因变量的特殊需要。假定我们用以下模型刻画观察值为1的概率为: Pr )(1),1(ββi i i x F x y '--== 这里F 是一个连续、严格单调递增的函数,它采用实际值并返回一个介于0和1之间的数。F 函数的选择决定了二元模型的类型。可以得到 Pr )(),0(ββi i i x F x y '-== 给出了这样的设定以后,我们能用极大似然估计方法估计模型的参数。极大似然函数为 ∑=--+'--==n i i i i i x F y x F y L 0))(log )1())(1log(()(log )(ββββ 极大似然函数的一阶条件是非线性的,所以得到参数估计需要一种迭代的解决方法。缺省地,EViews 使用二阶导数用于参数估计的协方差矩阵的迭代和计算。 有两种对这种设定的重要的可选择的解释。首先,二元变量经常作为一种潜在的变量规定被生成。假定有一个未被观察到的潜在变量*i y ,它与x 是线性相关的: i i i u x y +'=β* 这里i u 是随机扰动。然后被观察的因变量由*i y 是否超过临界值来决定

随机解释变量问题

第四章 随机解释变量问题 1. 随机解释变量的来源有哪些? 答:随机解释变量的来源有:经济变量的不可控,使得解释变量观测值具有随机性;由于随机干扰项中包括了模型略去的解释变量,而略去的解释变量与模型中的解释变量往往是相关的;模型中含有被解释变量的滞后项,而被解释变量本身就是随机的。 2.随机解释变量有几种情形? 分情形说明随机解释变量对最小二乘估计的影响与后果? 答:随机解释变量有三种情形,不同情形下最小二乘估计的影响和后果也不同。(1)解释变量是随机的,但与随机干扰项不相关;这时采用OLS 估计得到的参数估计量仍为无偏估计量;(2)解释变量与随机干扰项同期无关、不同期相关;这时OLS 估计得到的参数估计量是有偏但一致的估计量;(3)解释变量与随机干扰项同期相关;这时OLS 估计得到的参数估计量是有偏且非一致的估计量。 3. 选择作为工具变量的变量必须满足那些条件? 答:选择作为工具变量的变量需满足以下三个条件:(1)与所替代的随机解释变量高度相关;(2)与随机干扰项不相关;(3)与模型中其他解释变量不相关,以避免出现多重共线性。 4.对模型 Y t =β0+β1X 1t +β2 X 2t +β3 Y t-1+μt 假设Y t-1与μt 相关。为了消除该相关性,采用工具变量法:先求Y t 关于X 1t 与 X 2t 回归,得到Y t ?,再做如下回归: Y t =β0+β1X 1t +β2 X 2t +β3Y t ?1 -+μt 试问:这一方法能否消除原模型中Y t-1与μt 的相关性? 为什么? 解答:能消除。在基本假设下,X 1t ,X 2t 与μt 应是不相关的,由此知,由X 1t 与X 2t 估计出的Y t ?应与μt 不相关。 5.对于一元回归模型 Y t =β0+β1X t *+μt 假设解释变量X t *的实测值X t 与之有偏误:X t = X t *+e t , 其中e t 是具有零均值、无序列相关,且与X t *及μt 不相关的随机变量。试问: (1) 能否将X t = X t *+e t 代入原模型,使之变换成Y t =β0+β1X t +νt 后进行估计? 其中,νt 为变换后模型的随机干扰项。 (2) 进一步假设μt 与e t 之间,以及它们与X t *之间无异期相关,那么E(X t-1νt )=0成立 吗?X t 与X t-1相关吗? (3) 由(2)的结论,你能寻找什么样的工具变量对变换后的模型进行估计? 解答:(1)不能。因为变换后的模型为 Y t =β0+β1X t +(μt -β 1e t ) 显然,由于 e t 与X t 同期相关,则说明变换后的模型中的随机干扰项νt =μt -β1e t 与X t 同 期相关。 (2) E(X t-1νt )=E[(X t-1* +e t-1)( μt -β1e t )]

引力模型的应用领域

引力模型的应用领域 引力模型是应用广泛的空间相互作用模型,它以牛顿万有引力公式为基础,这也是引力模型名字的由来。目前这个模型理论相当成熟,应用领域也很广泛。比如:空间布局、旅游、贸易、城市分析、交通、市场营销、企业区位、考古、高校招生和生物迁徙等领域。下面我将从引力模型应用的不同领域来谈谈自己对引力模型的理解。 一、引力模型在国际贸易领域的应用 引力模型最早应用于国际贸易研究,并且应用的相当广泛。最早将引力模型应用到贸易领域的是Jan Tinbergen(1962)。以下是我看过的有关该领域的一些期刊论文。 1、戴明辉、沈文星写的“中国木质林产品贸易流量与潜力研究:引力模型方法”,来源于资源科学2010(11)。本文在传统引力模型的基础上,通过引入具有林产品特色的要素禀赋、森林认证变量,对传统引力模型进行修正。运用1999年到2008年这10年间中国对28个木质林产品贸易伙伴国的面板数据进行实证分析,并进行中国主要木质林产品贸易潜力测算。结果表明中国木质林产品贸易流量和双方的经济规模成正相关,与距离因子成负相关,要素禀赋和双边贸易流量成正相关,而森林认证在双边贸易中起着积极的作用。 2、刘岩写的“贸易流量引力模型的理论研究综述”,来源于国际商务——对外经济贸易大学学报2010(3)。本文主要是进行引力模型的理论研究,笔者主要通过梳理近30 年来引力模型的理论发展脉络,全面展示了该理论从局部均衡到一般均衡的扩展;由无贸易理论基础到与贸易国自身禀赋的融合;并提出今后相关理论和实证研究可能进行扩展的方向。比如:人均收入水平是否可以用于解释双边发展中国家的贸易流量。 3、谢国娥、李亮写的“基于引力模型的中澳双边农产品贸易影响因素研究”,来源于华东理工大学学报社会科学版2010(4)。本文主要以1992~2008 年中澳双边农产品贸易的面板数据为基础,运用引力模型分析影响中澳双边农产品贸易的各种因素。其结果表明:中澳双边农产品贸易流量与两国对农产品的需求成正相关;与澳大利亚进口关税率成负相关;与两国的RCA的相关系数、SARS的相

第7章 随机解释变量

第7章 随机解释变量 单方程线性计量经济学模型假定解释变量是确定性变量,并且与随机误差项不相关,违背这一基本假设的问题被称为随机解释变量问题。本章介绍了随机解释变量问题的概念、产生的原因和后果、检验方法以及解决方法。 随机解释变量问题的概念 对于计量经济模型 n 21i i k i k i 22i 110 ,,, ββββ=+++++=u X X X Y i (7.1.1) 其中一个基本假设是解释变量k 21,,X X X 是确定性变量,即解释变量与随机扰动项不相关。但是在现实经济生活中,这个假定不一定成立,这一方面是因为用于建模的经济变量的观测值一般会存在观测误差,另一方面是经济变量之间联系的普遍性使得解释变量可能在一定程度上依赖于应变量,即解释变量X 影响应变量Y ,而应变量Y 也会反过来影响解释变量X 。 模型中如果存在一个或多个随机变量作为解释变量,就称为模型出现了随机解释变量问题。其中k x 可能与随机误差项u 不相关,就是说,解释变量121,,-k x x x 都是外生的,但k x 有可能在方程(4.4.1)中是内生的,则称原模型存在随机解释变量问题。内生性可能源自于省略误差、测量误差,联立性等①。为讨论方便,我们假设中2X 为随机解释变量。 在模型()中,根据解释变量2X 与随机误差项的关系,可以分为三种类型: 1)随机解释变量与随机干扰项独立 )()(),(),(222===u E x E u x E u X Cov (7.1.2) 2)随机解释变量与随机干扰项同期无关但异期相关 n 21i 0),(),(i 2i 2 ,,, ===u x E u X Cov i i ① 具体详见《Econometric analysis of cross section and panal data 》(Jeffrey Wooldrige,2007 )。

地理引力模型应用及参数取舍问题

地理引力模型应用及参数取舍问题 陈英鹏 201132020128 一概念 引力模型是由地理学家,社会学家以及经济学家为了了解和预测人类在地理空间上的经济、社会及政治性相互影响与相互作用方式,利用经典力学中牛顿万有引力公式建立的一种理论假说。最早将引力模型用于研究国际贸易的是丁伯根(荷兰经济学家,创建了丁伯根原则,首届诺贝尔经济学奖得主,他为了说明在由多个国家组成的世界里,贸易流量的不对称现象即大国的贸易量占其GNP的比重小于小国,而建立了贸易引力模型)和Pōōnen,他们分别独立使用引力模型研究分析了双边贸易流量,并得出了相同的结果:两国双边贸易规模与他们的经济总量成正比,与两国之间的距离成反比。Linnemannn于1966年,在引力模型里加入了人口变量,认为两国之间的贸易规模还与人口有关,人口多少与贸易规模成正相关关系。Berstrand(1989)则更进一步,用人均收入替代了人口数量指标。引力模型应用广泛,它是国际贸易流量的主要实证研究工具。在后续的引力模型扩展中,研究者主要是依据研究自己的重点,按照影响双边贸易流量的主要因素设置不同的解释变量。 为了更好地理解引力模型,首先写出牛顿万有引力公式:

在方程中,F ij为物体i与j之间的引力,m i,m j是物体i与j各自的质量,d ij为物体i与j之间的距离,k为常数,它可依据具体情况来确定。该公式表明,引力的大小与物体i与j各自的质量成正比,与距离的平方成反比。在这里,我介绍丁伯根建立的贸易引力模型: (1) 在方程中,X ij是 i城市向j 城市的总出口;Y i与Y j分别为i城市与j 城市的生产总值,D ij为i城市与j 城市之间的距离,K,e 为常数,a、b为参数。该公式表明,i城市向j城市出口总量的大小或者i城市与j城市之间的贸易量的大小与i城市与j 城市的城市居民收入的总量成正比,与两城市之间的距离成反比。 二引力模型的变量取舍及引力模型的改进在扩展后的引力模型中,常常添加的变量有两类:一类是添加虚拟变量,如共同语言、共同边界、共同殖民历史、共同宗教等,早期对引力模型的扩展以这一类为主;另一类是添加制度质量指标变量,如是否同属一个优惠贸易协定或者区域经济一体化组织、政府治理质量、合约实施保障等。两经济体双边农产品贸易流量主要受经济规模、国家人口数量、两国首府之间的直线距离以及各种贸易制度安排等因素的影响。其中经济规模和优惠贸易安排是最重要的影响因素。 在引力模型公式(1)中,通常取引力衰减的基数为两城市之间的距离,但随着城市快速轨道交通的建成,居民出行时间大大缩短,客观上拓展了城市的边界,两点之间空间距离已经不是影响两点相互作用

基于面板数据模型及其固定效应的模型分析

基于面板数据模型及其固定效应的模型分析 在20世纪80年代及以前,还只有很少的研究面板数据模型及其应用的文献,而20世纪80年代之后一直到现在,已经有大量的文献使用同时具有横截面和时间序列信息的面板数据来进行经验研究(Hsiao,20XX)。同时,大量的面板数据计量经济学方法和技巧已经被开发了出来,并成为现在中级以上的计量经济学教科书的必备内容,面板数据计量经济学的理论研究也是现在理论计量经济学最热的领域之一。 面板数据同时包含了许多横截面在时间序列上的样本信息,不同于只有一个维度的纯粹横截面数据和时间序列数据,面板数据是同时有横截面和时序二维的。使用二维的面板数据相对于只使用横截面数据或时序数据,在理论上被认为有一些优点,其中一个重要的优点是面板数据被认为能够控制个体的异质性。在面板数据中,人们认为不同的横截面很可能具有异质性,这个异质性被认为是无法用已知的回归元观测的,同时异质性被假定为依横截面不同而不同,但在不同时点却是稳定的,因此可以用横截面虚拟变量来控制横截面的异质性,如果异质性是发生在不同时期的,那么则用时期虚拟变量来控制。而这些工作在只有横截面数据或时序数据时是无法完成的。 然而,实际上绝大多数时候我们并不关心这个异质性究竟是多少,我们关心的仍然是回归元参数的估计结果。使用面板数据做过实际研究的人可能会发现,使用的效应①不同,对回归元的估计结果经常有十分巨大的影响,在某个固定效应设定下回归系数为正显着,而另外一个效应则变为负显着,这种事情经常可以碰到,让人十分困惑。大多数的研究文献都将这种影响解释为控制了固定效应后的结果,因为不可观测的异质性(固定效应)很可能和回归元是相关的,在控制了这个效应后,由于变量之间的相关性,自然会对回归元的估计结果产生影响,因而使用的效应不同,估计的结果一般也就会有显着变化。 然而,这个被广泛接受的理论假说,本质上来讲是有问题的。我们认为,估计的效应不同,对应的自变量估计系数的含义也不同,而导致估计结果有显着变化的可能重要原因是由于面板数据是二维的数据,而在这两个不同维度上,以及将两个维度的信息放到一起时,样本信息所显现出来的自变量和因变量之间的相关关系可能是不同的。因此,我们这里提出另外一种异质性,即样本在不同维度上的相关关系是不同的,是异质的,这个异质性是发生在回归元的回归系数上,而

第十八章-离散选择模型和受限因变量模型

第18章离散选择模型和受限因变量模型 18.1概述 在经典计量经济学模型中,被解释变量通常被假定为连续变量,但在现实的经济决策中经常面临许多选择问题。在这样的决策问题中,或者选择问题中,人们必须对可供选择的方案作出选择。通常被解释变量是连续的变量,但此时的因变量只取有限多个离散的值。例如:人们对交通工具的选择,是选择坐轻轨、地铁还是公共汽车;某大型企业是否合并另一企业;对某一方案的建议持强烈反对、反对、中立、支持和强烈支持5种态度,可以分别用0,1,2,3和4表示。以这样的选择结果作为被解释变量建立的计量经济学模型,称为离散被解释变量数据计量经济学模型(models with discrete dependent variables),或称为离散选择模型(DCM,discrete choice model)。如果被解释变量只能有两种选择,称为二元选择模型(binary choice model);如果被解释变量有多种选择,称为多元选择模型(multiple choice model)。20世纪70和80年代,离散选择模型普遍应用于经济布局、企业定点、交通问题、就业问题、购买决策等经济决策领域的研究。 在实际中,还会经常遇到因变量受到某种限制的情况,这种情况下,取得样本数据来自总体的一个子集,可能不能完全反映总体。例如,小时工资、住房价格和名义利率都必须大于零。这时需要建立的经济计量模型称为受限因变量模型(limited dependent variable model)。这两类模型经常用于调查数据的分析中。 本章将讨论三类模型及其估计方法和软件操作。一是定性(观测值为离散的或者表示排序);二是截取或者截断问题;三是观测值为整数值的计数模型。 18.2二元因变量模型 在这个模型中,被解释变量只取两个值,可以是代表某件事发生与否的虚拟变量,也可以是两个决策中选一个,称为二元因变量模型。例如:对样本个体是否就业的研究,个体的

第五章离散选择模型

第五章离散选择模型 在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。 本章主要介绍以下内容: 1、为什么会有离散选择模型。 2、二元离散选择模型的表示。 3、线性概率模型估计的缺陷。 4、Logit模型和Probit模型的建立与应用。 第一节模型的基础与对应的现象 一、问题的提出 在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。 1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。由离散数据建立的模型称为离散选择模型。 2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。这种类型的数据成为审查数据。再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,

就把高出分数线和低于分数线划分为了两类。 下面是几个离散数据的例子。 例5.1 研究家庭是否购买住房。由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即 我们希望研究买房的可能性,即概率(1) P Y=的大小。 例5.2 分析公司员工的跳槽行为。员工是否愿意跳槽到另一家公司,取决于薪资、发展潜力等诸多因素的权衡。员工跳槽的成本与收益是多少,我们无法知道,但我们可以观察到员工是否跳槽,即 例5.3 对某项建议进行投票。建议对投票者的利益影响是无法知道的,但可以观察到投票者的行为只有三种,即 研究投票者投什么票的可能性,即(),1,2,3 ==。 P Y j j 从上述被解释变量所取的离散数据看,如果变量只有两个选择,则建立的模型为二元离散选择模型,又称二元型响应模型;如果变量有多于二个的选择,则为多元选择模型。本章主要介绍二元离散选择模型。 离散选择模型起源于Fechner于1860年进行的动物条件二元反射研究。1962年,Warner首次将它应用于经济研究领域,用于研究公共交通工具和私人交通工具的选择问题。70-80年代,离散选择模型被普遍应用于经济布局、企业选点、交通问题、就业问题、购买行为等经济决策领域的研究。模型的估计方法主要发展于20世纪80年代初期。(参见李子奈,高等计量经济学,清华大学出版社,2000年,第155页-第156页) 二、线性概率模型 对于二元选择问题,可以建立如下计量经济模型。

面板数据模型入门讲解

第十四章 面板数据模型 在第五章,当我们分析城镇居民的消费特征时,我们使用的是城镇居民的时间序列数据;而当分析农村居民的消费特征时,我们使用农村居民的时间序列数据。如果我们想要分析全体中国居民的消费特征呢?我们有两种选择:一是使用中国居民的时间序列数据进行分析,二是把城镇居民和农村居民的样本合并,实际上就是两个时间序列的样本合并为一个样本。 多个观测对象的时间序列数据所组成的样本数据,被称为面板数据(Panel Data )。通常也被称为综列数据,意即综合了多个时间序列的数据。当然,面板数据也可以看成多个横截面数据的综合。在面板数据中,每一个观测对象,我们称之为一个个体(Individual )。例如城镇居民是一个观测个体,农村居民是另一个观测个体。 如果面板数据中各观测个体的观测区间是相同的,我们称其为平衡的面板数据,反之,则为非平衡的面板数据。基于面板数据所建立的计量经济学模型则被称为面板数据模型。例如,表5.3.1中城镇居民和农村居民的样本数据具有相同的采样区间,所以,它是一个平衡的面板数据。 §14.1 面板数据模型 一、两个例子 1. 居民消费行为的面板数据分析 让我们重新回到居民消费的例子。在表5.1.1中,如果我们将城镇居民和农村居民的时间序列数据作为一个样本,以分析中国居民的消费特征。那么,此时模型(5.1.1)的凯恩斯消费函数就可以表述为: it it it Y C εββ++=10 (14.1.1) it t i it u ++=λμε (14.1.2) 其中:it C 和it Y 分别表示第i 个观测个体在第t 期的消费和收入。i =1、2分别表示城镇居民和农村居民两个观测个体,t =1980、…、2008表示不同年度。it u 为经典误差项。 在(14.1.2)中,i μ随观测个体的变化,而不随时间变化,它反映个体之间不随时间变化的差异性,被称为个体效应。t λ反映不随个体变化的时间上的差异性,被称为时间效应。在本例中,城镇居民和农村居民的消费差异一部分来自收入差异和随机扰动,还有一部分差

第14章-受限被解释变量

? 陈强,《高级计量经济学及Stata 应用》课件,第二版,2014 年,高等教育出版社。 第 14 章受限被解释变量 被解释变量的取值范围有时受限制,称为“受限被解释变量”(Limited Dependent Variable)。 14.1 断尾回归 对线性模型y i =x i 'β +ε i ,假设只有满足y i ≥c 的数据才能观测到。 例:y i 为所有企业的销售收入,而统计局只收集规模以上企业 数据,比如y i ≥100,000。被解释变量在100,000 处存在“左边断尾”。

2 ? 断尾随机变量的概率分布 随机变量 y 断尾后,其概率密度随之变化。 记 y 的概率密度为 f ( y ) ,在 c 处左边断尾后的条件密度函数为 ? f ( y ) 若 y > c f ( y | y > c ) = ? ?? P( y 0, > c ) , 若 y ≤ c 由于概率密度曲线下面积为 1,故断尾变量的密度函数乘以因子 1 。 P( y > c )

图14.1 断尾的效果 3

断尾分布的期望也发生变化。以左边断尾为例。对于最简单情形,y ~ N (0, 1),可证明(参见附录) E( y |y >c) = φ(c) 1 -Φ(c) 对于任意实数c,定义“反米尔斯比率”(Inverse Mill’s Ratio,简记IMR)为 则E( y | y >c) =λ(c)。λ(c) ≡ φ(c) 1 -Φ(c) 4

图14.2 反米尔斯比率 5

6 对 于 正 态 分 布 y ~ N (μ, σ 2 ) , 定 义 y - μ z ≡ σ ~ N (0, 1) , 则 y = μ + σ z 。故 E( y | y > c ) = E(μ + σ z | μ + σ z > c ) = E ??μ + σ z z > (c - μ) ?? = μ + σ E ?? z z > (c - μ) σ ?? = μ + σ ? λ [(c - μ) σ ] 对于模型y = x 'β + ε ,ε | x ~ N (0, σ 2 ),则y | x ~ N ( x 'β , σ 2 ),故 i i i i i i i i E( y i | y i > c ) = x i 'β + σ ? λ [(c - x i 'β ) σ ] 如 果 用 OLS 估 计 y i = x i 'β + εi , 则 遗 漏 了 非 线 性 项 σ ? λ [(c - x i 'β ) σ ],与x i 相关,导致 OLS 不一致。

面板数据的常见处理

面板数据的常见处理 (2012-03-02 11:16:14) 标签: 在写论文时经常碰见一些即是时间序列又是截面的数据,比如分析1999-2010的公司盈余管 如上图所示的数据即为面板数据。显然面板数据是三维的,而时间序列数据和截面数据都是二维的,把面板数据当成时间序列数据或者截面数据来处理都是不合适的。 处理面板数据的软件较多,一般使用、Stata等。个人推荐使用Stata,因为Stata比较适合处理面板数据,且个性化强。以下以为例来讲解怎么样处理面板数据。 由于面板数据的存储结构与我们通常使用的存储结构不太一样,所在统计分析前,最好在excel中整理一下数据,形成如下图所示的数据

变量定义及输入数据 启动,Stata界面有4个组成部分,Review(在左上角)、Variables(左下角)、输出窗口(在右上角)、Command(右下角)。首先定义变量,可以输入命令,也可以通过点击Data----Create new Variable or change variable。 特别注意,这里要定义的变量除了因素1、因素2、……因素6、盈余管理影响程度等,还要定义年份和公司名称两个变量,这两个变量的数据类型(Type)最好设置为int(整型),公司名称不要使用中文名称或者字母等,用数字代替。定义好变量之后可以输入数据了。数据可以直接导入(File-Import),也可以手工录入或者复制粘贴(Data-Data Edit(Browse)),手工录入数据和在excel中的操作一样。 以上面说的为例,定义变量year、company、factor1、factor2、factor3、factor4、factor5、factor6、DA。 变量company 和year分别为截面变量和时间变量。显然,通过这两个变量我们可以非常清楚地确定panel data 的数据存储格式。因此,在使用STATA 估计模型之前,我们必须告诉它截面变量和时间变量分别是什么,所用的命令为tsset,命令为: tsset company year 输出窗口将输出相应结果。 由于面板数据本身兼具截面数据和时间序列二者的特性,所以对时间序列进行操作的运算同样可以应用到面板数据身上。这一点在处理某些数据时显得非常方便。如,对于上述数据,我们想产生一个新的变量Lag _factor1 ,也就是factor1 的一阶滞后,那么我们可以采用如下命令: gen Lag_factor1= 统计描述: 在正式进行模型的估计之前,我们必须对样本的基本分布特性有一个总体的了解。对于面板数据而言,我们至少要知道我们的数据中有多少个截面(个体) ,每个截面上有多少个观察期间,整个数据结构是平行的还是非平行的。进一步地,我们还要知道主要变量的样本均值、标准差、最大值、最小值等情况。这些都可以通过以下三个命令来完成:xtdes命令用于初步了解数据的大体分布状况,我们可以知道数据中含有多少个截面,最大和最小的时间跨度是多少。在某些要求使用平行面板数据的情况下,我们可以采用该命令来诊断处理后的数据是否为平行数据。Xtsum用来查询对组内、组间、整体计算各个变量的基本统计量(如均值、方差等)。为了方便,以下的举例都只用factor1,factor2两个自变量。 xtdes DA factor1 facto2

第4章(3)受限数据模型

§4.6受限被解释变量数据模型 ——选择性样本 Model with Limited Dependent Variable ——Selective Samples Model 一、经济生活中的受限被解释变量问题 二、“截断”问题的计量经济学模型 三、“归并”问题的计量经济学模型

The Bank of Sweden Prize in Economic Sciences in Memory of Alfred Nobel 2000 "for his development of theory and methods for analyzing selective samples” James J Heckman USA

?“Shadow Prices, Market Wages and Labour Supply”,Econometrica42 (4), 1974, P679-694发现并提出“选择性样本”问题。 ?“Sample Selection Bias as a Specification Error”,Econometrica47(1), 1979, P153-161 证明了偏误的存在并提出了Heckman两步修正法。

一、经济生活中的受限被解释变量问题

2、“归并”(censoring)问题 ?将被解释变量的处于某一范围的样本观测值都用一个相同的值代替。 ?经常出现在“检查”、“调查”活动中,因此也称为“检查”(censoring) 问题。 ?需求函数模型中用实际消费量作为需求量的观测值,如果存在供给限制,就出现“归并”问题。?被解释变量观测值存在最高和最低的限制。例如考试成绩,最高100,最低0,出现“归并”问题。

离散选择模型完整版

离散选择模型 HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】

第五章离散选择模型 在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。 本章主要介绍以下内容: 1、为什么会有离散选择模型。 2、二元离散选择模型的表示。 3、线性概率模型估计的缺陷。 4、Logit模型和Probit模型的建立与应用。 第一节模型的基础与对应的现象 一、问题的提出 在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。 1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。由离散数据建立的模型称为离散选择模型。 2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。这种类型的数据成为审查数据。再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。 下面是几个离散数据的例子。 例研究家庭是否购买住房。由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住

面板数据模型理论知识

1.Panel Data 模型简介 Panel Data 即面板数据,是截面数据与时间序列数据综合起来的一种数据类型,是截面上个体在不同时点的重复观测数据。 相对于一维的截面数据和时间序列数据进行经济分析而言,面板数据有很多优点。(1)由于观测值的增多,可以增加自由度并减少了解释变量间的共线性,提高了估计量的抽样精度。(2)面板数据建模比单截面数据建模可以获得更多的动态信息,可以构建并检验更复杂的行为模型。(3)面板数据可以识别、衡量单使用一维数据模型所不能观测和估计的影响,可以从多方面对同一经济现象进行更加全面解释。 Panel Data 模型的一般形式为it K k kit kit it it x y μβα++=∑ =1 其中it y 为被解释变量,it x 为解释变量, i =1,2,3……N ,表示N 个个体;t =1,2,3……T ,表示已知T 个时点。参数it α表示模型的截距项,k 是解释变量的个数,kit β是相对应解释变量的待估计系数。随机误差项it μ相互独立,且满足零 均值,等方差为2δ的假设。 面板数据模型可以构建三种形式(以截面估计为例): 形式一: 不变参数模型 i K k ki k i x y μβα++=∑ =1,又叫混合回归模型,是指无论 从时间上还是截面上观察数据均不存在显著差异,故可以将面板数据混合在一起,采用普通最小二乘估计法(OLS )估计参数即可。 形式二:变截距模型i K k ki k i i x y μβαα+++=∑ =1*,*α为每个个体方程共同的截距 项,i α是不同个体之间的异质性差异。对于不同个体或时期而言,截距项不同而解释变量的斜率相同,说明存在不可观测个体异质影响但基本结构是相同的,可以通过截距项的不同而体现出来个体之间的差异。当i α与i x 相关时,那就说明模型为固定效应模型,当i α与i x 不相关时,说明模型为随机效应模型。 形式三:变参数模型 i K k ki ki i i x y μβαα+++=∑ =1* ,对于不同个体或时期而 言,截距项(i αα+*)和每个解释变量的斜率ki β都是不相同的,表明不同个体之间既存在个体异质影响也存在不同的结构影响,即每个个体或时期都对应一个互不相同的方程。同样分为固定效应模型和随机效应模型两种。 注意:这里没有截距项相同而解释变量的系数不相同的模型。 2.Panel Data 模型分析步骤 2.1 单位根检验 无论利用Panel Data 模型进行截面估计还是时间估计分析的时候,我们先要进行单位根检验,只有Panel Data 模型中的数据是平稳的才可以进行回归分析,否则容易产生“虚假回归”。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的2R ,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归。面板单位根检验方法有5种:LLC 检验、IPS 检验、Breintung 检验、ADF-Fisher 检验和PP-Fisher 检验,前两种是相同根情况下的单位根检验方法, 后三

第五讲-虚拟变量模型

第七讲 经典单方程计量经济学模型:专门问题 虚拟变量模型 学习目标: 1. 了解什么是虚拟变量以及什么是虚拟变量模型; 2. 理解虚拟变量的设置原则; 3. 掌握虚拟变量模型的两种基本引入方式(加法方式和乘法方式); 4. 能够自行设计虚拟变量模型,并能够解释其中蕴含的经济意义; 教学基本内容 一、 虚拟变量 许多经济变量是可以定量度量,例如:商品需求量、价格、收入、产量等;但有一些影响经济变量的因素是无法定量度量。例如:职业、性别对收入的影响,战争、自然灾害对GDP 的影响,季节对某些产品(如冷饮)销售的影响等。 定性变量:把职业、性别这样无法定量度量的变量称为定性变量。 定量变量:把价格、收入、销售额这样可以可以定量度量的变量称为定量变量。 为了能够在模型中能够反映这些因素的影响,提高模型的精度,拓展回归模型的功能,需要将它们“量化”。 这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量(dummy variables ) ,记为D 。 虚拟变量只作为解释变量。 例如:反映性别的虚拟变量? ??=女男;0;1D 反映文化程度的虚拟变量???=非本科学历 本科学历;0;1D 一般地,基础类型和肯定类型取值为1;比较类型和否定类型取值为0。 二、 虚拟变量的设置原则 设置原则: 每一定性变量(qualitative variable)所需的虚拟变量个数要比该定性变量的状态类别数(categories)少1。即如果有m 种状态,只在模型中引入m-1个虚拟变量。 例如,冷饮的销售量会受到季节变化的影响。季节定性变量有春、夏、秋、冬4种状态,只需要设置3个虚拟变量:

相关文档
相关文档 最新文档