文档库 最新最全的文档下载
当前位置:文档库 › 面板数据分析

面板数据分析

面板数据分析
面板数据分析

第十四章 面板数据模型

在第五章,当我们分析城镇居民的消费特征时,我们使用的是城镇居民消费和收入的时间序列数据,也就是说,我们的观测对象是城镇居民。当我们分析农村居民的消费特征时,我们可以使用农村居民的时间序列数据,此时,我们的观测对象是农村居民。但是,如果我们想要分析全体中国居民的消费特征呢?我们有两种选择:一是使用中国居民的时间序列数据进行分析,二是把城镇居民和农村居民这两个观测对象的时间序列数据合并为一个样本。第二种选择中所使用的是由多个观测对象的时间序列数据所组成的样本数据,通常被称为面板数据(Panel Data )。或者被称为综列数据,意即综合了多个时间序列的数据。当然,面板数据也可以看成多个横截面数据的综合。

在面板数据中,每一个观测对象,被称为一个个体(Individual )。例如城镇居民是一个观测个体,其消费记为1t C ,农村居民是另一个观测个体,其消费记为2t C ,这样,it C (i=1,2)就组成了一个面板数据。同理,收入it Y (i=1,2)也是一个面板数据。

如果面板数据中各观测个体的观测区间和采样频率是相同的,我们就称其为平衡的面板数据,反之,则为非平衡的面板数据。例如,表5.3.1中城镇居民和农村居民的样本数据具有相同的采样区间和频率,所以,它是一个平衡的面板数据。基于面板数据所建立的计量经济学模型则被称为面板数据模型。

§14.1 面板数据模型

一、两个例子

1. 居民消费行为的面板数据分析

让我们重新回到居民消费的例子。在表5.1.1中,如果我们将城镇居民和农村居民的时间序列数据组成面板数据,以分析中国居民的消费特征。那么,此时模型(5.1.1)的凯恩斯消费函数就可以表述为:

it it it Y C εββ++=10 (14.1.1) it t i it u ++=λμε (14.1.2) 其中:it C 和it Y 分别表示第i 个观测个体在第t 期的消费和收入。i =1、2分别表示城镇居民和农村居民两个观测个体,t =1980、…、2008表示不同年度。it u 为经典误差项。

在(14.1.2)中,i μ随观测个体的变化而变化,但不随时间变化,它反映个体不随时间变化的差异性,被称为个体效应。t λ反映不随个体变化的时间上的差异性,被称为时间效应。在本例中,城镇居民和农村居民的消费差异一部分来自收入差异和随机扰动,还有一部分差异是由城镇居民和农村居民的身份或地域差异决定的,它不随时间变化,这种差异性就由1μ和2μ来反映。同时,对所有居民,在收入不变的情况下,消费支出还可能随时间的变化而变化,这种变化的来源在于除随机扰动以外经济环境的一些系统性变化,如经济体制的变迁,这种变化是所有居民共同面对的,所导致的居民消费在时间上的差异性就由时间效应1980λ、1981λ、…、2008λ来反映。实际上,模型(14.1.2)还假定城乡居民的边际消费倾向相同并且不随时间变化,尽管这一假定不一定成立,但作为熟悉面板数据模型的例子,我们还是暂且保留这一假定。

2. 农村居民收入分析

为了考察中国农民收入与农村要素投入结构之间的关系,同样地,我们既可以采用全国的时间序列总量数据进行分析,也可以采用各省市自治区的横截面数据进行分析。但是,如果能够综合各省市自治区的时间序列数据,也就是将各省市自治区作为观测的个体,由此形成面板数据,基于面板数据设定模型进行分析,一个显而易见的好处就是,我们将会有更多更具体的信息,估计和检验统计量都会有更大的自由度,从而获得更可靠的分析结论。

简单而言,由于农村剩余劳动力的存在,影响农村居民收入的要素配置因素可以分为以下几个方面:劳动的配置状态、资本拥有量、投资主体结构等。所以,基于省际面板数据,有研究者建立了如下的面板数据模型:

it it it it it RCI RLT CSC PIC εββββ+++=3210)(ln )ln +( (14.1.3)

it t i it u ++=λμε。

N i ,2,1=,T t ,2,1=

其中:PIC it 为地区i 在第t 期的农村人均纯收入,各年份的现值均按本地区农村消费者价格指数折算为1995年不变价。RLT it 为地区i 在第t 期乡村劳动力中非农产业从业人数与农林牧渔等传统产业从业人数之比。RCI it 为地区i 在第t 期农村集体投资与个人投资的比率。CSC it 为地区i 在第t 期农村人均资本存量的估算结果。i μ和t λ分别为个体效应和时间效应。i μ反映除劳动力分配比例、投资比例、资本存量的影响以外,各省人均纯收入受本省

内在因素(如地理位置,经济发展基础等)所导致的不随时间变化的差异性。而时间效应反映除解释变量的影响以外,所有省份农村人均纯收入面对共同的经济环境的变化而形成的时间上的差异性。

显然,面板模型与我们以前所学的模型之间的区别,就在于存在个体效应和时间效应。简而言之,剔除了解释变量的影响以后,由个体内部不变的因素所导致的个体之间的差异性,就是个体效应;由所有个体所面对的共同因素所导致的时间上的变化,就是时间效应。

二、面板数据的特征及优势

基于前面两个例子,我们发现,面板数据既可以看作多个个体时间序列数据的合并,也可以看作多个时点横截面数据的合并。所以,如图14.1.1所示,面板数据的基本特征就是其数据结构的二维性。或者说,面板数据是一个数据平面,这也正是其被以“面板”命名的原因。

图14.1.1 变量X的面板数据结构

那么,有读者会说,既然我们可以基于全体居民的时间序列数据(如全体居民的人均收入和人均消费)来分析中国居民的消费行为,为什么要使用面板数据呢?实际上,使用面板数据会为我们的计量经济学分析带来很多的好处。

(1)扩大信息量,增加估计和检验统计量的自由度。

显然,与时间序列数据和横截面数据不同,面板数据是二维数据。它既包含同一观测个体随时间的变化,也包含同一时间不同个体之间的差异。这显著扩大了样本的信息量和样本容量,有助于提高参数估计的精度和检验结论的可靠性。

对模型(14.1.1)而言,如果我们基于居民的时间序列数据进行分析,样本容量为29。而基于城镇和农村的面板数据,样本容量则为58,如果基于省市区的面板数据,样本容量将更大,模型估计量和检验统计量的自由度显著增加。更重要的是,基于总量数据进行分析,

无法反映两种居民之间的差异性,其数据信息对于两种居民都有显著的偏差。

(2)有助于提供动态分析的可靠性。

基于单个个体的时间序列数据进行动态分析,一方面会受到采样区间的限制,另一方面其研究结论也缺乏普适性。而基于面板数据,则可以在较短的采样区间内反映多个个体共同的动态变化特征,从而弱化样本区间的制约得到更为可靠的分析结论。

当我们在模型(14.1.1)中引入预期因素时,其回归模型被表述为:

it t i it it C Y C εβββ+++=-1,210。 (14.1.4)

如果使用时间序列数据,我们只能根据不同年度消费额的变化信息来估计消费的动态性质,而使用面板数据,我们有两种居民消费的变化信息可供利用。

(3)有助于反映经济结构、经济制度的渐进性变化。

对于所考察的经济体系而言,经济结构和经济制度的变化通常是渐进性的,我们很难找到一个量化的指标来反映这种渐进性变化。幸运的是,使用面板数据时,时间效应是被解释变量变化中不随个体变化而只随时间变化的部分,它反映了所有个体所面对的共同因素的影响。所以,时间效应是对经济结构和经济制度渐变效应的一个很好的度量指标。

(4)面板数据模型有助于反映经济体的结构性特征。

与总量数据相比,面板数据提供了更具微观层次的信息。对很多经济问题的分析而言,某些变量涉及不同观测个体之间的相互关系,例如资本和劳动在区域和产业之间的流动,技术的溢出,通胀的相互影响等。使用面板数据使得这些结构性变化信息的分析成为可能。

三、面板数据模型的混合估计

既然面板数据有诸多优势,那么,面板数据模型的分析与时间序列或横截面数据模型有什么不同呢?

在(14.1.1)和(14.1.3)中,如果假定个体效应和时间效应为0,那么,这个模型与我们前面所熟悉的单方程模型没有任何本质上的差异。所以,我们可以直接基于OLS 对其进行估计。也就是说,我们没有考虑面板数据的结构特殊性,而直接把各时间序列或各横截面数据混合起来进行估计,这种估计方法我们称之为面板混合OLS 估计。

对于模型(14.1.3),如果假定个体效应和时间效应为0,则模型可以表述为:

u RCI RLT CSC PIC +++=3210)(ln )ln ββββ+( (14.1.5)

其中:'1111)(NT N it T PIC PIC PIC PIC PIC PIC =,PIC it 为地

区i 在第t 期的农村人均纯收入。其他变量的向量表述也是类似的。也就是说,我们将各个地区的数据堆积起来,看成是对同一个对象的观测数据。如果u 为经典误差项,这一模型与

第五章所讲的多元线性回归模型没有任何本质区别,其OLS 估计量是线性无偏最优估计量。

基于中国28个省市自治区(不包括重庆、海南、西藏)1995~2005年的面板数据,其面板混合OLS 估计的结果为:

it it it it RCI RLT CSC PIC 0104.02523.0)(ln 35911.08158.7)n l -+(+=∧

(14.1.6)

t 统计值 202.2730 17.2520 5.7464 -3.1736

p 值 0.0000 0.0000 0.0000 0.0017

2R =0.8409 2R =0.8393。 但是,对面板数据而言,把个体效应和时间效应假定为0一般是不符合经济现实的,尤其是个体效应。我们很难想象各地区农村居民的消费特征不存在差异性。当我们考虑个体效应与时间效应时,我们会发现,面板数据在为我们带来更多信息和便利的同时,也带来了一些新的问题。

§14.2 固定效应与随机效应

面板数据模型的一般形式可以表述为:

it Kit K it it X X Y εβββ++++= 110 (14.2.1) it t i it u ++=λμε。 N i ,,2,1 = T t ,,2,1 =。

其中:it u 为经典误差项。0)(=i E μ,0)(=t E λ,0)(=it i u E μ,0)(=it t u E λ。

我们已经知道,与时间序列数据或横截面数据的单方程模型相比,面板数据模型唯一的不同之处就是存在个体效应i μ和时间效应t λ。根据i μ和t λ与模型解释变量是否相关,面板数据的个体效应和时间效应又分为两种情形:固定效应(Fixed Effect )和随机效应(Random Effect )。

如果个体效应i μ与模型中的解释变量是相关的,我们就称这种个体效应是固定效应。反之,如果个体效应i μ与模型中的解释变量不相关,我们称之为随机效应。

同样地,如果时间效应t λ与模型中的解释变量是相关的,我们就称这种时间效应是固定效应。反之,则为随机效应。

例如:在模型(14.1.1)中,如果个体效应i μ与收入it Y 相关,时间效应t λ与收入it Y 不相关,那么,该模型的个体效应是固定效应,时间效应是随机效应。

如何理解固定效应和随机效应的含义呢?

我们知道,对不同的个体,解释变量的时间序列数据会有差异,它反映了各个个体自身的特征。当个体效应与解释变量相关时,此时的个体差异就受观测个体内在特征的影响。或者说,此时,个体的差异与个体的特征有内在的联系,所以,我们可以称这种效应是“固定”的。相反,如果个体效应与解释变量不相关,则说明个体效应的差异与观测个体的特征没有显著的内在联系,或者说,这种个体差异很可能是“随机”产生的。所以,我们可以称其为随机效应。

同样,时间效应的固定效应是指时间效应在时间上的差异与特定观测时间的经济背景有内在联系,而其随机效应则是指时间效应在时间上的差异是“随机”产生的。

§14.3 静态面板数据模型的估计

对于面板数据模型(14.2.1),我们首先考虑解释变量中不含被解释变量滞后项的情形,这样的模型我们称之为静态面板数据模型。

个体效应i μ和时间效应t λ是固定效应还是随机效应,模型所面对的计量经济学问题是不同的,其估计方法也不同。所以,我们需要分别介绍静态面板模型的固定效应估计方法和随机效应估计方法。

一、静态面板数据模型的固定效应估计

如果个体效应i μ和时间效应t λ满足固定效应假定,显然此时模型的随机误差项it ε与解释变量相关,它违背了高斯-马尔可夫定理的经典假定,根据我们在模型设定和联立方程中所学的知识,此时,模型中参数的OLS 估计量是有偏的并且是非一致的。所以,固定效应面板数据模型的根本性问题是解释变量的内生性问题,其后果是OLS 估计量不再是无偏的估计量。

既然OLS 估计量是有偏的,我们就需要新的无偏估计量。对于固定效应的静态面板数据模型,其线性最优无偏的估计方法是最小二乘虚拟变量法(LSDV 方法)。

1. LSDV 估计方法

为了表述简便,我们以后不考虑时间效应,而只考虑个体效应。我们基于如下的一元静态面板数据模型来说明LSDV 估计的基本思路:

it it it X Y εββ++=10 (14.3.1)

it i it u +=με。

N i ,,2,1 = T t ,,2,1 =。

(1)为每一个个体设定一个虚拟变量i D ,N i ,,2,1 =。其中:i D =1表示第i 个观测个体,i D =0表示不是第i 个观测个体。

(2)在模型中引入虚拟变量,通过虚拟变量使个体效应显性化(或者称参数化),则模型(14.3.1)可表述为:

it it N N it u X D D Y +++++=1110βμμβ (14.3.2)

为了解决虚拟变量的完全多重共线性,我们可以直接估计模型:

**111it N N it it Y D D X u μμβ=++++ (14.3.3)

此时,模型的误差项是经典误差项it u ,所以,我们可以直接对(14.3.3)进行OLS 估

计。在(14.3.3)中,估计量)?,?(**1N μμ 的均值就是对0β的估计,而离差则是对个体效应i

μ的估计。即:

∑==N i i N 1*0?1?μβ,∑=-=N i i i i N 1**?1??μμμ (14.3.4)

实际上,鉴于个体效应只是反映个体之间的差异性,其数值本身的大小是没有经济意义的,我们所关心的只是其数值的差异。

最后,让我们总结一下LSDV 估计的基本思想:通过虚拟变量把误差项中与解释变量相关的个体效应(和时间效应)参数化,把个体效应(和时间效应)从误差项中分离出来,使分离后剩余的误差项与解释变量不相关,以便进行OLS 估计。这正是其被称为最小二乘虚拟变量法的原因。

回到中国农民纯收入的例子。基于中国的省际面板数据,对模型(14.1.3)进行LSDV 估计,为简便起见,我们在此仅考虑个体效应,其具体估计结果为(各省市区个体效应的估计值见表14.3.1):

it i it it it it u RCI RLT CSC PIC ??0009.00681.0)(ln 11784.04889.7)ln(+++=μ

++ (14.3.5)

t 统计值 310.5582 35.0807 2.1178 0.6352

p 值 0.0000 0.0000 0.0351 0.5258

表14.3.1 个体效应i μ的估计结果

显然,LSDV 估计结果(14.3.5)不同于混合OLS 估计结果(14.1.6),尤其是it RCI 系数的估计结果由显著的负值变为不显著的正值。估计结果的显著不同本在我们的意料之中,因为混合OLS 估计的实际上是受约束的模型,即0==t i λμ约束下的模型。

细心的读者可能已经注意到,在(14.3.5)的估计结果中,我们没有报告模型的判定系数2R 。原因在于,对于考虑了个体效应(和时间效应)的面板数据模型而言,2R 不能反映解释变量对被解释变量变化的解释能力。因为,此时的模型包含了个体效应(和时间效应)对被解释变量变化的解释,其判定系数也包含了个体效应(和时间效应)的贡献,而不只是解释变量的贡献。

2. LSDV 估计方法的直观含义

根据我们在第五章中对多元回归方程估计思想的解释,对模型(14.3.3),我们还有一种等价的估计方法。这种等价方法的步骤是:

(1)分别估计方程: it N N it D D Y ξλλ+++= 11 (14.3.6)

it N N it D D X ζγγ+++= 11 (14.3.7)

得到残差it

ξ?和it ζ?。 (2)估计方程:

it it it u +=ζβξ??1 (14.3.8)

此时,基于(14.3.8)对1β的估计与(14.3.3)的LSDV 估计是等价的。

我们注意到,在步骤(1)中,对每一个个体i 而言,只有1=i D ,其他虚拟变量都等于0,既0=≠i s D 。以i =1为例,回归方程(14.3.6)可以写成:

t t Y 111ξλ+= 该方程的残差就是被解释变量的离差。所以,∑=-=T t t t t Y T Y 1

1111?ξ,它是在第1个个体内部求变量Y 的离差。同样的,t 1?ζ是在第1个个体内部求变量X 的离差。

由此,我们发现,(14.3.8)实际上是变量Y 的个体内离差对变量X 的个体内离差进行回归。

所以,LSDV 估计方法的直观含义是,将被解释变量和解释变量在个体内取离差,以被解释变量的个体内离差对解释变量的个体内离差进行回归,并进行OLS 估计。

在分析农民纯收入的例子,如果我们将所有变量)ln it PIC (、)(ln it CSC 、it RLT 、it RCI 的样本数据都转换为省内离差的形式,那么,我们对模型进行OLS 估计,其斜率系数的估计结果与(14.3.5)的结果是相同的。

二、静态面板数据模型的随机效应估计

如果个体效应i μ和时间效应t λ满足随机效应假定,显然,此时模型的随机误差项it ε与解释变量不相关,此时模型中参数的OLS 估计量仍是无偏的。

但是,由于个体效应i μ的存在,同一观测个体的误差项都包含不随时间变化的i μ,从而导致同一时间序列样本数据内部存在自相关。同样地,如果考虑到时间效应t λ,同一横截面的误差项都包含不随个体变化的t λ,从而导致同一横截面样本数据存在自相关。我们知道,此时尽管OLS 估计量是无偏的,但却不是最优的,OLS 估计量有较大的方差。所以,随机效应面板数据模型的本质问题是误差项的自相关,其后果是OLS 估计量有较大的方差。

既然随机效应问题的本质是自相关,在自相关一章中,我们已经知道,修正自相关的影响需要采用GLS 估计。所以,对于随机效应的静态面板数据模型,其线性无偏最优的估计方法是广义最小二乘法(GLS )。

在此,需要特别说明的是,随机效应面板数据模型的自相关与我们在第9章所讨论的AR 形式的自相关有所不同。AR 形式的自相关会随着时间间隔的增大而衰减,而随机效应

静态面板模型的自相关不随时间间隔的变化而变化。所以,第9章中所介绍的基于广义差分模型的GLS 估计方法对随机效应面板模型是不适用的。鉴于随机效应面板模型的GLS 估计方法要相对复杂一些,我们在此并不介绍该方法的基本思想。不过,各种计量经济学分析软件(如EVIEWS 、STA TA 等)都会提供随机效应静态面板模型的GLS 估计程序。

再次回到中国农民纯收入的例子。基于中国的省际面板数据,在仅考虑个体效应的情况下,我们对模型(14.1.3)进行GLS 估计,其具体估计结果为:

it it it it RCI RLT CSC PIC 0007.00750.0)(ln 11604.04369.7)n l ++(+=∧

(14.3.9)

t 统计值 202.1297 35.3193 2.4289 0.4921

p 值 0.0000 0.0000 0.0157 0.6230 就本例而言,尽管(14.3.9)和(14.3.5)的估计结果比较接近,但还是有一点差异。 看到这里,可能有同学会说,既然个体效应和时间效应的存在会导致自相关,那么,固定效应面板模型也应该有自相关,为什么在估计时没有考虑自相关问题呢?原因很简单,在静态固定效应模型的估计中,我们已经通过虚拟变量把个体效应(和时间效应)从误差项中分离出来了。也就是说,我们在处理内生性问题的同时把自相关问题也解决了。

既然固定效应模型应该使用LSDV 估计,而随机效应模型应该采取GLS 估计,那么,当我们面对一个面板数据模型时,到底是用LSDV 方法呢?还是选用GLS 方法呢?一方面,我们可以基于固定效应和随机效应的含义,结合回归模型所要研究的经济问题,从问题的经济背景来进行判定。另一方面,我们可以根据样本数据,通过具体的检验统计量来进行检验。

三、豪斯曼检验

要想固定效应和随机效应作出判定,我们首先要明确两种估计量在不同情形下的性质。 如果模型中的个体效应或时间效应是固定效应,那么,LSDV 估计量是无偏的估计量,而GLS 估计量则是有偏的。

反之,如果模型中是随机效应,那么,LSDV 估计量和GLS 估计量都是无偏的,但LSDV 估计量有较大的方差。

鉴于两种估计量的上述特征,我们发现,如果是随机效应模型,LSDV 估计量和GLS 估计量的估计结果就比较接近,反之,如果是固定效应模型,两种估计量的结果就有较大的差异。豪斯曼检验正是基于这种思想来检验随机效应和固定效应的。

豪斯曼检验的待检验假设为:

原假设(H 0): 随机效应

备选假设(H A ): 固定效应

其检验统计量为:

'1??????()()()F R F R F R

H ββ∑∑ββ-=--- (14.3.10) 其中:F β?为回归系数的LSDV 估计向量,R

β?为回归系数GLS 估计向量,F ∑?为LSDV 估计系数的协方差矩阵估计量,R

∑?为GLS 估计系数的协方差矩阵估计量。 在原假设(随机效应)为真时,豪斯曼检验统计量服从2χ分布。即:

)(~2K H χ (14.3.11) 自由度K 为模型中解释变量(不包括截距项)的个数。

还是回到中国农民纯收入的例子。在仅考虑个体效应的情况下,我们对模型(14.1.3)进行豪斯曼检验,检验结果为:

H =4.1777 p 值=0.2429。

显然,根据检验结果,我们无法拒绝随机效应的原假设。所以,从豪斯曼检验结果来看,中国农村居民收入模型中的个体效应很可能是随机效应。

§14.4 动态面板数据模型简介

如果面板数据模型的解释变量中包含被解释变量的滞后项,我们则称其为动态面板模型。仅包含被解释变量一阶滞后时,动态面板模型的一般表述形式为:

it t i Kit K it it Y X X Y ερβββ+++++=-1,110 。 (14.4.1)

随着滞后被解释变量作为解释变量出现在模型中,由于个体效应的存在,模型中解释变量

1,-t i Y 将无法满足严格外生性的条件,

从而导致LSDV 估计和GLS 估计都是有偏的。在§14.1的消费函数例子中,考虑了预期因素的模型(14.1.4)就是一个典型的动态面板数据模型。

首先,鉴于动态面板数据模型特有的估计问题仅与个体效应有关,为了使表述简化清晰,在后面的分析中,我们仅考虑个体效应,而不再考虑时间效应,并且暂不考虑外生的解释变量和截距项。那么,模型(14.4.1)就被设定为:

,1it i t it Y Y ρε-=+ (14.4.2)

it i it u +=με

其中:it u 为经典误差项。0)(=i E μ,0)(=it i u E μ。

一、动态面板数据模型的内生性问题

在动态面板数据模型中,无论个体效应是固定效应还是随机效应,固定效应的LSDV 和随机效应的GLS 估计都是有偏的并且非一致的①。其原因就在于,动态面板数据模型存在固有的内生性问题。

1. GLS 估计的有偏和非一致性

对于GLS 估计,模型(14.4.2)的内生性问题是显而易见的。因为解释变量1,-t i Y 与误差项it ε都包含个体效应i μ。即使进行差分变换,,1,1,2i t i t i t Y Y Y ?---=-与1,--=t i it it u u ε?,都包含共同因素1,-t i u ,我们也还是无法消除解释变量的内生性问题。理解这一问题,需要注意1,-t i u 是1,-t i Y 的构成部分。

2. LSDV 估计的有偏和非一致性

对于LSDV 估计,模型(14.4.2)可以表示为:

it t i N N it u Y D D Y ++++=-1,11ρμμ (14.4.3)

其中:i D =1表示第i 个观测个体,i D =0表示不是第i 个观测个体。它等价于模型: ***

,,1i t i t it Y Y ρε-=+ (14.4.4) 其中,符号“*”表示对变量的样本数据在个体内取离差。即: *,1,1,11T i t i t i t t Y

Y Y T --==-∑,*11T it it it t T εεε==-∑。 显然,*,1i t Y -和*,i t ε是相关的,二者都包含误差1,-t i ε,1,-t i ε在*,1i t Y -中的权重是(1-1/T ),在*,i t ε中的权重是1/T 。所以,LSDV 估计方法也无法消除动态面板模型的内生性问题。

由于动态面板模型固有的内生性问题,一般而言,我们通常采用三种方法估计动态面板数据模型:广义矩方法(GMM )、偏误直接修正方法、变换的似然估计方法。目前应用最多的估计方法是GMM 方法。

二、动态面板模型的广义矩估计方法(GMM )

对于一阶自回归的动态面板数据模型(14.4.2):

,1it i t it Y Y ρε-=+ (14.4.2)

① Cheng Hsiao, Analysis of Panel Data, 北京大学出版社,2005,pp70-85.

it i it u +=με

其中:it u 为经典误差项。0)(=i E μ,0)(=it i u E μ。我们已经知道,动态面板模型的,1i t Y -和it ε是相关的,而且LS 估计(无论是LSDV 还是GLS )都是有偏并且非一致的。如果要想得到ρ的一致估计量,我们需要为,1i t Y -寻找适当的工具变量。

根据工具变量的选择的两个条件,我们要找的工具变量必须与it ε不相关,而与,1i t Y -相关。基于给定的样本信息,我们所能够找到的与,1i t Y -高度相关的变量只有,1i t Y -的滞后项。但是,由于个体效应的存在,,1i t Y -的滞后项即1i Y 、2i Y 、…、,2i t Y -也与it ε相关,它们不能作为工具变量使用。

为了能够找到适当的工具变量,我们对模型(14.4.2)取一阶差分:

,1it i t it Y Y ?ρ??ε-=+ (14.4.5) 因为1,--=t i it it u u ε?已经剔除了个体效应i μ,同时,对于it u 和1,-t i u ,1i Y 、2i Y 、…、,2i t Y -都是前定变量,所以,1i Y 、2i Y 、…、,2i t Y -都与it ε?不相关,都可以作为模型(14.4.5)中,1i t Y ?-的工具变量。

如果我们只选择,2i t Y -作为,1i t Y ?-的工具变量,由于,2i t Y -与it ε?不相关,它们之间存在正交的约束条件:

,2()0i t it E Y ?ε-=, (14.4.6) 基于一个给定的样本,我们通过求解

,2,2,11

1??()0i t it i t it i t i t i t Y

Y

Y Y NT NT ?ε?ρ?

---=-=∑∑∑∑, (14.4.7) 就可以得到ρ的估计量ρ?。这就是我们前面所学过的工具变量估计量(IV 估计量)。

我们知道,工具变量不但要求与模型的误差项不相关,而且,要尽可能地反映原内生解释变量的信息。显然,,2i t Y -很难反映,1i t Y ?-太多的信息,IV 估计量会有较大的估计方差。所以,我们通常会选择1i Y 、2i Y 、…、,2i t Y -作为模型(14.4.5)中,1i t Y ?-的工具变量。

我们把,1i t Y ?-的工具变量集记为向量2'12,2(,,,)t i i i t Y Y Y Y --= ,由前面的分析,它们

与it ε?不相关,即满足如下的正交条件:

2()t it E Y ?ε-=0。 (14.4.8) 其中,2()t it E Y ?ε-被称为总体矩,它是基于参数ρ的真实值而定义的,所以,为表述方便,我们可以将其记为))((ρg E 。(14.4.8)的约束条件被称为总体矩条件,由总体矩条件,我们可以得到ρ的广义矩(GMM )估计量。这样的GMM 估计量有时也被称为差分GMM 估计量,因为我们首先对模型进行了一阶差分变换。在此,我们简要地介绍GMM 估计的基本思想。

先回头看一下工具变量估计量,基于(14.4.7)这样一个约束方程估计一个参数ρ,所

以,我们可以通过方程(14.4.7)的求解计算出估计值ρ

?。 但是,当我们为解释变量1,-t i y ?选取了多个工具变量时,(14.4.8)所表示的是多个约束方程,在此,我们无需具体地讨论(14.4.8)的约束形式,但至少我们已经注意到2'12,2(,,,)t i i i t Y Y Y Y --= 是一个向量。等式右手边的0不是标量而是0向量。

因为(14.4.8)中的总体矩是期望,那么给定一个样本,这些总体矩所对应的样本矩应该是样本均值,即:

21

??()()t it i t g Y NT ρ?ε

-≡∑∑ (14.4.9) 其中,,1??it it i t Y Y ?ε

?ρ?-=-。注意,该定义式中的2t Y -是一个列向量,在这里,我们再次提醒,)?(ρ

g 是所有样本矩组成的列向量。在计算每一个样本矩时,由于工具变量是动态滞后项,与?it ?ε

作乘积运算时,工具变量会缺少部分样本数据,例如,1i Y 作为工具变量,它只有一个观测值,那么,缺少的观测值都以0值补齐。

根据(14.4.8)对总体矩的约束条件,我们应该寻找一个估计值ρ

?,使样本矩向量)?(ρg 等于0向量。即:

?()g ρ

=0 (14.4.10) 那么,基于(14.4.10)对参数ρ进行估计,实际上是在用多个方程求解一个参数估计值ρ

?,这样的情况被称为过度识别。

由于过度识别,我们面临的问题是:因为(14.4.10)是用多个约束方程求解一个未知参数ρ

?,我们不可能用一个估计值ρ?保证(14.4.10)中所有的样本矩都等于0。我们只能选择一个ρ

?,使所有样本矩尽可能地接近0。因此,我们的估计思想是,基于一个样本,寻找一个估计值ρ

?,使所有样本矩尽可能接近0,也就是说,我们要使样本矩的平方和最小。 具体而言,GMM 估计的基本思想就是:最小化所有样本矩的平方和,即:

[])?()'?(min ?ρρρ

Wg g G = (14.4.11) 其中:函数G 被称为GMM 目标函数。W 是一个对称、正定的加权矩阵。所以,GMM 目标函数实际上是所有样本矩的加权平方和。

是否引入加权矩阵W 并不影响GMM 估计量的一致性。但会影响到有限样本下的估计精度。其最优的选择是使用矩条件的协方差逆矩阵()[]1

)()'(-ρρg g E 的一致估计量。显然,引入这样的加权矩阵可以修正样本矩之间相关性和异方差的影响。

简而言之,GMM 估计量就是基于样本矩的加权平方和最小化而得到的估计量。

三、工具变量的选择及其有效性的检验

1. 关于工具变量选择的两点说明

(1)在为动态面板模型的GMM 估计选择工具变量时,我们需要在估计量的偏误和方差之间进行权衡。随着矩条件或者说工具变量个数的增多,估计量的方差减小而偏误增大,反之,方差增大而偏误减小,二者之间存在此消彼涨的权衡关系。所以,在GMM 估计的实际应用中,我们通常会选择,i s Y 、…、,2i t Y -作为,1i t Y ?-的工具变量,21-<

(2)另一个需要说明的问题是,如果模型中包含了外生解释变量,例如it X ,那么我们所要分析的模型为:

,1it i t it it Y Y X ραε-=++ (14.4.12)

it i it u +=με

其差分形式为:

,1it i t it it Y Y X ?ρ?α??ε-=++ (14.4.13) 此时,GMM 工具变量如何选择呢?,1i t Y ?-的工具变量选择如前所述,外生变量it X ?、it

X

显然都可以作为it X ?的工具变量。

2. 工具变量有效性检验

当我们为一个解释变量选择了多个工具变量时,那么工具变量的个数就会超过待估参数的个数,也就是说矩约束条件的个数超过了待估参数的个数,导致模型的过度识别。那么,过度识别的矩约束条件是否是有效的呢?也就是说,这些工具变量是否与误差项不相关,从而是否保证矩约束条件(14.4.8)成立呢?对此,我们可以用J 检验进行判定。

在原假设——“过度识别的矩条件是有效的”成立的情况下,J 检验统计量实际上就是GMM 目标函数值乘以矩条件的个数(也是工具变量个数),其分布为2χ分布,即

)(~)?()'?(2k m W g mg J a

-=χββ, (14.4.14) 其中:m 为矩条件的个数,k 为待估计参数的个数。W 为m m ?的加权矩阵,)?(β

g 为根据参数向量估计值β?得到的样本矩。对模型(14.4.12)而言,)'??(?α

ρβ=。 当J 统计值大于给定显著性水平下的临界值时,我们就拒绝“过度识别的矩条件有效”的原假设。

回到农村居民收入的例子,考虑到一个地区农村居民收入会表现出一定的动态惯性特征,我们有必要在模型(14.1.2)中引入被解释变量的滞后项,即:

it

it it it l t i p l l it RCI RLT CSC PIC PIC εββββγ+++++=-=∑0321,1)log()

log()log( (14.4.15) 其差分GMM 估计的具体结果为:

,10

?()0.4865l o g ()0.1472l o g ()0.16740.0015i t i t i t i t i t l o g P I C P I C C S C R L T R C I β∧-=++++ (14.4.16) t 值 24.6656 13.9010 12.2935 2.0219

p 值 0.0000 0.00000 0.0000 0.0443

就这一估计结果来看,在中国农村居民的收入分析中,动态影响是显著的。显然,无论在理论上还是就统计推断而言,在模型(14.1.2)中引入动态效应的分析都是恰当的。而且,动态效应的估计结果与静态模型有显著差异,尤其是变量it RCI 的系数估计值变为了显著的正值。

那么,本模型过度识别的矩约束条件是否是有效的呢?在本例中,解释变量的工具变量集为()log(1i PIC 、)log(2i PIC 、…、)log(2,-t i PIC ,)log(it CSC ,it RLT ,it RCI ),工

具变量矩阵的秩(全部工具变量个数)为28。因为基于一阶差分进行估计,所以没有估计截距项和个体效应的值,待估计参数个数为4。如果过度识别的矩约束条件是有效的,那么,模型的J 检验统计量应该服从自由度为28-4=24的2χ分布。

根据式(14.4.14)计算的J 检验统计值为:J =25.2211,根据)24(2χ分布计算的p 值为0.3938。显然,我们不能拒绝“过度识别的据约束条件有效”的原假设。也就是说,基于统计推断,我们可以认为工具变量与误差项不相关,或者说所选择的工具变量是有效的。

四、例子:新凯恩斯混合Phillips 曲线的估计

让我们重新回到第四章一开始所介绍的新凯恩斯混合Phillips 曲线的例子。基于面板数据,新凯恩斯混合Phillips 曲线的回归方程可以表述为:

it it y t i t f t i b it mc E εγπγπγαπ++++=+-1,1,0 (14.4.17)

其中:对第i 个经济个体,it π表示第t 期的通货膨胀率,1+it t E π是第t 期对1+t 期的通胀率预期。t mc 是厂商真实边际成本相对于其最优状态的偏离程度,目前文献通常选取劳动份额指标作为真实边际成本的替代变量。

在此,我们使用1992~2007年中国大陆29个省市区(不包括海南、重庆)的统计数据对模型(14.4.17)进行估计。其中:基于CPI 计算通货膨胀率,并使用第1+t 的实际通胀率作为第t 期的通胀率理性预期1+t t E π。由于中国经济具有非常明显的二元经济结构特征,在模型中可以同时选择了第一产业和第二、三产业的劳动份额指标的自然对数(1LLS 和23LLS )作为真实边际成本的反映指标。

基于差分GMM 方法对模型(14.4.17)进行估计,具体估计结果为:

1230,1,1??0.55620.5626 2.3529 2.9418

i t i t t i t i t i t E L L S L L S παππ-+=++++ (14.4.18)

t 值= 186.8387 109.6812 19.7960 12.8279

p 值= 0.0000 0.0000 0.0000 0.0000

仅就这一估计结果而言,在中国通货膨胀的动态变化中,适应性预期和理性预期共存,二者的影响大致相当。经济的短期波动对通胀具有显著影响。

可能有的读者会问,为什么没有it π的更高阶滞后项出现在方程中呢?事实上,我们确实可以将2,-t i π乃至更高的滞后项引入回归方程,不过,对本样本而言,当在模型中引入2,-t i π时,其系数估计值为负,所以,我们所需估计的模型应该只包含1,-t i π。

根据估计结果,1,-t i π和1,+t i t E π的系数估计值分别为0.5562和0.5626,

二者之和为1.1188。可能读者会认为:中国的新凯恩斯混合Phillips 曲线可能满足凸组合假设,即1,-t i π和1,+t i t E π之和为1。但是,F 检验统计量的值为322.0894,相对于分布F (1,373),其p 值为0.0000,所以,F 检验的结果是:拒绝其满足凸组合的原假设。

在本例中,解释变量的工具变量集为(1i π、2i π、…、2,-t i π,1+it t E π,it LLS 1,it LLS 23),工具变量矩阵的秩(全部工具变量个数)为29。因为基于一阶差分进行估计,没有估计截距项和个体效应的值,所以待估计参数个数为4。显然,模型存在过多的矩约束条件,即存在过度识别的问题。如果过度识别的约束是有效的,那么,模型的J 检验统计量应该服从自由度为29-4=25的2χ分布。

根据参数估计结果得到的J 检验统计值为:28.7345,对于)25(2χ分布,其p 值为0.2752,所以,我们不能拒绝“过度识别的据约束条件有效”的原假设。也就是说,基于统计推断,我们可以认为工具变量与误差项不相关,或者说所选择的工具变量是有效的。

本例对于中国新凯恩斯混合Phillips 曲线的估计结果与相关文献的估计结果有显著差异,其原因在于,本例使用的是一个简化的基本模型。在实证分析中,我们还需要考虑流动性因素对通货膨胀的影响以及通货膨胀率在不同区域间的相互推动作用。

本章小结

1. 面板数据提供更多的信息,有助于增大估计和检验的自由度,有助于增强动态分析的可靠性,有助于反映经济体的结构性特征和经济制度的渐进性变化。

2. 面板模型的混合OLS 估计假定不存在个体效应和时间效应,是一种较为粗略的估计方法。

3. 如果个体效应i μ、时间效应t λ与模型中的解释变量是相关的,我们就称这种个体效应或时间效应是固定效应。反之,则为随机效应。

4. 固定效应静态面板数据模型的本质问题是解释变量的内生性问题,其后果是OLS 估计量不再是无偏的估计量,其最优无偏估计量是LSDV 估计量。

5. 随机效应面板数据模型的本质问题是误差项的自相关问题,其后果是OLS 估计量虽是无偏的,但有较大的方差。其最优无偏估计量是GLS 估计量。

6. 豪斯曼检验以随机效应为原假设,基于LSDV 估计量和GLS 估计量之间是否存在显著的差异,来检验模型是固定效应还是随机效应。

7. 动态面板数据模型具有固有的内生性问题,固定效应的LSDV 和随机效应的GLS 估计都是有偏的并且非一致的。

8. GMM 估计的基本思想就是:使样本矩的加权平方和最小化。GMM 工具变量的有效性可以基于J 检验来判定。

思考题

14.1. 固定效应为什么会导致模型存在内生性问题?LSDV 估计量是如何消除内生性的? 14.2. 随机效应为什么会导致自相关的问题?随机效应所导致的自相关与第九章所讲的AR(1)形式的自相关有什么样的区别?

14.3. 进行固定效应/随机效应检验的豪斯曼检验统计量服从2χ分布,所以,豪斯曼检验值应该只取正值。但是,在现实应用中,通常会出现豪斯曼检验值为负的情形。

(1)请基于豪斯曼检验统计量的公式(14.3.10),思考豪斯曼检验值为负值的原因。

(2)当豪斯曼检验值为负值时,豪斯曼检验是否有效,解释你的理由。

14.4. 如果所估计的动态面板模型为

1,12,2it i t i t it Y Y Y ρρε--=++。

请思考:在进行差分GMM 估计时,,2i t Y -是否仍然可以作为工具变量?(提示:矩条件2()0t i it E Y ?ε-=是否仍然成立?)

练习题

14.1.基于表5.1.1的数据,将城镇居民和农村居民的时间序列数据合并为面板数据,并根据静态模型(14.1.1)和动态模型(14.1.4)分析中国居民消费行为的特征。

(1)用混合OLS 对模型(14.1.1)进行估计,解释估计结果的经济含义。

(2)用固定效应估计模型(14.1.1),解释估计结果的经济含义。

(3)用随机效应估计模型(14.1.1),解释估计结果的经济含义。

(4)在(1)~(3)三个估计结果中,你选择哪一个,说明你的理由。

(5)用差分GMM估计模型(14.1.4),解释估计结果的经济含义。

14.2. 至此,我们分别通过第四章习题4.3、第五章习题5.4、本章方程(14.4.17),基于不同的模型或样本数据估计了中国的新凯恩斯Phillips曲线。

(1)比较三个部分的估计结果,说明估计结果的差异以及差异产生的原因。

(2)在三部分的估计结果中,你倾向于哪一个估计结果,说明你的理由。

(3)基于本章方程(14.4.18)的估计结果,说明中国通货膨胀的动态特征。

面板数据分析简要步骤与注意事项(面板单位根—面板协整—回归分析)

面板数据分析简要步骤与注意事项(面板单位根检验—面板协整—回归分析) 面板数据分析方法: 面板单位根检验—若为同阶—面板协整—回归分析 —若为不同阶—序列变化—同阶建模随机效应模型与固定效应模型的区别不体现为R2的大小,固定效应模型为误差项和解释变量是相关,而随机效应模型表现为误差项和解释变量不相关。先用hausman检验是fixed 还是random,面板数据R-squared值对于一般标准而言,超过0.3为非常优秀的模型。不是时间序列那种接近0.8为优秀。另外,建议回归前先做stationary。很想知道随机效应应该看哪个R方?很多资料说固定看within,随机看overall,我得出的overall非常小0.03,然后within是53%。fe和re输出差不多,不过hausman检验不能拒绝,所以只能是re。该如何选择呢? 步骤一:分析数据的平稳性(单位根检验) 按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spurious regression)。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。 因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993)很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al.(2002)的改进,提出了检验面板单位根的LLC法。Levin et al.(2002)指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250之间,截面数介于10~250之间)的面板单位根检验。Im et al.(1997)还提出了检验面板单位根的IPS法,但Breitung(2000)发现IPS法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。 由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher和PP-Fisher5种方法进行面板单位根检验。 其中LLC-T、BR-T、IPS-W、ADF-FCS、PP-FCS、H-Z分别指Levin,Lin&Chu t*

数据分析的思维技巧

数据分析的思维技巧 在我对数据分析有限的认识上(因为无知到没有认知),往往会看到一些秀技性的数据分析图表,以及好看的词云等等。年少无知的我,只想啪啪啪鼓掌伴随一声“卧槽,真牛逼”,然后在被秀了一脸后,并没有明白对方想说什么,空有一副好皮囊而没有灵魂。分析是为了给出偏好的,也是洗脑的一种重要手段,洗不洗的成功就要靠本事了。于是问题产生了,你的分析是为了干啥,通过哪几个角度达到哪几方面的目的。以下为我对几个技巧的认识想法: 一、象限法 就是划定几个坐标轴,让每一个数据在象限中找到自己的角色,比如打工这个事吧,就是要让你忙,就是要给你一堆事,于是重点出来了,这么多事孰重孰轻,孰急孰缓,跟打工皇帝学时间管理,事情要按照紧急程度和重要程度进行划分,以此给自己做事排序。 二、多维法 从个人理解来看,多维法和象限法联系紧密,无非就是象限法之间的界限清晰明显,多维法之间的维度不是严格意义的隔开,比如高度、富有、颜值,这到底算象限分类还是维度分类,或者说当象限多了,采用多维来理解效果更好,比如富有的家庭一般孩纸整体相对更高一些,维度与维度之间是有相对联系的,虽然不是那么绝对,但是也不是完全不相关。

但是多维法呢,正是由于维度与维度之间的关系,会导致整体维度情况和细分维度情况来看起来会有失真,最典型的例子是田忌赛马,上中下三个维度的马均是齐王更厉害,那么跑马结果田忌胜了。性别歧视在工作学习中经常会碰到,但是通过男女入取率判断性别歧视合适么,每个学院的女生录取率都高,但是整体入取率女生低的情况也不是不能出现,那么这到底是哪种性别歧视呢,数字不会骗人,但是分析洗脑会骗人,分析思维不对容易骗自己。为了解决辛普森悖论,可以通过切方块的方式,不断缩小分析的维度,不断深入挖掘,可以有效了解真实情况。 三、假设法 数据分析对下是有一系列材料做支撑,对上是为决策或了解情况提供支撑,只有下面有素材,才能为上面提供科学合理研判。那么问题出来了,如果没有材料做支撑,那怎么办。简单,没有条件那就为它创建条件嘛,我先假设一个基础,然后根据这个基础大肆分析,水平体现出来了,偏好结论也体现出来了,其实很多现实问题是没有那么多切实完整的基础资料的,有的就是一个感觉,有的就是一个偏好。这也是咨询圈常见的套路,虽然不是严格意义的1+1=2,但是可以严谨告诉别人1+1>1,而且面对那么多的未知,不将几个未知进行假设,如何区解决更多的未知。 四、指数法 一直觉得,指数法是一个装逼指数最高的方法,首先指数就已经狠专业了,在专业的基础上进行专业的分析,还有什么更专业的事情么。但是

面板数据分析简要步骤与注意事项面板单位根面板协整回归分析

面板数据分析简要步骤与注意事项 面板单位根—面板协整—回归分析) 步骤一:分析数据的平稳性(单位根检验) 按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实 际意义的。这种情况称为称为虚假回归或伪回归( spurious regression )。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。 因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。单位根检验方法的文献综述:在非平稳的面板数据渐进过程中 ,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布 , 这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002) 的改进, 提出了检验面板单位根的LLC法。Levin et al. (2002)指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25?250之间,截面数介于10?250之间)的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的 IPS 法, 但 Breitung(2000) 发现 IPS 法对限定性趋势的设定极为敏感 , 并提出了面板单位根检验的 Breitung 法。Maddala and Wu(1999)又提出了 ADF-Fisher 和 PP-Fisher 面板单位根检验方法。 由上述综述可知,可以使用 LLC、IPS、Breintung 、ADF-Fisher 和 PP-Fisher5 种方法进行面板单位根检验。其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS、H-Z 分 别指 Levin, Lin & Chu t* 统计量、 Breitung t 统计量、 lm Pesaran & Shin W 统 量、计 ADF- Fisher Chi-square 统计量、PP-Fisher Chi-square 统计量、Hadri Z 统计 量,并且 Levin, Lin & Chu t* 统计量、 Breitung t 统计量的原假设为存在普通的单位根过程, lm Pesaran & Shin W 统计量、 ADF- Fisher Chi-square 统计量、 PP-Fisher Chi-square 统计量的原假设为存在有效的单位根过程, Hadri Z 统计量的检验原假设为不存在普通的单位根过程。 有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根检验 LLC(Levin-Lin-Chu )检验和不同根单位根检验 Fisher-ADF 检验(注:对普通序列(非面板序列)的单位根检验方法则常用 ADF检验),如果在两种检验中均拒绝存在单位根的原假设则我 们说此序列是平稳的,反之则不平稳。 如果我们以 T(trend )代表序列含趋势项,以 I (intercept )代表序列含截距项, T&I 代表两项都含,N (none)代表两项都不含,那么我们可以基于前面时序图得出的结论,在单位根检验中选择相应检验模式。 但基于时序图得出的结论毕竟是粗略的,严格来说,那些检验结构均需一一检验。具体操作可以参照李子奈的说法:ADF检验是通过三个模型来完成,首先从含有截距和趋势项的模型开始,再检验只含截距项的模型,最后检验二者都不含的模型。并且认

人教版初中数学数据分析技巧及练习题附答案

人教版初中数学数据分析技巧及练习题附答案 一、选择题 1.如图是根据我市某天七个整点时的气温绘制成的统计图,则这七个整点时气温的中位数和众数分别是() A.中位数31,众数是22 B.中位数是22,众数是31 C.中位数是26,众数是22 D.中位数是22,众数是26 【答案】C 【解析】 【分析】 根据中位数,众数的定义即可判断. 【详解】 七个整点时数据为:22,22,23,26,28,30,31 所以中位数为26,众数为22 故选:C. 【点睛】 此题考查中位数,众数的定义,解题关键在于看懂图中数据 2.某校组织“国学经典”诵读比赛,参赛10名选手的得分情况如表所示: 分数/分80859095 人数/人3421 那么,这10名选手得分的中位数和众数分别是() A.85.5和80 B.85.5和85 C.85和82.5 D.85和85 【答案】D 【解析】 【分析】 众数是一组数据中出现次数最多的数据,注意众数可以不只一个; 找中位数要把数据按从小到大的顺序排列,位于最中间的一个数(或两个数的平均数)为中位数. 【详解】 数据85出现了4次,最多,故为众数;

按大小排列第5和第6个数均是85,所以中位数是85. 故选:D. 【点睛】 本题主要考查了确定一组数据的中位数和众数的能力.一些学生往往对这个概念掌握不清楚,计算方法不明确而误选其它选项.注意找中位数的时候一定要先排好顺序,然后再根据奇数和偶数个来确定中位数,如果数据有奇数个,则正中间的数字即为所求.如果是偶数个则找中间两位数的平均数. 3.一组数据2,x,6,3,3,5的众数是3和5,则这组数据的中位数是() A.3 B.4 C.5 D.6 【答案】B 【解析】 【分析】 由众数的定义求出x=5,再根据中位数的定义即可解答. 【详解】 解:∵数据2,x,3,3,5的众数是3和5, ∴x=5, 则数据为2、3、3、5、5、6,这组数据为35 2 =4. 故答案为B. 【点睛】 本题主要考查众数和中位数,根据题意确定x的值以及求中位数的方法是解答本题的关键. 4.多多班长统计去年1~8月“书香校园”活动中全班同学的课外阅读数量(单位:本),绘制了如图折线统计图,下列说法正确的是() A.极差是47 B.众数是42 C.中位数是58 D.每月阅读数量超过40的有4个月 【答案】C 【解析】 【分析】 根据统计图可得出最大值和最小值,即可求得极差;出现次数最多的数据是众数;将这8

面板数据分析步骤

转载:面板数据分析的思路和Eviews操作: 面板数据一般有三种:混合估计模型;随机效应模型和固定效应模型。首先,第一步是作固定效应和随机效应模型的选择,一般是用Hausman检验。 如果你选用的是所有的企业,反映的是总体的效应,则选择固定效应模型,如果你选用的是抽样估计,则要作Hausman检验。这个可以在Eviews 5.1里头做。 H0:应该建立随机效应模型。 H1:应该建立固定效应模型。 先使用随机效应回归,然后做Hausman检验,如果是小概率事件,拒绝原假设则应建立固定效应模型,反之,则应该采用随机效应模型进行估计。 第二步,固定效应模型分为三种:个体固定效应模型、时刻固定效应模型和个体时刻固定效应模型(这三个模型的含义我就不讲了,大家可以参考我列的参考书)。如果我们是对个体固定,则应选择个体固定效用模型。但是,我们还需作个体固定效应模型和混合估计模型的选择。所以,就要作F值检验。相对于混合估计模型来说,是否有必要建立个体固定效应模型可以通过F检验来完成。 H0:对于不同横截面模型截距项相同(建立混合估计模型)。SSEr H1:对于不同横截面模型的截距项不同(建立时刻固定效应模型)。SSEu

F统计量定义为:F=[( SSEr - SSEu)/(T+k-2)]/[ SSEu/(NT-T-k)] 其中,SSEr,SSEu分别表示约束模型(混合估计模型的)和非约束模型(个体固定效应模型的)的残差平方和(Sum squared resid)。非约束模型比约束模型多了T–1个被估参数。需要指出的是:当模型中含有k 个解释变量时,F统计量的分母自由度是NT-T- k。通过对F统计量我们将可选择准确、最佳的估计模型。 在作回归是也是四步:第一步,先作混合效应模型:在cross-section 一栏选择None ,Period也是None;Weights是cross-section Weights,然后把回归结果的Sum squared resid值复制出来,就是SSEr 第二步:作个体固定效用模型:在cross-section 一栏选择Fixed ,Period也是None;Weights是cross-section Weights,然后把回归结果的Sum squared resid值复制出来,就是SSEu 第三步:根据公式F=[( SSEr - SSEu)/(T+k-2)]/[ SSEu/(NT-T-k)]。计算出结果。其中,T为年数,不管我们的数据是unbalance还是balance 看observations就行了,也即Total pool (balanced) observations:的值,但是如果是balance我们也可以计算,也即是每一年的企业数的总和。比如说我们研究10年,每一年又500加企业,则NT=10×500=5000。K为解释变量,不含被解释变量。 第四步,根据计算出来的结果查F值分布表。看是否通过检验。检验准则:当F> Fα(T-1, NT-T-k) , α=0.01,0.05或0.1时,拒绝原假设,则结论是应该建立个体固定效应模型,反之,接受原假设,则不能建立个体固定效应模型。

eviews面板数据实例分析

1、已知1996—2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(cp,不变价格)与人均收入(ip,不变价格)居民,利用数据(1)建立面板数据(panel data)工作文件;(2)定义序列名并输入数据;(3)估计选择面板模型;(4)面板单位根检验。 年人均消费(consume)与人均收入(income)数据以及消费者价格指数(p)分别见表9、1,9、2与9、3。 表9、1 1996—2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(元)数据人均消费1996 1997 1998 1999 2000 2001 2002 CONSUMEAH 3607、43 3693、55 3777、41 3901、81 4232、98 4517、65 4736、52 CONSUMEBJ 5729、52 6531、81 6970、83 7498、48 8493、49 8922、72 10284、6 CONSUMEFJ 4248、47 4935、95 5181、45 5266、69 5638、74 6015、11 6631、68 CONSUMEHB 3424、35 4003、71 3834、43 4026、3 4348、47 4479、75 5069、28 CONSUMEHLJ 3110、92 3213、42 3303、15 3481、74 3824、44 4192、36 4462、08 CONSUMEJL 3037、32 3408、03 3449、74 3661、68 4020、87 4337、22 4973、88 CONSUMEJS 4057、5 4533、57 4889、43 5010、91 5323、18 5532、74 6042、6 CONSUMEJX 2942、11 3199、61 3266、81 3482、33 3623、56 3894、51 4549、32 CONSUMELN 3493、02 3719、91 3890、74 3989、93 4356、06 4654、42 5342、64 CONSUMENMG 2767、84 3032、3 3105、74 3468、99 3927、75 4195、62 4859、88 CONSUMESD 3770、99 4040、63 4143、96 4515、05 5022 5252、41 5596、32 CONSUMESH 6763、12 6819、94 6866、41 8247、69 8868、19 9336、1 10464 CONSUMESX 3035、59 3228、71 3267、7 3492、98 3941、87 4123、01 4710、96 CONSUMETJ 4679、61 5204、15 5471、01 5851、53 6121、04 6987、22 7191、96 CONSUMEZJ 5764、27 6170、14 6217、93 6521、54 7020、22 7952、39 8713、08 表9、2 1996—2002年中国东北、华北、华东15个省级地区的居民家庭人均收入(元)数据人均收入1996 1997 1998 1999 2000 2001 2002 INCOMEAH 4512、77 4599、27 4770、47 5064、6 5293、55 5668、8 6032、4 INCOMEBJ 7332、01 7813、16 8471、98 9182、76 10349、69 11577、78 12463、92 INCOMEFJ 5172、93 6143、64 6485、63 6859、81 7432、26 8313、08 9189、36 INCOMEHB 4442、81 4958、67 5084、64 5365、03 5661、16 5984、82 6679、68 INCOMEHLJ 3768、31 4090、72 4268、5 4595、14 4912、88 5425、87 6100、56 INCOMEJL 3805、53 4190、58 4206、64 4480、01 4810 5340、46 6260、16 INCOMEJS 5185、79 5765、2 6017、85 6538、2 6800、23 7375、1 8177、64 INCOMEJX 3780、2 4071、32 4251、42 4720、58 5103、58 5506、02 6335、64 INCOMELN 4207、23 4518、1 4617、24 4898、61 5357、79 5797、01 6524、52 INCOMENMG 3431、81 3944、67 4353、02 4770、53 5129、05 5535、89 6051 INCOMESD 4890、28 5190、79 5380、08 5808、96 6489、97 7101、08 7614、36 INCOMESH 8178、48 8438、89 8773、1 10931、64 11718、01 12883、46 13249、8 INCOMESX 3702、69 3989、92 4098、73 4342、61 4724、11 5391、05 6234、36 INCOMETJ 5967、71 6608、39 7110、54 7649、83 8140、5 8958、7 9337、56 INCOMEZJ 6955、79 7358、72 7836、76 8427、95 9279、16 10464、67 11715、6 表9、3 1996—2002年中国东北、华北、华东15个省级地区的消费者物价指数物价指数1996 1997 1998 1999 2000 2001 2002 PAH 109、9 101、3 100 97、8 100、7 100、5 99

如何自学数据分析方法介绍

如何自学数据分析方法介绍 如何自学数据分析方法介绍 想要成为数据分析师,最快需要七周?七周信不信? 这是一份数据分析师的入门指南,它包含七周的内容,Excel、 数据可视化、数据分析思维、数据库、统计学、业务、以及Python。 每一周的内容,都有两到三篇文章细致讲解,帮助新人们快速掌握。这七周的内容刚好涵盖了一位数据分析师需要掌握的基础体系,也是一位新人从零迈入数据大门的知识手册。 第一周:Excel 每一位数据分析师都脱离不开Excel。 Excel的学习分为两个部分。 掌握各类功能强大的函数,函数是一种负责输入和输出的神秘盒子。把各类数据输入,经过计算和转换输出我们想要的结果。 在SQL,Python以及R中,函数依旧是主角。掌握Excel的函数有助于后续的学习,因为你几乎在编程中能找到名字一样或者相近 的函数。 在「数据分析:常见的Excel函数全部涵盖在这里了」中,介绍了常用的Excel函数。 清洗处理类:trim、concatenate、replace、substitute、 left/right/mid、len/lenb、find、search、text 关联匹配类:lookup、vlookup、index、match、row、column、offset 逻辑运算类:if、and、or、is系列

计算统计类:sum/sumif/sumifs、sumproduct、 count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round 时间序列类:year、month、weekday、weeknum、day、date、now、today、datedif 搜索能力是掌握Excel的不二窍门,工作中的任何问题都是可以找到答案。 第二部分是Excel中的工具。 在「数据分析:Excel技巧大揭秘」教程,介绍了Excel最具性 价比的几个技巧。包括数据透视表、格式转换、数组、条件格式、 自定义下拉菜单等。正是这些工具,才让Excel在分析领域经久不衰。 在大数据量的处理上,微软提供了Power系列,它和Excel嵌套,能应付百万级别的数据处理,弥补了Excel的不足。 Excel需要反复练习,实战教程「数据分析:手把手教你Excel 实战」,它通过网络上抓取的数据分析师薪资数据作为练习,总结 各类函数的使用。 除了上述要点,下面是附加的知识点,铺平数据分析师以后的道路。 了解单元格格式,数据分析师会和各种数据类型打交道,包括各类timestamp,date,string,int,bigint,char,factor, float等。 了解数组,以及相关应用(excel的数组挺难用),Python和R也会涉及到list,是核心概念之一。 了解函数,深入理解各种参数的作用。它会在学习Python中帮 助到你。 了解中文编码,UTF8、GBK、ASCII,这是数据分析师的坑点之一。

大数据处理技术的总结与分析

数据分析处理需求分类 1 事务型处理 在我们实际生活中,事务型数据处理需求非常常见,例如:淘宝网站交易系统、12306网站火车票交易系统、超市POS系统等都属于事务型数据处理系统。这类系统数据处理特点包括以下几点: 一就是事务处理型操作都就是细粒度操作,每次事务处理涉及数据量都很小。 二就是计算相对简单,一般只有少数几步操作组成,比如修改某行得某列; 三就是事务型处理操作涉及数据得增、删、改、查,对事务完整性与数据一致性要求非常高。 四就是事务性操作都就是实时交互式操作,至少能在几秒内执行完成; 五就是基于以上特点,索引就是支撑事务型处理一个非常重要得技术. 在数据量与并发交易量不大情况下,一般依托单机版关系型数据库,例如ORACLE、MYSQL、SQLSERVER,再加数据复制(DataGurad、RMAN、MySQL数据复制等)等高可用措施即可满足业务需求。 在数据量与并发交易量增加情况下,一般可以采用ORALCERAC集群方式或者就是通过硬件升级(采用小型机、大型机等,如银行系统、运营商计费系统、证卷系统)来支撑. 事务型操作在淘宝、12306等互联网企业中,由于数据量大、访问并发量高,必然采用分布式技术来应对,这样就带来了分布式事务处理问题,而分布式事务处理很难做到高效,因此一般采用根据业务应用特点来开发专用得系统来解决本问题。

2数据统计分析 数据统计主要就是被各类企业通过分析自己得销售记录等企业日常得运营数据,以辅助企业管理层来进行运营决策。典型得使用场景有:周报表、月报表等固定时间提供给领导得各类统计报表;市场营销部门,通过各种维度组合进行统计分析,以制定相应得营销策略等. 数据统计分析特点包括以下几点: 一就是数据统计一般涉及大量数据得聚合运算,每次统计涉及数据量会比较大。二就是数据统计分析计算相对复杂,例如会涉及大量goupby、子查询、嵌套查询、窗口函数、聚合函数、排序等;有些复杂统计可能需要编写SQL脚本才能实现. 三就是数据统计分析实时性相对没有事务型操作要求高。但除固定报表外,目前越来越多得用户希望能做做到交互式实时统计; 传统得数据统计分析主要采用基于MPP并行数据库得数据仓库技术.主要采用维度模型,通过预计算等方法,把数据整理成适合统计分析得结构来实现高性能得数据统计分析,以支持可以通过下钻与上卷操作,实现各种维度组合以及各种粒度得统计分析。 另外目前在数据统计分析领域,为了满足交互式统计分析需求,基于内存计算得数据库仓库系统也成为一个发展趋势,例如SAP得HANA平台。 3 数据挖掘 数据挖掘主要就是根据商业目标,采用数据挖掘算法自动从海量数据中发现隐含在海量数据中得规律与知识。

面板数据的分析步骤

面板数据的分析步骤 面板数据的分析方法或许我们已经了解许多了,但是到底有没有一个基本的步骤呢?那些步骤是必须的?这些都是我们在研究的过程中需要考虑的,而且又是很实在的问题。面板单位根检验如何进行?协整检验呢?什么情况下要进行模型的修正?面板模型回归形式的选择?如何更有效的进行回归?诸如此类的问题我们应该如何去分析并一一解决?以下是我近期对面板数据研究后做出的一个简要总结,和大家分享一下,也希望大家都进来讨论讨论。 步骤一:分析数据的平稳性(单位根检验) 按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spurious regression)。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。 因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。 单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002)的改进,提出了检验面板单位根的LLC 法。Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250 之间,截面数介于10~250 之间) 的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS 法,但Breitung(2000) 发现IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。 由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher 和PP-Fisher5种方法进行面板单位根检验。 其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS 、H-Z 分别指Levin, Lin & Chu t* 统计量、Breitung t 统计量、lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square 统计量、Hadri Z统计量,并且Levin, Lin & Chu t* 统计量、Breitung t统计量的原假设为存在普通的单位根过程,lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量的原假设为存在有效的单位根过程,Hadri Z统计量的检验原假设为不存在普通的单位根过程。 有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根检验LLC (Levin-Lin-Chu)检验和不同根单位根检验Fisher-ADF检验(注:对普通序列(非面板序列)的单位根检验方法则常用ADF检验),如果在两种检验中均拒绝存在单位根的原假设则我们

基于面板数据模型及其固定效应的模型分析

基于面板数据模型及其固定效应的模型分析 在20世纪80年代及以前,还只有很少的研究面板数据模型及其应用的文献,而20世纪80年代之后一直到现在,已经有大量的文献使用同时具有横截面和时间序列信息的面板数据来进行经验研究(Hsiao,20XX)。同时,大量的面板数据计量经济学方法和技巧已经被开发了出来,并成为现在中级以上的计量经济学教科书的必备内容,面板数据计量经济学的理论研究也是现在理论计量经济学最热的领域之一。 面板数据同时包含了许多横截面在时间序列上的样本信息,不同于只有一个维度的纯粹横截面数据和时间序列数据,面板数据是同时有横截面和时序二维的。使用二维的面板数据相对于只使用横截面数据或时序数据,在理论上被认为有一些优点,其中一个重要的优点是面板数据被认为能够控制个体的异质性。在面板数据中,人们认为不同的横截面很可能具有异质性,这个异质性被认为是无法用已知的回归元观测的,同时异质性被假定为依横截面不同而不同,但在不同时点却是稳定的,因此可以用横截面虚拟变量来控制横截面的异质性,如果异质性是发生在不同时期的,那么则用时期虚拟变量来控制。而这些工作在只有横截面数据或时序数据时是无法完成的。 然而,实际上绝大多数时候我们并不关心这个异质性究竟是多少,我们关心的仍然是回归元参数的估计结果。使用面板数据做过实际研究的人可能会发现,使用的效应①不同,对回归元的估计结果经常有十分巨大的影响,在某个固定效应设定下回归系数为正显着,而另外一个效应则变为负显着,这种事情经常可以碰到,让人十分困惑。大多数的研究文献都将这种影响解释为控制了固定效应后的结果,因为不可观测的异质性(固定效应)很可能和回归元是相关的,在控制了这个效应后,由于变量之间的相关性,自然会对回归元的估计结果产生影响,因而使用的效应不同,估计的结果一般也就会有显着变化。 然而,这个被广泛接受的理论假说,本质上来讲是有问题的。我们认为,估计的效应不同,对应的自变量估计系数的含义也不同,而导致估计结果有显着变化的可能重要原因是由于面板数据是二维的数据,而在这两个不同维度上,以及将两个维度的信息放到一起时,样本信息所显现出来的自变量和因变量之间的相关关系可能是不同的。因此,我们这里提出另外一种异质性,即样本在不同维度上的相关关系是不同的,是异质的,这个异质性是发生在回归元的回归系数上,而

数据整理分析方法

数据梳理主要是指对数据的结构、内容和关系进行分析 大多数公司都存在数据问题。主要表现在数据难于管理,对于数据对象、关系、流程等难于控制。其次是数据的不一致性,数据异常、丢失、重复等,以及存在不符合业务规则的数据、孤立的数据等。 1数据结构分析 1元数据检验 元数据用于描述表格或者表格栏中的数据。数据梳理方法是对数据进行扫描并推断出相同的信息类型。 2模式匹配 一般情况下,模式匹配可确定字段中的数据值是否有预期的格式。 3基本统计 元数据分析、模式分析和基本统计是数据结构分析的主要方法,用来指示数据文件中潜在的结构问题。 2 数据分析 数据分析用于指示业务规则和数据的完整性。在分析了整个的数据表或数据栏之后,需要仔细地查看每个单独的数据元素。结构分析可以在公司数据中进行大范围扫描,并指出需要进一步研究的问题区域;数据分析可以更深入地确定哪些数据不精确、不完整和不清楚。 1标准化分析 2频率分布和外延分析 频率分布技术可以减少数据分析的工作量。这项技巧重点关注所要进一步调查的数据,辨别出不正确的数据值,还可以通过钻取技术做出更深层次的判断。 外延分析也可以帮助你查明问题数据。频率统计方法根据数据表现形式寻找数据的关联关系,而外延分析则是为检查出那些明显的不同于其它数据值的少量数据。外延分析可指示出一组数据的最高和最低的值。这一方法对于数值和字符数据都是非常实用的。 3业务规则的确认 3 数据关联分析 专业的流程模板和海量共享的流程图:[1] - 价值链图(EVC) - 常规流程图(Flowchart) - 事件过程链图(EPC) - 标准建模语言(UML) - BPMN2.0图 数据挖掘 数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题, 所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程 利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。 ①分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为

大数据分析及其在医疗领域中的应用-图文(精)

第7期 24 2014年4月10日 计算机教育 ComputerEducation ◆新视点 文章编号:1672.5913(2014)07—0024-06 中图分类号:G642 大数据分析及其在医疗领域中的应用 邹北骥 (中南大学信息科学与工程学院,湖南长沙410083) 摘要:互联网和物联网技术的快速发展给数据的上传与下载带来了前所未有的便利,使得互联网上 的数据量急剧增长,由此产生了针对大数据的存储、计算、分析、处理等新问题,尤其是对大数据的挖掘。文章分析当前大数据产生的背景,阐述大数据的基本特征及其应用,结合医疗领域,论述医疗 大数据分析的目的、意义和主要方法。 关键词:大数据;物联网;医疗;大数据挖掘 1 大数据早已存在,为何现在称之为大

数据时代 计算与数据是一对孪生姐妹,计算需要数据,数据通过计算产生新的价值。数据是客观事 物的定量表达,来自于客观世界并早已存在。例 如,半个世纪前,全球的人口数量就有数十亿,与之相关的数据就是大数据;但是在那个时代,由于技术的局限性,大数据的采集、存储和处理 还难以实现。 互联网时代之前,采集世界各地的数据并让它们快速地进入计算系统几乎是一件不可想象的 事情。20世纪80年代兴起的互联网技术在近30 年里发生了翻天覆地的变化,彻底地改变了人们的工作和生活方式【l】。通过互联网人们不仅可以下载到新闻、小说、论文等各类文字数据,而且可以轻而易举地下载到音乐、图像和视频等多媒体数据,这使得互联网上的数据流量急剧增长。据统计,现在互联网上每分钟流人流出的数 据量达到1 000 PB,即10亿 GBt21。 推动大数据产生的另一个重要因素是物联网技术。近几年发展起来的物联网技 术通过给每个物品贴上标签 并应用RFID等技术实现了

面板数据分析方法步骤

1.面板数据分析方法步骤 面板数据的分析方法或许我们已经了解许多了,但是到底有没有一个基本的步骤呢?那些步骤是必须的?这些都是我们在研究的过程中需要考虑的,而且又是很实在的问题。面板单位根检验如何进行?协整检验呢?什么情况下要进行模型的修正?面板模型回归形式的选择?如何更有效的进行回归?诸如此类的问题我们应该如何去分析并一一解决?以下是我近期对面板数据研究后做出的一个简要总结,和大家分享一下,也希望大家都进来讨论讨论。 步骤一:分析数据的平稳性(单位根检验) 按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。这种情况称为虚假回归或伪回归(spurious regression)。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。 因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。 单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002)的改进,提出了检验面板单位根的LLC 法。Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250 之间,截面数介于10~250 之间) 的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS 法,但Breitung(2000) 发现IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。 由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher 和PP-Fisher5种方法进行面板单位根检验。 其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS 、H-Z 分别指Levin, Lin & Chu t* 统计量、Breitung t 统计量、lm Pesaran & Shin W 统计量、

面板数据分析方法步骤全解

面板数据分析方法步骤全解 面板数据的分析方法或许我们已经了解许多了,但是到底有没有一个基本的步骤呢?那些步骤是必须的?这些都是我们在研究的过程中需要考虑的,而且又是很实在的问题。面板单位根检验如何进行?协整检验呢?什么情况下要进行模型的修正?面板模型回归形式的选择?如何更有效的进行回归?诸如此类的问题我们应该如何去分析并一一解决?以下是我近期对面板数据研究后做出的一个简要总结, 和大家分享一下,也希望大家都进来讨论讨论。 步骤一:分析数据的平稳性(单位根检验) 按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈 曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归, 尽管有较高的R 平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spurious regression)。他认为平稳的真正 含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势 以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时 有三种检验模式:既有趋势又有截距、只有截距、以上都无。 因此为了避免伪回归,确保估计结果的有效性, 我们必须对各面板序 列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项, 从而为进一步的单位根检验的检验模式做准备。 单位根检验方法的文献综述:在非平稳的面板数据渐进过程中丄evin

an dLi n(1993)很早就发现这些估计量的极限分布是高斯分布,这些结 果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002的改进,提出了检验面板单 位根的LLC法。Levin et al. (2002)指出,该方法允许不同截距和时间趋 势,异方差和高阶序列相关,适合于中等维度(时间序列介于25?250 之间,截面数介于10?250之间)的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS法,但Breitung(2000)发现IPS法对 限定性趋势的设定极为敏感,并提出了面板单位根检验的Breit ung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位 根检验方法。 由上述综述可知,可以使用LLC IPS Breintung、ADF-Fisher和 PP-Fisher5种方法进行面板单位根检验。 其中LLC-T、BR-T IPS-W、ADF-FCS PP-FCS H-Z 分别指Levin, Lin & Chu t* 统计量、Breitung t 统计量、Im Pesaran & Shin W 统计量、 ADF- Fisher Chi-square统计量、PP-FisherChi-square统计量、Hadri Z 统计量,并且Levin, Lin & Chu t*统计量、Breitung t统计量的原假设 为存在普通的单位根过程,Im Pesaran & Shin W统计量、ADF- Fisher Chi-square统计量、PP -Fisher Chi-square统计量的原假设为存在有效 的单位根过程,Hadri Z统计量的检验原假设为不存在普通的单位根 过程。

相关文档
相关文档 最新文档