文档库 最新最全的文档下载
当前位置:文档库 › 面板数据F检验

面板数据F检验

面板数据F检验
面板数据F检验

面板数据F检验

1.面板数据定义。

时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。

面板数据用双下标变量表示。例如

y i t, i= 1, 2, …, N; t= 1, 2, …, T

N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,y i ., ( i= 1, 2, …, N)是横截面上的N个随机变量;若固定i不变,y. t, (t= 1, 2, …, T)是纵剖面上的一个时间序列(个体)。

图1 N=7,T=50的面板数据示意图

例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。

对于面板数据y i t, i= 1, 2, …, N; t= 1, 2, …, T来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据

(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。

注意:EViwes 3.1、4.1、5.0既允许用平衡面板数据也允许用非平衡面板数据估计模型。例1(file:panel02):1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1和表2。数据是7年的,每一年都有15个数据,共105组观测值。

人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散点图的表现与观测值顺序有关。图4和图5中人均消费和收入观测值顺序是按地区名的汉语拼音字母顺序排序的。

表1 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费数据(不变价格)

地区人均消费1996 1997 1998 1999 2000 2001 2002 CP-AH(安徽) 3282.466 3646.150 3777.410 3989.581 4203.555 4495.174 4784.364 CP-BJ(北京) 5133.978 6203.048 6807.451 7453.757 8206.271 8654.433 10473.12 CP-FJ(福建) 4011.775 4853.441 5197.041 5314.521 5522.762 6094.336 6665.005 CP-HB(河北) 3197.339 3868.319 3896.778 4104.281 4361.555 4457.463 5120.485 CP-HLJ(黑龙江) 2904.687 3077.989 3289.990 3596.839 3890.580 4159.087 4493.535 CP-JL(吉林) 2833.321 3286.432 3477.560 3736.408 4077.961 4281.560 4998.874 CP-JS(江苏) 3712.260 4457.788 4918.944 5076.910 5317.862 5488.829 6091.331 CP-JX(江西) 2714.124 3136.873 3234.465 3531.775 3612.722 3914.080 4544.775

CP-LN(辽宁) 3237.275 3608.060 3918.167 4046.582 4360.420 4654.420 5402.063 CP-NMG(内蒙古) 2572.342 2901.722 3127.633 3475.942 3877.345 4170.596 4850.180 CP-SD(山东) 3440.684 3930.574 4168.974 4546.878 5011.976 5159.538 5635.770 CP-SH(上海) 6193.333 6634.183 6866.410 8125.803 8651.893 9336.100 10411.94 CP-SX(山西) 2813.336 3131.629 3314.097 3507.008 3793.908 4131.273 4787.561 CP-TJ(天津) 4293.220 5047.672 5498.503 5916.613 6145.622 6904.368 7220.843 CP-ZJ(浙江) 5342.234 6002.082 6236.640 6600.749 6950.713 7968.327 8792.210 资料来源:《中国统计年鉴》1997-2003。

表2 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均收入数据(不变价格)

地区人均收入1996 1997 1998 1999 2000 2001 2002

IP-AH(安徽) 4106.251 4540.247 4770.470 5178.528 5256.753 5640.597 6093.333 IP-BJ(北京) 6569.901 7419.905 8273.418 9127.992 9999.700 11229.66 12692.38 IP-FJ(福建) 4884.731 6040.944 6505.145 6922.109 7279.393 8422.573 9235.538 IP-HB(河北) 4148.282 4790.986 5167.317 5468.940 5678.195 5955.045 6747.152 IP-HLJ(黑龙江) 3518.497 3918.314 4251.494 4747.045 4997.843 5382.808 6143.565 IP-JL(吉林) 3549.935 4041.061 4240.565 4571.439 4878.296 5271.925 6291.618 IP-JS(江苏) 4744.547 5668.830 6054.175 6624.316 6793.437 7316.567 8243.589 IP-JX(江西) 3487.269 3991.490 4209.327 4787.606 5088.315 5533.688 6329.311

IP-LN(辽宁) 3899.194 4382.250 4649.789 4968.164 5363.153 5797.010 6597.088

IP-NMG(内蒙古) 3189.414 3774.804 4383.706 4780.090 5063.228 5502.873 6038.922

IP-SD(山东) 4461.934 5049.407 5412.555 5849.909 6477.016 6975.521 7668.036

IP-SH(上海) 7489.451 8209.037 8773.100 10770.09 11432.20 12883.46 13183.88

IP-SX(山西) 3431.594 3869.952 4156.927 4360.050 4546.785 5401.854 6335.732

IP-TJ(天津) 5474.963 6409.690 7146.271 7734.914 8173.193 8852.470 9375.060

IP-ZJ(浙江) 6446.515 7158.288 7860.341 8530.314 9187.287 10485.64 11822.00 资料来源:《中国统计年鉴》1997-2003。

图2 15个省级地区的人均消费序列(纵剖面)图3 15个省级地区的人均收入序列

(file:4panel02)

图4 15个省级地区的人均消费散点图图5 15个省级地区的人均收入散点图(7

个横截面叠加)

(每条连线表示同一年度15个地区的消费值) (每条连线表示同一年度15个地区的收

入值)

用CP表示消费,IP表示收入。AH, BJ, FJ, HB, HLJ, JL, JS, JX, LN, NMG, SD, SH, SX, TJ, ZJ分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省。

15个地区7年人均消费对收入的面板数据散点图见图6和图7。图6中每一种符号代表一个省级地区的7个观测点组成的时间序列。相当于观察15个时间序列。图7中每一种符号代表一个年度的截面散点图(共7个截面)。相当于观察7个截面散点图的叠加。

图6 用15个时间序列表示的人均消费对收入的面板数据

图7 用7个截面表示的人均消费对收入的面板数据(7个截面叠加)

为了观察得更清楚一些,图8给出北京和内蒙古1996-2002年消费对收入散点图。从图中可以看出,无论是从收入还是从消费看内蒙古的水平都低于北京市。内蒙古2002年的收入与消费规模还不如北京市1996年的大。图9给出该15个省级地区1996和2002年的消费对收入散点图。可见6年之后15个地区的消费和收入都有了相应的提高。

图8 北京和内蒙古1996-2002年消费对收入时序图图9 1996和2002年15个地区的消费对收入散点图

2.面板数据的估计。

用面板数据建立的模型通常有3种。即混合估计模型、固定效应模型和随机效应模型。2.1 混合估计模型。

如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。

如果从时间和截面看模型截距都不为零,且是一个相同的常数,以二变量模型为例,则建立如下模型,

y it= a +b1 x it +e it, i= 1, 2, …, N; t= 1, 2, …, T (1) a 和b1不随i,t变化。称模型(1)为混合估计模型。

以例1中15个地区1996和2002年数据建立关于消费的混合估计模型,得结果如下:

图10

EViwes估计方法:在打开工作文件窗口的基础上,点击主功能菜单中的Objects键,选New Object功能,从而打开New Object(新对象)选择窗。在Type of Object选择区选择Pool (混合数据库),点击OK键,从而打开Pool(混合数据)窗口。在窗口中输入15个地区标识AH(安徽)、BJ(北京)、…、ZJ(浙江)。工具栏中点击Sheet键,从而打开Series List(列写序列名)窗口,定义变量CP?和IP?,点击OK键,Pool(混合或合并数据库)窗口显示面板数据。在Pool窗口的工具栏中点击Estimate键,打开Pooled Estimation(混合估计)窗口如下图。

图11

在Dependent Variable(相依变量)选择窗填入CP?;在Common coefficients(系数相同)选择窗填入IP?;Cross section specific coefficients(截面系数不同)选择窗保持空白;在Intercept(截距项)选择窗点击Common;在Weighting(权数)选择窗点击No weighting。点击Pooled Estimation(混合估计)窗口中的OK键。得输出结果如图10。相应表达式是

= 129.6313+0.7587IP it

(2.0) (79.7) R2 = 0.98, SSE r = 4824588, t0.05 (103) = 1.99

15个省级地区的人均支出平均占收入的76%。

如果从时间和截面上看模型截距都为零,就可以建立不含截距项的(a = 0)的混合估计模型。以二变量模型为例,建立混合估计模型如下,

y it = b1 x it +e it, i= 1, 2, …, N; t= 1, 2, …,

T (2)

对于本例,因为上式中的截距项有显著性(t = 2.0 > t0.05 (103) = 1.99),所以建立截距项为零的混合估计模型是不合适的。

EViwes估计方法:在Pooled Estimation(混合估计)对话框中Intercept(截距项)选择窗中选None,其余选项同上。

2.2 固定效应模型。

在面板数据散点图中,如果对于不同的截面或不同的时间序列,模型的截距是不同的,则可以采用在模型中加虚拟变量的方法估计回归参数,称此种模型为固定效应模型(fixed effects regression model)。

固定效应模型分为3种类型,即个体固定效应模型(entity fixed effects regression model)、时刻固定效应模型(time fixed effects regression model)和时刻个体固定效应模型(time and entity fixed effects regression model)。下面分别介绍。

(1)个体固定效应模型。

个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序列(个体)截距是不同的,但是对于不同的横截面,模型的截距没有显著性变化,那么就应该建立个体固定效应模型,表示如下,

y it= b1 x it +g1 W1 + g2W2 + … +g N W N+e it, t= 1, 2, …, T (3) 其中

W i=

e it, i= 1, 2, …, N; t= 1, 2, …, T,表示随机误差项。y it, x it, i= 1, 2, …, N; t = 1, 2, …, T分别表示被解释变量和解释变量。

模型(3)或者表示为

y1t = g1 +b1 x1t +e1t, i = 1(对于第1个个体,或时间序列),t= 1, 2, …, T

y2t = g2 +b1 x2t +e2 t, i = 2(对于第2个个体,或时间序列),t= 1, 2, …, T …

y N t = g N +b1 x N t +e N t, i = N(对于第N个个体,或时间序列),t= 1, 2, …, T 写成矩阵形式,

y1 = (1x1) +e1 = g1 +x1 b +e1

y N = (1x N) +e N = g N + x N b+e N

上式中y i,g i,e i,x i都是N′1阶列向量。b为标量。当模型中含有k个解释变量时,b为k′1阶列向量。进一步写成矩阵形式,

= + b+

上式中的元素1,0都是T′1阶列向量。

面板数据模型用OLS方法估计时应满足如下5个假定条件:

(1)E(e it|x i1, x i2, …, x iT, a i) = 0。以x i1, x i2, …, x iT, a i为条件的e it的期望等于零。(2)(x i1, x i2, …, x iT), ( y i1, y i2, …, y iT), i= 1, 2, …, N分别来自于同一个联合分布总体,并相互独立。

(3)(x it, e it)具有非零的有限值4阶矩。

(4)解释变量之间不存在完全共线性。

(5)Cov(e it e is|x it,x is, a i) = 0, t 1 s。在固定效应模型中随机误差项e it在时间上是非自相关的。其中x it代表一个或多个解释变量。

对模型(1)进行OLS估计,全部参数估计量都是无偏的和一致的。模型的自由度是N T–1–N。

当模型含有k个解释变量,且N很大,相对较小时,因为模型中含有k+ N个被估参数,一般软件执行OLS运算很困难。在计量经济学软件中是采用一种特殊处理方式进行OLS估计。估计原理是,先用每个变量减其组内均值,把数据中心化(entity-demeaned),然后用变换的数据先估计个体固定效应模型的回归系数(不包括截距项),然后利用组内均值等式计算截距项。这种方法计算起来速度快。具体分3步如下。

(1)首先把变量中心化(entity-demeaned)。

仍以单解释变量模型(3)为例,则有

= g i+ b1 + , i= 1, 2, …, N (4)

其中 = ,= , = , i= 1, 2, …, N。公式(1)、(4)相减得,

(y it - ) = b1(x it -) + (e it- ) (5) 令(y it - ) = ,(x it -) = ,(e it- ) = ,上式写为

= b1 + (6)

用OLS法估计(1)、(6)式中的b1,结果是一样的,但是用(6)式估计,可以减少被估参数个数。

(2)用OLS法估计回归参数(不包括截距项,即固定效应)。

在k个解释变量条件下,把用向量形式表示,则利用中心化数据,按OLS法估计公式计算个体固定效应模型中回归参数估计量的方差协方差矩阵估计式如下,

() = ( ' )-1 (7)

其中 = ,是相对于的残差向量。

(3)计算回归模型截距项,即固定效应参数g i。

= - (8)

以例1(file:panel02)为例得到的个体固定效应模型估计结果如下:

注意:个体固定效应模型的EViwes输出结果中没有公共截距项。

图12

EViwes估计方法:在EViwes的Pooled Estimation对话框中Intercept选项中选Fixed effects。其余选项同上。

注意:

(1)个体固定效应模型的EViwes输出结果中没有公共截距项。

(2)EViwes输出结果中没有给出描述个体效应的截距项相应的标准差和t值。不认为截距项是模型中的重要参数。

(3)当对个体固定效应模型选择加权估计时,输出结果将给出加权估计和非加权估计两种统计量评价结果。

(4)输出结果的联立方程组形式可以通过点击View选Representations功能获得。(5)点击View选Wald Coefficient Tests…功能可以对模型的斜率进行Wald检验。(6)点击View选Residuals/Table, Graphs, Covariance Matrix, Correlation Matrix 功能可以分别得到按个体计算的残差序列表,残差序列图,残差序列的方差协方差矩阵,残差序列的相关系数矩阵。

(7)点击Procs选Make Model功能,将会出现估计结果的联立方程形式,进一步点击Solve 键,在随后出现的对话框中可以进行动态和静态预测。

输出结果的方程形式是

+ x1t = 479.3 + 0.70x1t

=

安徽

(55.0)

+ x2t = 1053.2 + 0.70x2t

=

北京

… (55.0)

=

+ x15t = 714.2 + 0.70x15t

浙江

(55.0)

R2 = 0.99, SSE r = 2270386, t0.05 (88) = 1.98

从结果看,北京、上海、浙江是消费函数截距(自发消费)最大的3个地区。

相对于混合估计模型来说,是否有必要建立个体固定效应模型可以通过F检验来完成。

:不同个体的模型截距项相同(建立混合估计模型)。

原假设H

:不同个体的模型截距项不同(建立个体固定效应模型)。

备择假设H

1

F统计量定义为:

F= = (9)

其中SSE r,SSE u分别表示约束模型(混合估计模型)和非约束模型(个体固定效应模型)的残差平方和。非约束模型比约束模型多了N-1个被估参数。

(混合估计模型给出公共截距项。)

注意:当模型中含有k个解释变量时,F统计量的分母自由度是NT-N-k。

用上例计算,已知SSE r = 4824588,SSE u = 2270386,

F= = = = 7.15

F0.05(14, 89) = 1.81

因为F= 7.15> F0.05(14, 89) = 1.81,所以,拒绝原假设。结论是应该建立个体固定效应模型。

(2)时刻固定效应模型。

时刻固定效应模型就是对于不同的截面(时刻点)有不同截距的模型。如果确知对于不同的截面,模型的截距显著不同,但是对于不同的时间序列(个体)截距是相同的,那么应该建立时刻固定效应模型,表示如下,

y it = b1 x it +a1 + a2D2 + … +a T D T+e it, i= 1, 2, …, N (10) 其中

D t=

e it, i= 1, 2, …, N; t= 1, 2, …, T,表示随机误差项。y i t, x it, i= 1, 2, …, N; t = 1, 2, …, T分别表示被解释变量和解释变量。模型(10)也可表示为

y i1 = a1 +b1 x i1 + e i1, t = 1,(对于第1个截面),i= 1, 2, …, N

y i2 = (a1 +a2) +b1 x i2 + e i2, t = 2,(对于第2个截面),i= 1, 2, …, N

y iT = (a1 +a T) +b1 x iT + e iT, t = T,(对于第T个截面),i = 1, 2, …, N

如果满足上述模型假定条件,对模型(2)进行OLS估计,全部参数估计量都具有无偏性和一致性。模型的自由度是N T–T-1。

图13

EViwes估计方法:在Pooled Estimation(混合估计)窗口中的Dependent Variable(相依变量)选择窗填入CP?;在Common coefficients(系数相同)选择窗填入IP? 和虚拟变

量D1997, D1998, D1999, D2000, D2001, D2002;在Cross section specific coefficients (截面系数不同)选择窗保持空白;在Intercept(截距项)选择窗点击Common;在Weighting (权数)选择窗点击No weighting。点击Pooled Estimation(混合估计)窗口中的OK键。以例1为例得到的时刻固定效应模型估计结果如下:

=

+ x i1 = 108.5057 + 0.7789x i1

1996

(1.5) (74.6)

=

+ x i2 = 108.5057 +28.1273 + 0.7789x i2

1997

(1.5) (0.4) (74.6)

+ x i7 = 108.5057 -199.8213 + 0.7789x i7

=

2002

(1.5) (0.4) (74.6)

R2 = 0.9867, SSE r = 4028843, t0.05 (97) = 1.98

相对于混合估计模型来说,是否有必要建立时刻固定效应模型可以通过F检验来完成。

:对于不同横截面模型截距项相同(建立混合估计模型)。

H

:对于不同横截面模型的截距项不同(建立时刻固定效应模型)。

H

1

F统计量定义为:

F= = (11)

其中SSE r,SSE u分别表示约束模型(混合估计模型的)和非约束模型(时刻固定效应模型的)的残差平方和。非约束模型比约束模型多了T-1个被估参数。

注意:当模型中含有k个解释变量时,F统计量的分母自由度是NT-T- k。

用上例计算,已知SSE r= 4824588,SSE u= 4028843,

F= = = = 3.19

F0.05(6, 87) = 2.2

因为F= 3.19> F0.05(14, 89) = 2.2,拒绝原假设,结论是应该建立时刻固定效应模型。

(3)时刻个体固定效应模型。

时刻个体固定效应模型就是对于不同的截面(时刻点)、不同的时间序列(个体)都有不同截距的模型。如果确知对于不同的截面、不同的时间序列(个体)模型的截距都显著地不相同,那么应该建立时刻个体效应模型,表示如下,

y it = b1 x it +a1+a2D2 +…+a T D T+g1W1+g2W2 +…+g N W N+e it, i=1,2,…,N,t= 1, 2, …, T

(12) 其中虚拟变量

D t= (注意不是从1开始)

W i= (注意是从1开始)

e it, i= 1, 2, …, N; t= 1, 2, …, T,表示随机误差项。y i t, x it, (i= 1, 2, …, N; t= 1, 2, …, T)分别表示被解释变量和解释变量。模型也可表示为

y11 = a1 +g1 +b1 x11 + e11, t = 1,i = 1(对于第1个截面、第1个个体)y21 = a1 +g2 +b1 x21 + e21, t = 1,i = 2(对于第1个截面、第2个个体)…

y N1 = a1 +g N +b1 x N1 + e N1, t = 1,i = N(对于第1个截面、第N个个体)

y12 = (a1 +a2) +g1 +b1 x12 + e12, t = 2,i = 1(对于第2个截面、第1个个体)

y22 = (a1 +a2) +g2 +b1 x22 + e22, t = 2,i = 2(对于第2个截面、第2个个体)…

y N2 = (a1 +a2) +g N +b1 x N2 + e N2, t = 2,i = N(对于第2个截面、第N个个体)…

y1T = (a1 +a T) +g1 +b1 x12 + e1T, t = T,i = 1(对于第T个截面、第1个个体)y2T = (a1 +a T) +g2 +b1 x22 + e2T, t = T,i = 2(对于第T个截面、第2个个体)…

y NT = (a1 +a T) +g N +b1 x NT + e NT, t = T,i = N(对于第T个截面、第N个个体)

如果满足上述模型假定条件,对模型(12)进行OLS估计,全部参数估计量都是无偏的和一致的。模型的自由度是N T–N–T。注意:当模型中含有k个解释变量时,F统计量的分母自由度是NT– N -T- k+1。

以例1为例得到的截面、时刻固定效应模型估计结果如下:

图14

EViwes估计方法:在Pooled Estimation(混合估计)窗口中的Dependent Variable(相依变量)选择窗填入CP?;在Common coefficients(系数相同)选择窗填入IP? 和虚拟变量D1997, D1998, D1999, D2000, D2001, D2002;在Cross section specific coefficients (截面系数不同)选择窗保持空白;在Intercept(截距项)选择窗中选Fixed effects;在Weighting(权数)选择窗点击No weighting。点击Pooled Estimation(混合估计)窗口中的OK键。

注意:

(1)对于第1个截面(t=1)EViwes输出结果中把(a1 +g i), (i= 1, 2, …, N)估计在一起。

(2)对于第2, …, T个截面(t=1)EViwes输出结果中分别把(a1 +a t), (t= 2, …, T)估计在一起。

输出结果如下:

=

+ x11 = 537.9627 + 0.6712x11,(1996年安徽省)1996

+ x21 = 1223.758 + 0.6712x21,(1996年北京市)

=

1996

+ x11 = 98.91126 + 0.6712x11,(1997年安徽省)

=

1997

+ x21 = 98.91126 +1223.758 + 0.6712x21,(1997年北京市)

=

1997

+ + x15,7 = (183.3882 +870.4197) + 0.6712x15,1,(2002年浙江省)

=

2002

R2 = 0.9932, SSE r = 2045670, t0.05 (83) = 1.98

相对于混合估计模型来说,是否有必要建立时刻个体固定效应模型可以通过F检验来完成。:对于不同横截面,不同序列,模型截距项都相同(建立混合估计模型)。

H

H

:不同横截面,不同序列,模型截距项各不相同(建立时刻个体固定效应模型)。

1

F统计量定义为:

F= =

(13)

其中SSE r,SSE u分别表示约束模型(混合估计模型的)和非约束模型(时刻个体固定效应模型的)的残差平方和。非约束模型比约束模型多了N+T个被估参数。

注意:当模型中含有k个解释变量时,F统计量的分母自由度是NT-N-T- k+1。

用上例计算,已知SSE r= 4824588,SSE u= 2045670,

F= = = = 5.6

F0.05(20, 81) = 1.64

因为F= 5.6> F0.05(14, 89) = 1.64,拒绝原假设,结论是应该建立时刻个体固定效应模型。

(4)随机效应模型

在固定效应模型中采用虚拟变量的原因是解释被解释变量的信息不够完整。也可以通过对误差项的分解来描述这种信息的缺失。

y it = a+ b1 x it + e it (14) 其中误差项在时间上和截面上都是相关的,用3个分量表示如下。

e it = u i + v t + w it (15)

其中u i ~N(0, s u2)表示截面随机误差分量;v t ~N(0, s v2)表示时间随机误差分量;w it ~N(0, s w2)表示混和随机误差分量。同时还假定u i,v t,w it之间互不相关,各自分别不存在截面自相关、时间自相关和混和自相关。上述模型称为随机效应模型。

随机效应模型和固定效应模型比较,相当于把固定效应模型中的截距项看成两个随机变量。一个是截面随机误差项(u i),一个是时间随机误差项(v t)。如果这两个随机误差项都服从正态分布,对模型估计时就能够节省自由度,因为此条件下只需要估计两个随机误差项的均值和方差。

假定固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应,而且对均值的离差分别是u i和v t,固定效应模型就变成了随机效应模型。

为了容易理解,先假定模型中只存在截面随机误差项u i,不存在时间随机误差分量(v t),y it = a+ b1 x it + (w it+ u i)= a+ b1 x it +e it (16) 截面随机误差项u i是属于第个个体的随机波动分量,并在整个时间范围(t= 1,2, …, T)保持不变。随机误差项u i, w it应满足如下条件:

E(u i) =0,

E(w it) = 0

E(w it 2) = s w2,

E(u i 2)= s u2,

E(w it u j) =0, 包括所有的i, t, j。

E(w it w js) =0, i1 j, t1 s

E(u i u j) =0, i1 j

因为根据上式有

e it = w it+ u i

所以这种随机效应模型又称为误差分量模型(error component model)。有结论,

E(e it) = E(w it+u j) =0,

(16)式,y it = a+ b1 x it + (w it+ u i),也可以写成y it = (a + u i) + b1 x it + w it。服从正态分布的截距项的均值效应a u被包含在回归函数的常数项中。

E(e it 2) = E(w it+u j)2 = s w2 +s u2,

E(e it e is) = E[(w it+ u i)(w is+ u i)] = E[(w it w is + u i w is + w it u i + u i2)] =s u2, t1s

e i = (e i1, e i2, …e iT)'

W = E(e i e i') =

=s w2 I(T′T) +s u21(T′1)1(T′1) '

其中I(T′T)是(T′T)阶单位阵,1(T′1)是(T′1)阶列向量。因为第i期与j期观测值是相互独立的,所以NT个观测值所对应的随机误差项的方差与协方差矩阵V是

V= = ?W = I N′N?W

其中I N′N表示由(T′1)阶列向量为元素构成的单位阵,其中每一个元素1或0都是(T′1)阶列向量。?表示科罗内克积(Kronecker product)。其运算规则是

A N′K?

B =

检验个体随机效应的原假设与检验统计量是

H

:s u2 = 0。(混合估计模型)

:s u21 0。(个体随机效应模型)

H

1

LM= =

=

其中表示由个体随机效应模型计算的残差平方和。表示由混合估计模型计算的残差平方和。统计量LM服从1个自由度的c2分布。

可以对随机效应模型进行广义最小二乘估计。以观测值方差的倒数为权。为了求权数,必须采用两阶段最小二乘法估计。因为各随机误差分量的方差一般是未知的,第一阶段用普通最小二乘估计法对混合数据进行估计(采用固定效应模型)。用估计的残差计算随机误差分量的方差。第二步用这些估计的方差计算参数的广义最小二乘估计值。如果随机误差分量服从的是正态分布,模型的参数还可以用极大似然法估计。

仍以例1为例给出随机效应模型估计结果如下:

图15

注意:随机效应模型EViwes输出结果中含有公共截距项。

图16

以例1为例,用个体随机效应模型和混合模型计算的统计量的值是

LM= = =8.75′(24.4)2 = 5209

F0.05 (1) = 3.84

因为F= 5209 > F0.05 (1) = 3.84,所以拒绝原假设,结论是应该建立个体随机效应模型。

假定截面截距和时间截距都是随机的。分别服从均值为a u和a v,方差为s u2和s v2的正态分布。随机误差项将由3部分组成,并有方差。

Var(e it) = Var(u i) + Var(v t) + Var(w it) =s u2 +s v2+s w2

当s u2和s v 2都等于零,随机效应模型退化为固定效应模型。

随机效应模型和固定效应模型哪一个更好些?实际是各有优缺点。随机效应模型的好处是节省自由度。对于从时间序列和截面两方面上看都存在较大变化的数据,随机效应模型能明确地描述出误差来源的特征。固定效应模型的好处是很容易分析任意截面数据所对应的因变量

面板数据的F检验-固定效应检验

面板数据模型(PANEL DATA)F检验,固定效应检验 1.面板数据定义。 时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。 面板数据用双下标变量表示。例如 y i t, i= 1, 2, …, N; t= 1, 2, …, T N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,y i ., ( i= 1, 2, …, N)是横截面上的N个随机变量;若固定i不变,y. t, (t= 1, 2, …, T)是纵剖面上的一个时间序列(个体)。 图1 N=7,T=50的面板数据示意图 例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。 对于面板数据y i t, i= 1, 2, …, N; t= 1, 2, …, T来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。

面板数据分析简要步骤与注意事项(面板单位根—面板协整—回归分析)

面板数据分析简要步骤与注意事项(面板单位根检验—面板协整—回归分析) 面板数据分析方法: 面板单位根检验—若为同阶—面板协整—回归分析 —若为不同阶—序列变化—同阶建模随机效应模型与固定效应模型的区别不体现为R2的大小,固定效应模型为误差项和解释变量是相关,而随机效应模型表现为误差项和解释变量不相关。先用hausman检验是fixed 还是random,面板数据R-squared值对于一般标准而言,超过0.3为非常优秀的模型。不是时间序列那种接近0.8为优秀。另外,建议回归前先做stationary。很想知道随机效应应该看哪个R方?很多资料说固定看within,随机看overall,我得出的overall非常小0.03,然后within是53%。fe和re输出差不多,不过hausman检验不能拒绝,所以只能是re。该如何选择呢? 步骤一:分析数据的平稳性(单位根检验) 按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spurious regression)。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。 因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993)很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al.(2002)的改进,提出了检验面板单位根的LLC法。Levin et al.(2002)指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250之间,截面数介于10~250之间)的面板单位根检验。Im et al.(1997)还提出了检验面板单位根的IPS法,但Breitung(2000)发现IPS法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。 由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher和PP-Fisher5种方法进行面板单位根检验。 其中LLC-T、BR-T、IPS-W、ADF-FCS、PP-FCS、H-Z分别指Levin,Lin&Chu t*

MATLAB空间面板数据模型操作介绍

MATLAB空间面板数据模型操作简介 MATLAB安装:在民主湖资源站上下载MA TLAB 2009a,或者2010a,按照其中的安装说明安装MATLAB。(MATLAB较大,占用内存较大,安装的话可能也要花费一定的时间) 一、数据布局: 首先我们说一下MA TLAB处理空间面板数据时,数据文件是怎么布局的,熟悉eviews的同学可能知道,eviews中面板数据布局是:一个省份所有年份的数据作为一个单元(纵截面:一个时间序列),然后再排放另一个省份所有年份的数据,依次将所有省份的数据排放完,如下图,红框中“1-94”“1-95”“1-96”“1-97”中,1是省份的代号,94,95,96,97表示年份,eviews是将每个省份的数据放在一起,再将所有省份堆放在一起。 与eviews不同,MATLAB处理空间面板数据时,面板数据的布局是(在excel中说明):先排放一个横截面上的数据(即某年所有省份的数据),再将不同年份的横截面按时间顺序堆放在一起。如图:

这里需要说明的是,MA TLAB中省份的序号需要与空间权重矩阵中省份一一对应,我们一般就采用《中国统计年鉴》分地区数据中省份的排列顺序。(二阶空间权重矩阵我会在附件中给出)。 二、数据的输入: MATLAB与excel链接:在excel中点击“工具→加载宏→浏览”,找到MA TLAB的安装目录,一般来说,如果安装时没有修改安装路径,此安装目录为:C:\Programfiles\MATLAB\R2009a\toolbox\exlink,点击excllink.xla即可完成excel与MATLAB的链接。这样的话excel中的数据就可以直接导入MATLAB中形成MATLAB的数据文件。操作完成后excel 的加载宏界面如图: 选中“Spreadsheet Link EX3.0.3 for use with MATLAB”即表示我们希望excel 与MATLAB实现链

面板数据的F检验固定效应检验

面板数据的F检验固定 效应检验 标准化工作室编码[XX968T-XX89628-XJ668-XT689N]

面板数据模型(P A N E L D A T A)F检验,固定效应检验1.面板数据定义。 时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。 面板数据用双下标变量表示。例如 y , i= 1, 2, …, N; t= 1, 2, …, T i t N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,y , ( i i . = 1, 2, …, N)是横截面上的N个随机变量;若固定i不变,y. t, (t= 1, 2, …, T)是纵剖面上的一个时间序列(个体)。 图1 N=7,T=50的面板数据示意图 例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。 对于面板数据y i t, i = 1, 2, …, N; t= 1, 2, …, T来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。 注意:EViwes 、、既允许用平衡面板数据也允许用非平衡面板数据估计模型。

面板数据的F检验固定效应检验

面板数据模型(P A N E L D A T A)F检验,固定效应检验1.面板数据定义。 时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。 面板数据用双下标变量表示。例如 y i t, i= 1, 2, …, N; t= 1, 2, …, T N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,y i ., ( i= 1, 2, …, N)是横截面上的N个随机变量;若固定i不变,y. t, (t= 1, 2, …, T)是纵剖面上的一个时间序列(个体)。 图1 N=7,T=50的面板数据示意图 例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。

对于面板数据y i t, i= 1, 2, …, N; t= 1, 2, …, T来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失 若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。注意:EViwes 、、既允许用平衡面板数据也允许用非平衡面板数据估计模型。 例1(file:panel02):1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1和表2。数据是7 年的,每一年都有15个数据,共105组观测值。 人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。人均消 费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散点图的表现与观测值顺序有关。图4和图5中人均消费和收入观测值顺序是按地区名的汉语拼音字母顺序排序的。 表1 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均消 费数据(不变价格) 地区人均消费1996 1997 1998 1999 2000 2001 2002 CP-AH(安徽) CP-BJ(北京) CP-FJ(福建) CP-HB(河北)

面板数据分析简要步骤与注意事项 面板单位根—面板协整—回归分析

面板数据分析简要步骤与注意事项 (面板单位根—面板协整—回归分析)步骤一:分析数据的平稳性(单位根检验) 按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spurious regression)。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。 因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。 单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002)的改进,提出了检验面板单位根的LLC 法。Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250 之间,截面数介于10~250 之间) 的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS 法,但Breitung(2000) 发现IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。 由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher 和PP-Fisher5种方法进行面板单位根检验。其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS 、H-Z 分别指Levin, Lin & Chu t* 统计量、Breitung t 统计量、lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量、Hadri Z统计量,并且Levin, Lin & Chu t* 统计量、Breitung t统计量的原假设为存在普通的单位根过程,lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量的原假设为存在有效的单位根过程,Hadri Z 统计量的检验原假设为不存在普通的单位根过程。 有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根检验LLC(Levin-Lin-Chu)检验和不同根单位根检验Fisher-ADF检验(注:对普通序列(非面板序列)的单位根检验方法则常用ADF检验),如果在两种检验中均拒绝存在单位根的原假设则我们说此序列是平稳的,反之则不平稳。如果我们以T(trend)代表序列含趋势项,以I(intercept)代表序列含截距项,T&I代表两项都含,N(none)代表两项都不含,那么我们可以基于前面时序图得出的结论,在单位根检验中选择相应检验模式。 但基于时序图得出的结论毕竟是粗略的,严格来说,那些检验结构均

Evew面板数据操作

Eviews6.0面板数据操作 一、数据输入 1、创建工作文档。如下图操作,在” workfile create”文本框的“workfile structure type”选择“balanced panel”,”panel specification”的”start date”和”end date”输入数据的起止期间,”wf”输入工作文档的名称,点击”OK”即跳出新建的工作文档a 界面。 2、创建新对象。操作如下图。在”new object”文本框的”type of object”选择”pool”,”name for object ”输入新对象的名称。创建成功后的界面如下面第3张图所示。 - 3、输入数据。双击”workfile”界面的,跳出”pool”界面,输入个体。一般输入方式为如下:若上海输入_sh,北京输入_bj,…。个体输入完成后,点击该界面的键,在跳出的”series list”输入变量名称,注意变量后要加问号。格式如下:y? x?。点击”OK”后,跳出数据输入界面,如下面第4张图所示。在这个界面上点击键,即可以输入或者从EXCEL处复制数据。 在输入数据后,记得保存数据。保存操作如下:

在跳出的“workfile save”文本框选择“ok”即可,则自动保存到我的文档。 然后在“workfile”界面如下会显示保存路径:d:\my documents\a.wf1。 若要保存到自己选择的路径下面,则在保存时选择“save as”, 在跳出的文本框里选择自己要保存的路径以及命名文件名称。 4、单位根检验。一般回归前要检验面板数据是否存在单位根,以检验数据的平稳性,避免伪回归,或虚假回归,确保估计的有效性。单位根检验时要分变量检验。(补充:网上对面板数据的单位根检验和协整检验存在不同意见,一般认为时间区间较小的面板数据无需进行这两个检验。) (1)生成数据组。如下图操作。点击”make group”后在跳出的”series list”里输入要单位根检验的变量,完成后就会跳出如下图3所示的组数据。 (2)生成时序图。如下图操作。在”gragh options”界面的”specifi”下选择生成的时序图的形状,一般都默认设置,生成的时序图如下图3所示。观察时序图的趋势,以确定单位根检验的检验模式。 (3)单位根检验。单位根检验时,在”group unit root test”里的”test for root in”按检验结果一步步检验,如果原值”level”的检验结果符合要求,即不存在单位根,则单位根检验就不需要检验下去了,如果不符合要求,则需继续检验一阶差分”1st difference”、二阶差分”2nd difference”。”include in test equation”是检验模式的选择,根据上面时序图的形状来选择。从上面的时序图可以看出,原值的检验模式应该选择含有截距项和趋势的检验模式,即”include in test equation”选择”individual intercept and trend”。检验结果如下图3所示。从检验结果可以看出,检验结果除了levin 检验方法外其他方法的结果都不符合要求(Prob.xx小于置信度(如0.05),则认为拒绝单位根的原假设,通过检验)。所以继续检验一阶差分和二阶差分,直到检验结果达到要求。如果变量原值序列通过单位根检验,则称变量为0阶单整;如果变量一阶差分后的序列通过单位根检验,则称变量为一阶单整,以此推之。

面板数据分析简要步骤与注意事项面板单位根面板协整回归分析

面板数据分析简要步骤与注意事项 面板单位根—面板协整—回归分析) 步骤一:分析数据的平稳性(单位根检验) 按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实 际意义的。这种情况称为称为虚假回归或伪回归( spurious regression )。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。 因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。单位根检验方法的文献综述:在非平稳的面板数据渐进过程中 ,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布 , 这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002) 的改进, 提出了检验面板单位根的LLC法。Levin et al. (2002)指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25?250之间,截面数介于10?250之间)的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的 IPS 法, 但 Breitung(2000) 发现 IPS 法对限定性趋势的设定极为敏感 , 并提出了面板单位根检验的 Breitung 法。Maddala and Wu(1999)又提出了 ADF-Fisher 和 PP-Fisher 面板单位根检验方法。 由上述综述可知,可以使用 LLC、IPS、Breintung 、ADF-Fisher 和 PP-Fisher5 种方法进行面板单位根检验。其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS、H-Z 分 别指 Levin, Lin & Chu t* 统计量、 Breitung t 统计量、 lm Pesaran & Shin W 统 量、计 ADF- Fisher Chi-square 统计量、PP-Fisher Chi-square 统计量、Hadri Z 统计 量,并且 Levin, Lin & Chu t* 统计量、 Breitung t 统计量的原假设为存在普通的单位根过程, lm Pesaran & Shin W 统计量、 ADF- Fisher Chi-square 统计量、 PP-Fisher Chi-square 统计量的原假设为存在有效的单位根过程, Hadri Z 统计量的检验原假设为不存在普通的单位根过程。 有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根检验 LLC(Levin-Lin-Chu )检验和不同根单位根检验 Fisher-ADF 检验(注:对普通序列(非面板序列)的单位根检验方法则常用 ADF检验),如果在两种检验中均拒绝存在单位根的原假设则我 们说此序列是平稳的,反之则不平稳。 如果我们以 T(trend )代表序列含趋势项,以 I (intercept )代表序列含截距项, T&I 代表两项都含,N (none)代表两项都不含,那么我们可以基于前面时序图得出的结论,在单位根检验中选择相应检验模式。 但基于时序图得出的结论毕竟是粗略的,严格来说,那些检验结构均需一一检验。具体操作可以参照李子奈的说法:ADF检验是通过三个模型来完成,首先从含有截距和趋势项的模型开始,再检验只含截距项的模型,最后检验二者都不含的模型。并且认

MATLAB空间面板数据模型操作介绍

MATLAB 空间面板数据模型操作简介 MATLAB 安装: 在民主湖资源站上下载 MA TLAB 2009a ,或者 2010a ,按照其中的安装说明 安装 MATLAB 。( MATLAB 较大,占用内存较大,安装的话可能也要花费一定的时间) 一、数据布局 首先我们说一下 MA TLAB 处理空间面板数据时,数据文件是怎么布局的,熟悉 eviews 的同学 可能知道, eviews 中面板数据布局是:一个省份所有年份的数据作为一个单元(纵截面:一个时间 序列),然后再排放另一个省份所有年份的数据,依次将所有省份的数据排放完,如下图,红框中 “1-94”“1-95” “1-96” “ 1-97”中, 1是省份的代号, 94,95,96,97 表示年份, eviews 是将每个省 份的数据放在一起,再将所有省份堆放在一起。 与 eviews 不同, MATLAB 处理空间面板数据时,面板数据的布局是(在 excel 中说明): 先排 放一个横截面上的数据(即某年所有省份的数据) ,再将不同年份的横截面按时间顺序堆放在一起。 如图:

这里需要说明的是, MA TLAB 中省份的序号需要与空间权重矩阵中省份一一对应,我们一般就采用《中国统计年鉴》分地区数据中省份的排列顺序。(二阶空间权重矩阵我会在附件中给出)。二、数据的输入: MATLAB 与 excel链接:在 excel中点击“工具→加载宏→浏览” ,找到 MA TLAB 的安装目录,一般来说,如果安装时没有修改安装路径,此安装目录为: C:\Programfiles\MATLAB\R2009a\toolbox\exlink ,点击 excllink.xla 即可完成 excel 与 MATLAB 的链接。这样的话 excel 中的数据就可以直接导入 MATLAB 中形成 MATLAB 的数据文件。操作完成后 excel 的加载宏界面如图: 选中“Spreadsheet Link EX3.0.3 for use with MATLAB ”即表示我们希望 excel 与

面板数据的分析步骤

面板数据的分析步骤 面板数据的分析方法或许我们已经了解许多了,但是到底有没有一个基本的步骤呢?那些步骤是必须的?这些都是我们在研究的过程中需要考虑的,而且又是很实在的问题。面板单位根检验如何进行?协整检验呢?什么情况下要进行模型的修正?面板模型回归形式的选择?如何更有效的进行回归?诸如此类的问题我们应该如何去分析并一一解决?以下是我近期对面板数据研究后做出的一个简要总结,和大家分享一下,也希望大家都进来讨论讨论。 步骤一:分析数据的平稳性(单位根检验) 按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spurious regression)。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。 因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。 单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002)的改进,提出了检验面板单位根的LLC 法。Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250 之间,截面数介于10~250 之间) 的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS 法,但Breitung(2000) 发现IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。 由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher 和PP-Fisher5种方法进行面板单位根检验。 其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS 、H-Z 分别指Levin, Lin & Chu t* 统计量、Breitung t 统计量、lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square 统计量、Hadri Z统计量,并且Levin, Lin & Chu t* 统计量、Breitung t统计量的原假设为存在普通的单位根过程,lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量的原假设为存在有效的单位根过程,Hadri Z统计量的检验原假设为不存在普通的单位根过程。 有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根检验LLC (Levin-Lin-Chu)检验和不同根单位根检验Fisher-ADF检验(注:对普通序列(非面板序列)的单位根检验方法则常用ADF检验),如果在两种检验中均拒绝存在单位根的原假设则我们

空间面板数据分析——R的splm包资料

空间面板数据分析——R的splm包 (任建辉,暨南大学) The splm package provides methods for fitting spatial panel data by maximum likelihood and GM. 安装R软件及其编辑器Rstudio 网址:https://www.wendangku.net/doc/7011015700.html, https://www.wendangku.net/doc/7011015700.html,/ 下载好Rstudio以后,操作都可以Rstudio中完成了,包括命令的编写、命令运行、图形展示,最方便的要数查看数据了。 R界面 Rstudio界面,形如matlab

下面进入正题,了解splm包中的数据、命令及结果展示。所有命令都写在编辑窗口(studio 左上区域),可以单独的运行每行命令,也可选取一段一起执行,点run按钮。 1、首先,安装splm包并导入,命令如下: intall.packages(“splm”),选择最近的下载点 library(splm) > library(splm) 载入需要的程辑包:MASS 载入需要的程辑包:nlme 载入需要的程辑包:spdep 载入需要的程辑包:sp 载入需要的程辑包:Matrix 载入需要的程辑包:plm 载入需要的程辑包:bdsmatrix 载入程辑包:‘bdsmatrix’ 下列对象被屏蔽了from ‘package:base’: backsolve 载入需要的程辑包:Formula 载入需要的程辑包:sandwich 载入需要的程辑包:zoo 载入程辑包:‘zoo’ 下列对象被屏蔽了from ‘package:base’: as.Date, as.Date.numeric 载入需要的程辑包:spam 载入需要的程辑包:grid Spam version 0.40-0 (2013-09-11) is loaded. Type 'help( Spam)' or 'demo( spam)' for a short introduction and overview of this package. Help for individual functions is also obtained by adding the suffix '.spam' to the function name, e.g. 'help( chol.spam)'. 载入程辑包:‘spam’ 下列对象被屏蔽了from ‘package:bdsmatrix’:

面板数据模型设定检验方法

1:(ST ATA 的双固定效应)xi :xtreg y x1 x2 i.year ,fe 2:变系数模型 (1)生成虚拟变量 tab id,gen(id) gen open1=id1*open gen open2=id2*open (2)变系数命令 xtreg y open1 open2。。。,fe 面板数据模型设定检验方法 4.1 F 检验 先介绍原理。F 统计量定义为 ()()/~, (30)/() R U U RSS RSS J F F J N k RSS N k -= -- 其中RSS r 表示施加约束条件后估计模型的残差平方和,RSS u 表示未施加约束条件的估计模型的残差平方和,J 表示约束条件个数,N 表示样本容量,k 表示未加约束的模型中被估参数的个数。在原假设“约束条件真实”条件下,F 统计量渐近服从自由度为( J , N – k )的F 分布。 以检验个体固定效应回归模型为例,介绍F 检验的应用。建立假设

H 0:αi =α。模型中不同个体的截距相同(真实模 型为混合回归模型)。 H 1:模型中不同个体的截距项αi 不同(真实模型为个体固定效应回归模型)。 F 统计量定义为: F = ) /()] ()/[()(k N NT SSE k N NT k NT SSE SSE u u r --------1= ) /()/()(k N NT SSE N SSE SSE u u r ----1 (31) 其中SSE r 表示约束模型,即混合估计模型的残差平方和,SSE u 表示非约束模型,即个体固定效应回归模型的残差平方和。非约束模型比约束模型多了N -1个被估参数。 以案例1为例,已知SSE r = 4824588,SSE u = 2270386, F = ) /()/()(11----N NT SSE N SSE SSE u u r =) /() /()(115105227038611522703864824588 ---- = 22510 182443= 8.1 (32) F 0.05(6, 87) = 1.8 因为F = 8.1 > F 0.05(14, 89) = 1.8,推翻原假设,比较上述两种模型,建立个体固定效应回归模型更合理。 4.2 Hausman 检验 对同一参数的两个估计量差异的显著性检验称作

面板数据的单位根检验

;. 面板数据的单位根检验 1 LLC (Levin-Lin-Chu ,2002)检验(适用于相同根(common root )情形) LLC 检验原理是仍采用ADF 检验式形式。但使用的却是it y ?和it y 的剔出自相关和确定项影响的、标准的代理变量。具体做法是(1)先从? y it 和y it 中剔出自相关和确定项的影响,并使 其标准化,成为代理变量。(2)用代理变量做ADF 回归,*?ij ε=ρ*ij ε% + v it 。LLC 修正的?()t ρ 渐近服从N(0,1)分布。 详细步骤如下: H 0: ρ = 0(有单位根); H 1: ρ < 0。LLC 检验为左单端检验。 LLC 检验以如下ADF 检验式为基础: ? y it = ρ y i t -1 +∑=i k j j i 1γ? y i t -j + Z it 'φ + εit , i = 1, 2, …, N ; t = 1, 2, …, T (38) 其中Z it 表示外生变量(确定性变量)列向量,φ 表示回归系数列向量。 (1)估计代理变量。首先确定附加项个数k i ,然后作如下两个回归式, ? y it = ∑=i k j j i ? 1 γ? y i t -j + Z it '?φ +t i ε?

;. y i t -1 = ∑=i k j j i ~1 γ ? y i t -j + Z it 'φ%+1 ~-it ε 移项得 t i ε ?= ? y it -∑=i k j j i ?1 γ? y i t -j - Z it '?φ 1 ~-it ε= y it -∑=i k j j i ~1 γ? y i t -j - Z it 'φ% 把t i ε?和1 ~-it ε标准化, * ?ij ε= t i ε?/s i *ij ε%= 1~-it ε/s i 其中s i , i = 1, 2, …, N 是用(38)式对每个个体回归时得到的残差的标准差,从而得到? y it 和y it -1 的代理变量*?ij ε和* ij ε%。

空间面板数据分析R的splm包

空间面板数据分析——R的s p l m包 (任建辉,暨南大学) The splm package provides methods for fitting spatial panel data by maximum likelihood and GM. 安装R软件及其编辑器Rstudio 网址:https://www.wendangku.net/doc/7011015700.html, 下载好Rstudio以后,操作都可以Rstudio中完成了,包括命令的编写、命令运行、图形展示,最方便的要数查看数据了。 R界面 Rstudio界面,形如matlab 下面进入正题,了解splm包中的数据、命令及结果展示。所有命令都写在编辑窗口(studio左上区域),可以单独的运行每行命令,也可选取一段一起执行,点run按钮。 1、首先,安装splm包并导入,命令如下: intall.packages(“splm”),选择最近的下载点 library(splm) > library(splm) 载入需要的程辑包:MASS 载入需要的程辑包:nlme 载入需要的程辑包:spdep 载入需要的程辑包:sp 载入需要的程辑包:Matrix 载入需要的程辑包:plm 载入需要的程辑包:bdsmatrix 载入程辑包:‘bdsmatrix’ 下列对象被屏蔽了from ‘package:base’: backsolve

载入需要的程辑包:Formula 载入需要的程辑包:sandwich 载入需要的程辑包:zoo 载入程辑包:‘zoo’ 下列对象被屏蔽了from ‘package:base’: 载入需要的程辑包:spam 载入需要的程辑包:grid Spam version 0.40-0 (2013-09-11) is loaded. Type 'help( Spam)' or 'demo( spam)' for a short introduction and overview of this package. Help for individual functions is also obtained by adding the suffix '.spam' to the function name, e.g. 'help( chol.spam)'. 载入程辑包:‘spam’ 下列对象被屏蔽了from ‘package:bdsmatrix’: backsolve 下列对象被屏蔽了from ‘package:base’: backsolve, forwardsolve 载入需要的程辑包:ibdreg 载入需要的程辑包:car 载入需要的程辑包:lmtest 载入需要的程辑包:Ecdat 载入程辑包:‘Ecdat’ 下列对象被屏蔽了from ‘package:car’: Mroz 下列对象被屏蔽了from ‘package:nlme’: Gasoline 下列对象被屏蔽了from ‘package:MASS’: SP500 下列对象被屏蔽了from ‘package:datasets’: Orange 载入需要的程辑包:maxLik 载入需要的程辑包:miscTools Please cite the 'maxLik' package as: Henningsen, Arne and Toomet, Ott (2011). maxLik: A package for maximum likelihood es timation in R. Computational Statistics 26(3), 443-458. DOI 10.1007/s00180-010-0217 -1. If you have questions, suggestions, or comments regarding the 'maxLik' package, plea se use a forum or 'tracker' at maxLik's R-Forge site: Warning message: 程辑包‘Matrix’是用R版本3.0.3 来建造的 注意:在导入splm时,如果发现还有其他配套的包没有安装,需要先安装。 2、接着,查看数据及结构,命令如下:

面板数据分析简要步骤与注意事项面板单位根—面板协整—回归分析

面板数据分析简要步骤与注意事项面板单位根—面板协整—回归分析 SANY标准化小组 #QS8QHH-HHGX8Q8-GNHHJ8-HHMHGN#

面板数据分析简要步骤与注意事项 (面板单位根—面板协整—回归分析) 步骤一:分析数据的平稳性(单位根检验) 按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spurious regression)。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。 因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。 单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002)的改进,提出了检验面板单位根的LLC 法。Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250 之间,截面数介于10~250 之间) 的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS 法,但Breitung(2000) 发现IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。 由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher 和PP-Fisher5种方法进行面板单位根检验。其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS 、H-Z 分别指Levin, Lin & Chu t* 统计量、Breitung t 统计量、lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量、Hadri Z统计量,并且Levin, Lin & Chu t* 统 计量、Breitung t统计量的原假设为存在普通的单位根过程,lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量的原假设为存在有效的单位根过程, Hadri Z统计量的检验原假设为不存在普通的单位根过程。 有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根检验LLC(Levin-Lin-Chu)检验和不同根单位根检验Fisher-ADF检验(注:对普通序列(非面板序列)的单位根检验方法则常用ADF检验),如果在两种检验中均拒绝存在单位根的原假设则我们说此序列是平稳的,反之则不平稳。

相关文档