文档库 最新最全的文档下载
当前位置:文档库 › 门槛回归(阈值回归)

门槛回归(阈值回归)

门槛回归(阈值回归)
门槛回归(阈值回归)

1 面板数据

面板数据,即Panel Data ,也叫“平行数据”,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。[1]

其有时间序列和截面两个维度,当这类数据按两个维度排列时,是排在一个平面上,与只有一个维度的数据排在一条线上有着明显的不同,整个表格像是一个面板,所以把panel data 译作“面板数据”。但是,如果从其内在含义上讲,把panel data 译为“时间序列—截面数据” 更能揭示这类数据的本质上的特点。也有译作“平行数据”或“TS -CS 数据(Time Series - Cross Section )”

面板数据从横截面上看,是由若干个体在某一时刻构成的截面观测值,从纵剖面上看,是一个时间序列。

例:

1、城市名:北京、上海、重庆、天津的GDP 分别为10、11、9、8(单位亿元)。这就是截面数据,在一个时间点处切开,看各个城市的不同就是截面数据。

如:2000、2001、2002、2003、2004各年的北京市GDP 分别为8、9、10、11、12(单位亿元)。这就是时间序列,选一个城市,看各个样本时间点的不同就是时间序列。

2、2000、2001、2002、200

3、2004各年中国所有直辖市的GDP 分别为: 北京市分别为8、9、10、11、12;

上海市分别为9、10、11、12、13;

天津市分别为5、6、7、8、9;

重庆市分别为7、8、9、10、11(单位亿元)。

这就是面板数据。

2 门槛回归模型(阈值回归模型)

(1)模型设置

Hansen(2000) 将“门槛回归”模型的基本形式定义为:

i i i e x y +='1θ, q i ≤γ (1)

i i i e x y +='2θ, q i >γ (2)

其中,作为解释变量的x i 是一个m 维的列向量。q i 被称为“门槛变量”,Hansen(2000)认为门槛变量既可以是解释变量x i 中的一个回归元 ,也可以作为一个独立的门槛变量。根据其相应的“门槛值”γ,可将样本分成“两类”(two regimes)。

将模型 (1) (2) 的形式改写成单一方程形式时,首先需要定义一个虚拟变量d i (γ)={q i ≤γ} ,此处{g}是一个指示函数( indicator function),令集合x i (γ ) = x i d i (γ)。因此,模型(1) (2)可写成:

i i n i i e x x y ++=)(''γδθ (3)

通过这种添加虚拟变量的方式,可知θ=θ2 ,δn =θ2-θ1。将式(3)进一步改写成矩阵形式:

e +=n δX +X Y γθ (4)

此时模型中的回归参数为 (θ,δn ,γ) 。在γ给定的前提下,式(4)中的θ和δn 是线性关系。因此,根据条件最小二乘估计方法,用X γ* = [X X r ]对Y 回归,得到相应的残差平方和

函数如下:

Y X X X X Y Y Y S S n n ')'('')),(),(()(*1***γγγγγγδγθγ--==

估计得到的门槛值就是使S n (γ)最小的γ?。被定义为:

)(min arg ?γγγn S n

Γ∈= (5) 其中,Γn =Γ∩{ q 1,…,q n }。Hansen(2000) 将门槛变量中的每一观测值均作为了可能的门槛值,将满足式(5)的观测值确定为门槛值。当门槛估计值确定之后,那么其他参数值也就能够相应地确定。

2. 显著性检验

门槛回归模型显著性检验的目的是,检验以门槛值划分的两组样本其模型估计参数是否显著不同。因此,不存在门槛值的零假设为: H0:θ1 =θ2。同时构造LM 统计量:

)

?()?(0γγn n S S S n L -= (6) 其中,S 0是在零假设下的残差平方和。由于LM 统计量并不服从标准的分布。因此,Hansen(2000)提出了通过“自举法”(Bootstrap )来获得渐进分布的想法,进而得出相应的概率p 值,也称为Bootstrap P 值。这种方法的基本思想是:在解释变量和门槛值给定的前提

下,模拟(Simulate) 产生一组因变量序列,并使其满足N (0 ,2

?e

),其中e ?是式(4)的残差项。每得到一个自抽样样本,就可以计算出一个模拟的LM 统计量。将这一过程重复1000次,Hansen(1996)认为模拟产生的LM 统计量大于式(6)的次数占总模拟次数的百分比就是“自举法”估计得到的P 值。这里的Bootstrap P 值类似于普通计量方法得出的相伴概率P 值。例如,当 Bootstrap P 值小于0.01时,表示在1 %的显著性水平下通过了LM 检验,以此类推。

3.置信区间

当确定某一变量存在“门槛效应”时,还需要进一步确定其门槛值的置信区间。即对零假设 H0 : γγ=?进行检验,“似然比统计量”( Likelihood Ratio Statistic)可表示为:

)?()?()()(γ

γγγn n n n S S S n LR -= (7) Hansen (2000)认为,当LR n (γ)≤c (α) = - 2ln(1 -α)时,不能拒绝零假设(α表示显著性水平)。其中,在 95 %的置信水平下,c (α) 等于7.35。

以上的检验过程为只有一个门槛值的检验过程,为了能确定是否存在两个门槛值或者 是更多的门槛值,我们应当检验是否存在两个门槛值,拒绝L 意味着至少存在一个门槛值。

我们可以假设己经估计1?γ,然后开始寻找第二个门槛值2?γ

。在确定有两个门槛值后,再寻找第三个门槛值,方法都和前面的一样,直至我们不能拒绝零假设。

门槛回归(阈值回归)

1 面板数据 面板数据,即Panel Data ,也叫“平行数据”,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。[1] 其有时间序列和截面两个维度,当这类数据按两个维度排列时,是排在一个平面上,与只有一个维度的数据排在一条线上有着明显的不同,整个表格像是一个面板,所以把panel data 译作“面板数据”。但是,如果从其内在含义上讲,把panel data 译为“时间序列—截面数据” 更能揭示这类数据的本质上的特点。也有译作“平行数据”或“TS -CS 数据(Time Series - Cross Section )” 面板数据从横截面上看,是由若干个体在某一时刻构成的截面观测值,从纵剖面上看,是一个时间序列。 例: 1、城市名:北京、上海、重庆、天津的GDP 分别为10、11、9、8(单位亿元)。这就是截面数据,在一个时间点处切开,看各个城市的不同就是截面数据。 如:2000、2001、2002、2003、2004各年的北京市GDP 分别为8、9、10、11、12(单位亿元)。这就是时间序列,选一个城市,看各个样本时间点的不同就是时间序列。 2、2000、2001、2002、200 3、2004各年中国所有直辖市的GDP 分别为: 北京市分别为8、9、10、11、12; 上海市分别为9、10、11、12、13; 天津市分别为5、6、7、8、9; 重庆市分别为7、8、9、10、11(单位亿元)。 这就是面板数据。 2 门槛回归模型(阈值回归模型) (1)模型设置 Hansen(2000) 将“门槛回归”模型的基本形式定义为: i i i e x y +='1θ, q i ≤γ (1) i i i e x y +='2θ, q i >γ (2) 其中,作为解释变量的x i 是一个m 维的列向量。q i 被称为“门槛变量”,Hansen(2000)认为门槛变量既可以是解释变量x i 中的一个回归元 ,也可以作为一个独立的门槛变量。根据其相应的“门槛值”γ,可将样本分成“两类”(two regimes)。 将模型 (1) (2) 的形式改写成单一方程形式时,首先需要定义一个虚拟变量d i (γ)={q i ≤γ} ,此处{g}是一个指示函数( indicator function),令集合x i (γ ) = x i d i (γ)。因此,模型(1) (2)可写成: i i n i i e x x y ++=)(''γδθ (3) 通过这种添加虚拟变量的方式,可知θ=θ2 ,δn =θ2-θ1。将式(3)进一步改写成矩阵形式: e +=n δX +X Y γθ (4) 此时模型中的回归参数为 (θ,δn ,γ) 。在γ给定的前提下,式(4)中的θ和δn 是线性关系。因此,根据条件最小二乘估计方法,用X γ* = [X X r ]对Y 回归,得到相应的残差平方和函数如下

安全阈值法

安全阈值法(themarginofsafety,MOS10):既然传统商值法表征的风险是一个确定的值,而不是一个具有概率意义的统计值,因此用该方法表征的风险值不足以说明某种毒物的存在对生物群落或整个生态系统水平的危害程度及其风险大小。因此,需要选择代表食物链关系的不同物种来表示群落水平的生物效应,从而对污染物的生态安全进行评价。为保护生态系统内生物免受污染物的不利影响,通常利用外推法来预测污染物对于生物群落的安全阈值。通过比较污染物暴露浓度和生物群落的安全阈值,即可表征污染物的生态风险大小 安全阈值是物种敏感度或毒性数据累积分布曲线上10%处的浓度与环境暴露浓度累积分布曲线上90%处浓度之间的比值,其表征量化暴露分布和毒性分布的重叠程度[50]。比值小于1揭示对水生生物群落有潜在风险,大于1表明两分布无重叠、无风险,通过比较暴露分布曲线和物种敏感度分布曲线可以直观地估计某一化合物影响某一特定百分数水生生物的概率。 概率曲线分布法(probabilitydistributioncurve):概率曲线分布法是通过分析暴露浓度与毒性数据的概率分布曲线,考察污染物对生物的毒害程度,从而确定污染物对于生态系统的风险[31,49]。以毒性数据的累积函数和污染物暴露浓度的反累积函数作图,可以确定污染物的联合概率分布曲线。该曲线反映了各损害水平下暴露浓度超过相应临界浓度值的概率,体现了暴露状况和暴露风险之间的关系。概率曲线法是从物种子集得到的危害浓度来预测对生

态系统的风险。一般用作最大环境许可浓度的值是HC5或EC20。这种将风险评价的结论以连续分布曲线的形式得出,不仅使风险管理者可以根据受影响的物种比例来确实保护水平,而且也充分考虑了环境暴露浓度和毒性值的不确定性和可变性[16,47]。 3.3 多层次的风险评价法 随着生态风险评价的发展,逐渐形成了一种多层次的评价方法,即连续应用低层次的筛选到高层次的风险评价。它是把商值法和概率风险评价法进行综合,充分利用各种方法和手段进行从简单到复杂的风险评价[51]。多层次评价过程的特征是以一个保守的假设开始,逐步过渡到更接近现实的估计。低层次的筛选水平评价可以快速地为以后的工作排出优先次序,其评价结果通常比较保守,预测的浓度往往高于实际环境中的浓度水平。如果筛选水平的评价结果显示有不可接受的高风险,那么就进入更高层次的评价。更高层次的评价需要更多的数据与资料信息,使用更复杂的评价方法或手段,目的是力图接近实际的环境条件,从而进一步确认筛选评价过程所预测的风险是否仍然存在,及风险大小。它一般包括初步筛选风险、进一步确认风险、精确估计风险及其不确定性、进一步对风险进行有效性研究4个层次[51]。目前已有学者对这方面进行尝试性研究,如2005年Weeks提出有关土壤污染物的生态风险“层叠式”评价框架[52],并为大多数环境学家所认同和接受。2007年Critto等基于层叠式生态风险评价框架,发展了环境污染生态风险评价决策支持专家系统(DSS2ERAMNIA)

阈值确定方法

一、问题重述 图形(或图像)在计算机里主要有两种存储和表示方法。矢量图是使用点、直线或多边形等基于数学方程的几何对象来描述图形,位图则使用像素来描述图像。一般来说,照片等相对杂乱的图像使用位图格式较为合适,矢量图则多用于工程制图、标志、字体等场合。矢量图可以任意放缩,图形不会有任何改变。而位图一旦放大后会产生较为明显的模糊,线条也会出现锯齿边缘等现象。 矢量图从本质上只是使用曲线方程对图形进行的精确描述,在以像素为基本显示单元的显示器或打印机上是无法直接表现的。将矢量图转换成以像素点阵来表示的信息,再加以显示或打印,这个过程称之为栅格化(Rasterization),见图1。 栅格化的逆过程相对比较困难。假设有一个形状较为简单的图标,保存成一定分辨率的位图文件。我们希望将其矢量化,请你建立合理的数学模型,尽量准确地提取出图案的边界线条,并将其用方程表示出来。 二、问题分析 本题的要求是完成位图的矢量化,通过建立合理的数学模型,将一个有一定分辨率的位图文件尽量准确地提取出图案的边界线条,最终将位图用方程的形式表示出来。解决本问题的流程图见下图。首先,通过MATLAB读取位图的各个像素的像素值(0-1),得到位图各个点的灰度值,通过最大类间方差法和最大熵法确定阈值,完成灰度的二值化,使各个像素点的灰度值全部由0或1表示。其次,将位图的轮廓通过合适的算法提取出来,根据特征值对轮廓进行拟合。最后,根据拟合的函数完成位图的矢量图,完成其矢量化过程,并通过对比矢量图和原始位图对应的。 三、问题假设及符号说明 3.1问题假设 3.2符号说明 四、模型建立 4.1模型准备 本题要求将一个形状较为简单的图标,保存成一定分辨率的位图文件,即将位图矢量化。

阈值自回归模型参数估计的小样本性质研究一

阈值自回归模型参数估计的小样本性质研究 (一) 刘汉中 2012-9-26 9:49:12 来源:《数量经济技术经济研究》(京)2009年10期第112~124页内容提要:对阈值自回归模型(TAR)的参数进行估计,主要是采用Chan的条件OLS估计法。本文将阈值自回归模型分为不连续的TAR、不连续的冲量阈值自回归(M-TAR)和连续的TAR(C-TAR)三种模型,采用Monte-Carlo模拟技术分别研究其参数估计的小样本性质。结果表明:在小样本中,阈值和自回归参数估计都存在明显的偏差;阈值估计相对于自回归参数估计而言,显得更加不稳定,具有更大的偏差和标准差。进一步研究发现,数据过程均匀率和标准差是影响参数估计小样本性质的主要因素。 关键词:TAR模型 Chan估计方法偏差和标准差 Monte-Carlo模拟 作者简介:刘汉中,湖南商学院经济与贸易学院。 引言 近年来时间序列研究表明:许多宏观经济变量存在非对称的(Asymmetric)调整机制,如失业率、国内生产总值(GDP)等许多宏观经济变量会随着经济周期呈现出非对称调整(Enders和Siklos,2001),这无疑为非线性时间序列建模的发展提出了客观要求。当处理这些非线性问题时,比如说对这些非线性动态进行建模时,采用全局线性动态模型来拟合是不合适的,如假定在一国的GDP增长中对扩张期和收缩期采用同一个线性自回归模型来拟合是不恰当的,因为在经济收缩期的GDP下降速度往往要快于扩张期的GDP恢复速度(Enders,2004);对一

个动物种群在扩张期和收缩期采用同一个自回归模型也是不合适的,如对加拿大山猫增长模型的许多研究就发现简单的线性自回归模型是不合适的(Tong,1990);采用线性自回归模型来描述同一种商品在不同市场的价格之差也是不恰当的,因为不同市场存在套利,所以只有当两个价格差超过套利成本时才是平稳的,否则是非平稳的(Tasy,1989)。因此对经济时间序列进行非线性动态建模时,全局线性自回归模型是不稳定的,也是不合适的。 作为一种主要的非线性建模工具——阈值自回归模型(Threshold Autoregressive Model,TAR),相对于其他非线性模型而言,由于其存在设定、参数估计、经济意义解释、非对称极限周期和跳跃现象等优点,已经使TAR模型成为至关重要的非线性建模工具。TAR模型最初由Tong(1983)提出,后又对该方法做了系统的诠释(Tong,1990)。它的原理与方法是基于“分段”(Piecewise)线性逼近,即把状态空间分割成几个子空间,每个子空间上都采用不同的线性自回归模型进行逼近,其中的状态空间是由所谓的阈值(Threshold Value)来指定。TAR模型与线性自回归模型不同,它刻画了时间序列在不同机制(Regime)中呈现出不同的动态特征,即时间序列的非线性动态调整特征,因此相对于线性自回归(AR)模型而言,TAR模型能捕捉到这种非对称的动态调整特征,具有线性AR模型无法比拟的优势。事实上当不同机制中具有相同的动态调整时,TAR模型就变成了线性AR模型,从这个意义上来说线性AR模型是TAR模型的特例,因此TAR 模型具有比线性AR模型更广泛的应用。 尽管TAR原理与方法在时间序列分析中具有重要的应用价值,从目前有关文献来看,利用TAR模型研究各种经济与金融问题已经成为经济研究的重要手段之一,但是经过20多年的发展,TAR原理与方法还很不成熟,如TAR模型的检验问题,由于检验统计量的非标准形式、渐近分布中包含有未知的冗余参数

阈值自回归模型参数估计的小样本性质研究二

阈值自回归模型参数估计的小样本性质研究(二) 刘汉中 2012-9-26 10:12:59 来源:《数量经济技术经济研究》(京)2009年10期第112~124页 二、Monte-Carlo试验设计与模拟结果 虽然已经证明Chan(1993)的TAR模型估计方法具有强一致性,但前提是样本容量趋于无穷大,而在实际的经济学分析中,可供分析的样本容量通常都很小,如果要应用TAR模型来进行实证研究,可用的样本容量较小会导致TAR模型不具有强一致性,因此本文重点研究参数估计的小样本性质,以揭示在通常的宏观经济学分析中,参数估计方法的适用性。 1.Monte-Carlo模拟设计 为了简单起见,不失一般性,假设不连续的两机制TAR模型设定如下:

上式也可以写成: 其中,,所以回归方程的截矩项是两个截矩的加权和。上式的自回归滞后阶数p=1,转换变量设定为d=1,随机干扰项,也就是说,随机干扰项是白噪声过程(White Noise Process)。在Monte-Carlo模拟中,有关参数设定如下:自回归系数的取值范围都是(0.1,0.3,0.5,0.7,0.9),初始值,阈值γ设定为0,即示性函数为: 随机干扰项服从独立同标准正态分布,即期望为0,方差,模拟的样本容量T分别为50、100、200。为了降低初始值设定所带来的影响,模拟样本容量为200+T,丢弃前面200个样本,估计量的模拟次数是10000次,截矩的设定为,OLS

估计模型的截矩是这两个截矩的线性组合。阈值潜在范围的设定是转换变量的15%分位数到85%分位数,即将转换变量由小到大排列,取中间70%的样本作为潜在阈值的搜索范围。需要特别说明的是:第一,估计量的偏差与标准差的计算式如下(以阈值为例,其他自回归参数的偏差计算与阈值相同,k表示模拟次数): 第二,生成的数据序列在两个机制中分布的均匀率衡量: 其中,、N分别表示总模拟样本中落在第1机制中的样本数和总的样本数,如果均匀率越靠近0.5,则认为在两机制中的数据分布越均匀;反之当越靠近0或1时,则认为数据在两机制中分布越不均匀。

一种自适应阈值的运动目标提取算法

万方数据

万方数据

?2382?计算机应用研究第27卷 称为(F,B)的最大类间方根一算术均值距离(maxclusters’squarerootarithmeticmeandivegence,MCSAM)。 2.2算法步骤 自适应阈值的运动目标提取算法的具体步骤如下: a)初始化:Threshold=Ave,No=0,N1=0,Gmyo=0,Gray。=0,MCSAM(F,B)=0,Times=0(表示迭代次数)。 b)如果Times<T(T为阈值调整次数,即最大迭代次数),Times++;否则,转步骤f)。 c)遍历图像,由上述定义分别计算Ⅳo,N。,Grayo,Gray。。 d)计算Aveo,AveI,∞o,∞1,Ave,CSAM(Fi,B1)。 e)如果MCSAM(F,B)<CSAM(f,曰;),则令MCSAM(F,B)=CSAM(Fi,B;),Threshold=Threshold+Step(Step表示阈值调整步长),转步骤b);否则,不变,Threshold=Threshold—Step,转步骤b)。 f)此时的MCSAM(,,鳓就是所要寻找的最佳阈值,算法结束。 将运动目标和背景作为两个聚类,把聚类问的方根一算术均值距离最大作为阈值选择的准则是本算法的核心。背景和运动目标之间的CSAM越大,说明构成图像的两部分差别越大,当部分目标错分为背景或者部分背景错分为目标时,都会导致两部分差别变小,使得CSAM值变小。因此,MCSAM意味着错分的概率最小,该方法能保证运动目标提取的准确性。2.3阈值更新策略 本文的算法主要采用两种方法进行阈值更新。第一种是定时更新,即在规定时间段中(通常3—5min),抽取10张连续图像序列利用该算法计算下一时间段差分图像的分割阈值。这种方式适用于背景缓慢变化的情况,如一天当中太阳光照的缓慢变化。第二种方法¨21是实时更新,若在当前帧图像与背景模型差分后所得差分图像中,∞。大于某一个阈值(通常取80%),则认为整个背景发生了变化;若连续多帧图像中这一比值依然很大,则不仅更新背景模型,同时更新阈值Thresh—old。这种方式适用于背景发生突变时的情况,如室内突然开灯或关灯。此外,如果图像中某些固定区域(非整幅图像)在较长时间内一直保持变化状态,有两种情况:一种是该区域像素灰度均值平稳变化,则认为该处背景的实际状态发生了变化(如户外汽车的停泊和驶走),此时执行分割阈值更新操作;另一种情况是该区域像素灰度均值变化不平稳,则该处背景可能存在显示器屏幕一类的物品,此时标记该区域,只检测该区域以外的图像,进行阈值更新。 3实验结果 利用本文的算法对大量实际视频图像序列进行了运动目标提取的实验,并且在实验中总结了阈值调整次数Tin螂和阈值调整步长Step的最优选择方法。 3.1阈值调整次数和阈值调整步长的确定 阈值调整次数和阈值调整步长为本算法中可调整的参数。对视频中图像序列计算分割阈值时,可通过改变阈值调整步长Step和阈值调整次数Tim鹤的值,比较每帧图像的分割阈值。由实验统计数据可知:分割阈值准确度与阈值调整步长成反 比,与阈值调整次数成正比,即阈值调整步长Step越小,阈值调整次数Times越大,得到的分割阈值准确度越高,但同时也带来了巨大的计算量。因此,本文采用如下办法解决此问题:首先固定Times值,选择阈值变化减缓时的最小Step值;然后固定Step,寻找阈值变化减缓时的最小Times值;将选定的Step作为阈值调整步长,Times作为阈值调整次数。 3.2运动目标提取实验 利用本文算法对不同情况下的多组视频序列进行了运动目标提取实验,视频包括室内、室外、开关照明等场景,并将运动目标区域提取结果与基于背景差法的运动目标提取结果进行了比较。其中,后处理采用数学形态学的开运算。 实验1图3为摄像头获取的室内场景关灯条件下的视频序列,其中,(a1)(a2)(a3)分别是该图像序列中第50、110和150帧图像;图3(c)为利用本文算法分别对图1(a)中图像进行运动目标提取的结果,运动目标完整,且干扰噪声点较少;图3(b)是利用普通背景差法进行运动目标提取的结果,可以看到除由于未进行阴影消除出现伪影外,效果与图3(c)相差不多。 (c)基于自适应闻值运动目标提取算法的提取结果 图3室内人侧面走过摄像头视频(关灯情况下)实验2图4为摄像头获取的室内场景突然开灯情况下的视频序列。其中,(a1)(a2)(a3)分别是该图像序列中第250、310和350帧图像;图4(b)是利用背景差法进行运动目标提取的结果,可以看到,提取效果较差,这是由于照明环境的突然变化,使背景模型发生改变,而运动目标提取阈值固定不变所导致的结果;图4(C)是利用本文算法对运动区域提取阈值进行了自动调整,使得分割更灵活可行,因此,提取结果依然是运动目标完整,且干扰噪声点较少,从而验证了本算法对环境亮度突变的鲁棒性。 实验3图5为摄像头获取的室外场景视频序列,室外场景中通常存在一些微小的变化区域,如树叶的轻微摆动。由于本文算法后处理采用了数学形态学方法,可以有效去除这些微小变化引起的误检。但是,当背景中变动区域的运动幅度非常大,如狂风中摇摆的树木等,则该处理方法便无法完全去除变动区域的影响。 执行时间也是本算法的一个重要检测指标,本文使用1.8GHzIntelPentium@DCPU,512 MB内存的普通Pc机,图像分 万方数据

门槛回归(阈值回归)

1面板数据 面板数据,即Panel Data,也叫“平行数据”,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。[1] 其有时间序列和截面两个维度,当这类数据按两个维度排列时,是排在一个平面上,与只有一个维度的数据排在一条线上有着明显的不同,整个表格像是一个面板,所以把panel data译作“面板数据”。但是,如果从其内在含义上讲,把paneldata译为“时间序列—截面数据”更能揭示这类数据的本质上的特点。也有译作“平行数据”或“TS-CS数据(TimeSeries-CrossSection)” 面板数据从横截面上看,是由若干个体在某一时刻构成的截面观测值,从纵剖面上看,是一个时间序列。 例: 1、城市名:北京、上海、重庆、天津的GDP分别为10、11、9、8(单位亿元)。这就是截面数据,在一个时间点处切开,看各个城市的不同就是截面数据。 如:2000、2001、2002、2003、2004各年的北京市GDP分别为8、9、10、11、12(单位亿元)。这就是时间序列,选一个城市,看各个样本时间点的不同就是时间序列。 2、2000、2001、2002、200 3、2004各年中国所有直辖市的GDP分别为: 北京市分别为8、9、10、11、12; 上海市分别为9、10、11、12、13; 天津市分别为5、6、7、8、9; 重庆市分别为7、8、9、10、11(单位亿元)。 这就是面板数据。 2门槛回归模型(阈值回归模型)

(1)模型设置 Hansen(2000)将“门槛回归”模型的基本形式定义为: y i 1'x i e i,q i≤γ(1)y i 2'x i e i,q i>γ(2)其中,作为解释变量的x i是一个m维的列向量。q i被称为“门槛变量”,Hansen(2000)认为门槛变量既可以是解释变量x i中的一个回归元,也可以作为一个独立的门槛变量。根据其相应的“门槛值”γ,可将样本分成“两类”(two regimes)。 将模型(1)(2)的形式改写成单一方程形式时,首先需要定义一个虚拟变量d i(γ)={q i≤γ} ,此处{g}是一个指示函数( indicator function),令集合x i(γ ) =x

用AR模型估计信号的功率谱

用AR 模型估计观测信号的功率谱 1. 理论原理 本文用SVD-TLS 算法估计观测信号的功率谱,观测信号为: ()0.2)0.213),x n n n ππ=1,2,,128n =…… SVD-TLS 算法的步骤如下: (1) 计算样本相关函数矩阵R 的SVD ,并存储奇异值和矩阵V; (2) 确定R 的有效秩,本文使用的是归一化奇异值法来求有效秩 (3) 用总体最小二乘法估计参数 2. 程序 %计算样本相关矩阵R ,求其svd 并存储奇异值和矩阵V clear X=sqrt(20)*sin(2*pi*0.2*[1:128])+sqrt(2)*sin(2*pi*0.213*[1:128]); M=70; pe=55; qe=65; R=zeros(M,pe+1); for i=1:M, for j=1:pe+1, for n=qe+i-j+1+1:128, R(i,j)=R(i,j)+X(n)*X(n-qe-i+j-1); end end end [U,S,V]=svd(R); %确定R 的有效秩 k=1; while S(k,k)/S(1,1)>=0.00001, k=k+1; end p=k-1; p %下面用总体最小二乘法估计参数 D=zeros(p+1,p+1); for j=1:p, for k=1:pe+1-p, B=V(k:k+p,j); D=D+B*B'*S(j,j)^2; end end A=inv(D); for i=1:p, x(i)=A(i+1,1)/A(1,1)

end %利用估计出的参数画出功率谱 freqz(1,[1,x],1024,1) 3. 结果 观测信号的功率谱如下: 00.050.10.150.20.250.3 0.350.40.450.50500 1000 1500 2000 Frequency (Hz)P h a s e (d e g r e e s )00.050.10.150.20.250.3 0.350.40.450.5 -500 50 100 Frequency (Hz)M a g n i t u d e (d B ) 有效秩P=14 估计的参数为: x = Columns 1 through 11 -0.8767 2.0264 -0.5249 0.7909 0.2515 15.5127 -16.8714 37.2947 -5.6919 -3.6480 38.2700 Columns 12 through 14 -33.2510 23.2555 -9.0139

相关文档