当前位置：文档库 › stata总结

stata总结

1.一般检验

假设系数为0，t比较大则拒绝假设，认为系数不为0.

假设系数为0，P比较小则拒绝假设，认为系数不为0.

假设方程不显著，F比较大则拒绝假设，认为方程显著。

2.小样本运用OLS进行估计的前提条件为：

（1）线性假定。即解释变量与被解释变量之间为线性关系。这一前提可以通过将非线性转换为线性方程来解决。

（2）严格外生性。即随机扰动项独立于所有解释变量：与解释变量之间所有时候都是正交关系，随机扰动项期望为0。(工具变量法解决)

（3）不存在严格的多重共线性。一般在现实数据中不会出现，但是设置过多的虚拟变量时，可能会出现这种现象。Stata可以自动剔除。

（4）扰动项为球型扰动项，即随即扰动项同方差，无自相关性。

3.大样本估计时，一般要求数据在30个以上就可以称为大样本了。大样本的前提是

（1）线性假定

（2）渐进独立的平稳过程

（3）前定解释变量，即解释变量与同期的扰动项正交。

（4）E（XiXit）为非退化矩阵。

（5）gt为鞅差分序列，且其协方差矩阵为非退化矩阵。

与小样本相比，其不需要严格的外生性和正太随机扰动项的要求。

4.命令

稳健标准差回归：reg y x1 x2 x3, robust 回归系数与OLS一样，但标准差存在差异。如果认为存在异方差，则使用稳健标准差。使用稳健标准差可以对大样本进行检验。

对单个系数进行检验：test lnq=1

线性检验：testnl _b[lnpl]=_b[lnq]^2

5.如果回归模型为非线性，不方便使用OLS,则可以采取最大似然估计法（MLE）,或者非线性最小二乘法（NLS）

6.违背经典假设，即存在异方差的情况。截面数据通常会出现异方差。

因此检验异方差可以：

（1）看残差图，但只是直观，可能并不准确。

rvfplot (residual-versus-fitted plot) 与拟合值的散点图

rvpplot varname (residual-versus-predictor plot) 与解释变量的散点图

扰动项的方差随观测值而变动，表示可能存在异方差。

（2）怀特检验：

estat imtest, white (post-estimation information matrix test)

P比较小，则拒绝同方差假设，表示存在异方差,不能用OLS。反之则证明为同方差。（3）BP检验

estat hettest，iid (默认设置为使用拟合值y^)

estat hettest, rhs iid (使用方程右边的解释变量，而不是y^)

estat hettest [ varlist]，iid (使用某个指定的解释变量)

P小，则拒绝原假设。

如果存在异方差，则可以：

（1）使用OLS+稳健标准差robust

（2）广义最小二乘法（GLS）

（3）加权最小二乘法（WLS）

predict el, res （预测残差）

g e2=el^2

辅助回归：

g lne2=log(e2)

reg lne2 lnq, noc

predict lne2f 计算辅助回归的拟合值

g e2f=exp(lne2f) 去掉对数即权重之倒数

reg lntc lnq lnpl lnpk lnpf [aw=1/e2f]

reg y x1 x2 x3 [aw=1/var] (aw表示analytical weight, var表示随即扰动项的方差。) （4）可行广义最小二乘法（FGLS）

6.自相关

时间序列中容易出现自相关，而截面数据也可能存在空间自相关。人为处理数据如移动平均等做法也可能导致自相关。

检验自相关可以：

（1）作图，但并不严格。

定义滞后算子L.(只有时间序列数据和面板数据才能定义时间变量。)

tsset yaear

一阶差分：D.x=xt-xt-1 D2. X=xt-xt-2

LD. 表示一阶差分的滞后值

画图：scatter el L.el

ac el (看自相关图)

pac el (看偏相关图)

（2）BG检验

estat bgodfrey (默认p=1)

estat bgodfrey，lags（p）

estat bgodfrey，nomiss0 (使用不添加0的BG检验)

使用命令ac 查看自相关图，或者设置较大的p值进行显著性检验，t期不显著了，则选择P=T-1

统计检验P值小，则拒绝假设。

（3）box-pierce Q检验/ Ljung-Box Q

reg y x1 x2 x3

predict el, resid

wntestq el (使用stata提供的默认滞后期)

wntestq el, lags(p) (使用自己设定的滞后期)

（4）DW检验：现在已经不常用，因为其只能检验一阶自相关。

estat dwatson

自相关的处理方法：

（1）使用OLS+异方差自相关稳健的标准差（Heteroskedasticity and Autocorrelation Consistent Standard Error, HAC）

newey y x1 x2 x3, lag(p) (HAC标准差，必须制定滞后阶数p)

滞后期数选择n^1/4

(2)使用OLS+聚类稳健的标准差（cluster robust standard error）面板数据中经常使用聚类稳健的标准差。

reg y x1 x2 x3, cluster(state) (聚类稳健标准差，假设“state”为聚类变量)

（3）使用可行广义最小二乘法（FGLS）

prais y x1 x2 x3 (使用默认的PW估计法)

praise y x1 x2 x3, corc (使用CO估计法)

（4）修改模型设定，可能自相关是由于遗漏了自相关的解释变量。

7多重共线性

在回归后，使用命令VIF

estat vif 经验表示，vif <10, 则不存在多重共线性。

如果存在多重共线性，但是只关心整个方程预测被解释变量的能力，或者只关心变量的显著性，则不必理会多重共线性，因为多重共线性只是对单个解释变量的解释能力估计出现了偏差。存在多重共线性，则逐个剔除。

8.遗漏变量（解决扰动项严格外生性的问题）

遗漏变量与解释变量不相关时，扰动项与解释变量不相关，OLS估计依然一致，但扰动项方差过大，影响估计的精确度

如果遗漏变量与解释变量相关，扰动项与解释变量则会相关，导致OLS估计不再一致。出现“遗漏变量偏差”。

所以可以不研究某些解释变量而只对感兴趣的解释变量进行研究，但是重要的是遗漏解释变量不能与解释变量相关。解决遗漏解释变量的方法有：

（1）加入尽可能多的控制变量（control varible），从理论上说明遗漏变量与扰动项不相关，或很弱的相关

（2）使用代理变量（proxy variable），这在控制变量不可得的时候采用，如用IQ 代替能力

（3）工具变量法

（4）使用面板数据（短面板、长面板、动态面板）

（5）随即实验和自然实验

9.选择解释变量的个数的时候，要选择适当的方式。

（1）按照变量个数使得矫正可决系数最大的准则选择个数（如果加入变量，反倒A-R变小，则去掉加入的变量。）

（2）赤池信息准则（AIC akaike Information Criteria）

（3）贝叶斯信息准则（Bayesian Information Criteria）

（4）汉南-昆信息准则（Hanan-Quinn Information Criteria）但这一准则不常用

命令：estat ic

取AIC BIC 最大时候的变量个数

10.处理极端数据：

reg y x1 x2 x3

predict lev, leverage (列出所有解释变量的影响力值)

gsort –lev (将所有的观测值按照lev的降序排列)

sum lev （看LVE的最大值和平均值）

list lev 1/3 (列出影响力最大的三个值)

可以将极端数据加入和省略进行对比。

10虚拟变量

M个定性的量，最多可以有（M-1）个虚拟变量

设置虚拟变量：generate d=(year>=1978)

如希望将每个省设置为虚拟变量，则需要：tabulate province, generate（pr）

回归简化为：reg y x1 x2 x3 pr2-pr31

11.工具变量法

这可以解决扰动项与自变量的相关问题，设置的工具变量需要与扰动项无关而与内生解释变量相关。传统的工具变量法一般通过两阶段最小二乘法TSLS、2SLS（two stage least square）。第一阶段，工具变量对内生解释变量回归；第二阶段，被解释变量对工具变量的拟合值进行回归。多个工具变量的线性组合仍然可以作为工具变量。

命令：ivregress 2sls depvar [varlist1] (varlist2=inslist)

Depvar为被解释变量，varlist1为外生解释变量，varlist2为内生解释变量，instlist 为工具变量。如：

ivregress 2sls y x1 (x2 = z1 z2)

ivregress 2sls y x1 (x2 x3 = z1 z2 z3 z4), r first (r表示用异方差的标准差，first表示在结果中显示第一阶段的回归。)

检验工具变量与解释变量的相关性：即检验工具变量是否为弱工具变量，

命令：estat firststage, all forcenonrobust (all表示显示每个内生变量的统计量，而非仅仅所有内生变量综合的统计量，forcenonrobust表示及时在进行工具变量法时用了稳健标准差，也仍然允许计算estat firststage)

解决弱工具变量的方法包括

A．寻找更强的工具变量

B．弱工具变量较多，则舍弃弱工具变量，

C．用有限信息最大似然估计法（Limited information maximum likelihood estimation, LIML）LIML与2SLS渐进等价，但在弱工具变量的情况下，LIML的小样本性质可能优于2SLS. 命令为：ivregress liml depvar [varlist 1] (varlist2 = instlist)

过度识别（即多余的工具变量的个数）命令为：estat overid 但并不能告诉哪些工具变量无效。

使用工具变量的前提是存在内生解释变量（即解释变量与扰动项相关），这也需要检验。如果所有解释变量都是外生变量则用OLS比用工具变量法更有效，反之应该用工具变量法。豪斯曼检验就是假设所有解释变量都为外生变量。

豪斯曼检验的stata命令：

reg y x1 x2

estimates store ols (存储OLS的结果)

ivregress 2sls y x1 (x2= z1 z2) （假设怀疑x2为内生变量）

estimates store iv （存储2SLS的结果）

hausman iv ols, constant sigmamore （根据存储的结果进行豪斯曼检验）

但uguo存在异方差，则OLS并不是最有效的，传统额豪斯曼检验不适用于异方差的情形，解决方法是“自助法”；或者使用“杜宾-吴-豪斯曼DWH检验”也可以适用于存在异方差的情况。命令：estat endogenous

在球型扰动项的假定下，2SLS是最有效的，但是如果扰动项存在异方差或者自相关，则广义矩估计（generalized method of moments, GMM）更有效。GMM与2SLS的关系就相当于GLS与OLS之间的关系。

STATA最常用命令大全

stata save命令 FileSave As 例1. 表1.为某一降压药临床试验数据，试从键盘输入Stata，并保存为Stata格式文件。 STATA数据库的维护排序 SORT 变量名1 变量名2 …… 变量更名 rename 原变量名新变量名 STATA数据库的维护删除变量或记录 drop x1 x2 /* 删除变量x1和x2 drop x1-x5 /* 删除数据库中介于x1和x5间的所有变量(包括x1和x5) drop if x<0 /* 删去x1<0的所有记录 drop in 10/12 /* 删去第10~12个记录 drop if x==. /* 删去x为缺失值的所有记录 drop if x==.|y==. /* 删去x或y之一为缺失值的所有记录 drop if x==.&y==. /* 删去x和y同时为缺失值的所有记录 drop _all /* 删掉数据库中所有变量和数据 STATA的变量赋值用generate产生新变量 generate 新变量＝表达式 generate bh=_n /* 将数据库的内部编号赋给变量bh。 generate group=int((_n-1)/5)+1 /* 按当前数据库的顺序，依次产生5个1，5个2，5个3……。直到数据库结束。 generate block=mod(_n,6) /* 按当前数据库的顺序，依次产生1,2,3,4,5,0。generate y=log(x) if x>0 /* 产生新变量y，其值为所有x>0的对数值log(x)，当x<=0时，用缺失值代替。 egen产生新变量 set obs 12 egen a=seq() /*产生1到N的自然数 egen b=seq(),b(3) /*产生一个序列，每个元素重复＃次 egen c=seq(),to(4) /*产生多个序列，每个序列从1到＃ egen d=seq(),f(4)t(6) /*产生多个序列，每个序列从#1到＃2 encode 字符变量名，gen(新数值变量名) 作用：将字符型变量转化为数值变量。 STATA数据库的维护保留变量或记录 keep in 10/20 /* 保留第10～20个记录，其余记录删除 keep x1-x5 /* 保留数据库中介于x1和x5间的所有变量(包括x1和x5)，其余变量删除keep if x>0 /* 保留x>0的所有记录，其余记录删除

stata使用手册

STATA基本入门前言 STATA是一个十分好用而且简单的统计软件包，透过轻松的数据输入方式，而且简单的指令，即可执行一般在计量经济学上常用的计量模型。除了计量模型外，STATA的软件包中也可执行统计学中的估计和检定，甚至是多变量分析中的各项分析工具。因此，STATA可以说是一个相当强而有力的统计软件。一、安装 STATA所须的内存容量不大，只有4.03MB。此外，安装也相当简单，只要在〝SETUP〞上点两下，安装完成后再分别输入”Sn”、”Code”和”Key”即可开始使用。但是安装过程中有一点必须注意的是，如下图所示，有”Intercooled”和”Small”两个选项。一般而言，为了方便日后要设定较大的内存容量来处理大笔的资料，通常选择以”Intercooled”进行安装。以此項進行安裝二、窗口介绍

安装完成后，点选桌面上STATA的图标，窗口画面如下图所示。为了使画面美观，我们可以将画面拉到自己喜欢的地方，如下图所示。为了保存这个窗口画面，我们必须点选工具列上的”Prefs”下的”Save Windowing Preferences”。如此一来，以后开启STATA时都会以此窗口画面呈现。

接下来，我们依序介绍四个窗口的功用：左上─Review：此一窗口用于记录在开启STATA后所执行过的所有指令。因此，若欲使用重复的指令时，只要在该指令上点选两下即可执行相同的指令；若欲使用类似的指令时，在该指令上点一下，该指令即会出现在窗口”Stata Command”上，再进行修改即可。此外，STATA还可以将执行过的指令储存下来，存在一个 do-file内，下次即可再执行相同的指令。左下─Variables：此一窗口用于呈现某笔数据中的所有变量。换言之，当数据中的变量都有其名称时，变量名称将会出现在此一窗口中。只要数据有读进STATA中，变量名称就会出现。它的优点是(1)确认数据输入无误；(2)只要在某变量上点选两下，该变量即会出现在窗口”Stata Command”上。右上─Stata Results：此一窗口用于呈现并记录指令执行后的结果。右下─Stata Command：此一窗口用于输入所欲执行的指令。 Note：以上四个窗口都可以从”Fonts”去更改字体大小。三、输入数据（Entering data）

stata上机实验操作

第六章第二题： 1. 建立完成的教育年数（ED ）对到最近大学的距离（Dist ）的回归： . reg ed dist, robust 斜率估计值是：-0.073 2. reg ed dist bytest female black hispanic incomehi ownhome dadcoll cue80 stwmfg80,robust Dist 对ED 的效应估计是：-0.032 3. 系数下降50%，存在很大差异，（1）中回归存在遗漏变量偏差 4. di e(r2_a)（可看到调整后的R2）第一问中=0.0074 调整的2R =0.00718796 _cons 13.95586 .0378112 369.09 0.000 13.88172 14.02999 dist -.0733727 .0134334 -5.46 0.000 -.0997101 -.0470353 ed Coef. Std. Err. t P>|t| [95% Conf. Interval] Robust Root MSE = 1.8074 R-squared = 0.0074 Prob > F = 0.0000 F( 1, 3794) = 29.83 Linear regression Number of obs = 3796 . reg ed dist , robust 2R

第二问中=0.2788 2R = 0.27693235 可以得到第二问中的拟合效果要优于第一问。第二问中相似的原因：因为n 很大。 5. Dadcoll 父亲有没有念过大学：系数为正（0.6961324）衡量父亲念过大学的学生接受的教育年数平均比其父亲没有年过大学的学生多。 .0232052 -.0517777 1）原因：这些参数在一定程度上构成了上大学的机会成本。 2）它们的系数估计值的符号应该如此。当Stwmfg80增加时，放弃的工资增加，所以大学入学率降低了；因而Stwmfg80的系数对应为负。而当Cue80增加时，人们会发现找工作很困难，这降低上大学的机会成本，所以平均的大学入学率就会增加；因而Cue80的系数对应为正。 7.带入计算即可（14.75） 8.同7.（14.69）第七章第二题 1. . reg course_eval beauty,robust 95%置信区间见上表。 2. 2R _cons 3.998272 .0253493 157.73 0.000 3.948458 4.048087 beauty .1330014 .0323189 4.12 0.000 .0694908 .1965121 course_eval Coef. Std. Err. t P>|t| [95% Conf. Interval] Robust Root MSE = .54545 R-squared = 0.0357 Prob > F = 0.0000 F( 1, 461) = 16.94 Linear regression Number of obs = 463

让你快速上手的stata讲义

Stata简明讲义王非中国经济研究中心 ebwf@https://www.wendangku.net/doc/c85631514.html,

〇、写在前面的话关于学习Stata的意义，大家只需知道：目前，Stata是计量经济学、特别是微观计量经济学的主流软件。因此，Stata很重要、很有用，而大家也会在使用Stata 的过程中慢慢体会到它的特点。本讲义取名为“Stata简明讲义”，意在突出“简”和“明”两个字。虽然讲义长达五十多页，但相比Stata的完全手册来说，还不及九牛之一毛，故为“简”。实际上，完全手册中的很多内容都鲜有人（特别是计量经济学者）问津，而本讲义列出的内容则是大家经常用到的操作；所以，“简”也有“简”的好处。即便如此，掌握这份讲义也并非易事。所谓“明”，是明晰的意思。本讲义本着“手把手教”的精神，力求把每项操作都说得具体明晰，以方便初学者（特别是没有程序操作经历的初学者）尽快上手。至于本讲义在“简明”上做得怎么样，还需要各位读者来评判。中心的一位学长邹传伟，曾经写过一份“Stata介绍”，在网上可以下载。那份讲义比较全面，但不够具体明晰。本讲义参照那份讲义，在框架上查漏补缺，并进一步地明晰化。本讲义第二部分的“do文件”和第七部分的“残差分析”的相关内容均来自于中心的沈艳老师的相关讲义，而沈老师对于本讲义的成形给予了细致的指导。本讲义附带了一些数据文件，其中“WAGE1.dta”和“WAGEPRC.dta”均来自Wooldridge的中级计量教材的数据集，而其他数据则为作者自己的杜撰。尽管从别人那里拿来了许多好东西，但本讲义的任何错误仍源于作者自己的疏忽。本讲义是这样安排的：第一部分讲Stata的界面，第二部分讲do文件，第三部分讲怎样把数据导入Stata，第四部分专门讲help和search命令以及帮助文件的阅读方法，第五部分讲数据的描述及管理，第六部分讲如何画图，第七部分讲初步的回归分析。

主成分分析在STATA中的实现以及理论介绍

第十二章主成分分析主成分分分析也称作主分量分析，是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降维的思想，在损失较少信息的前提下把多个指标转化为较少的综合指标。转化生成的综合指标即称为主成分，其中每个主成分都是原始变量的线性组合，且各个主成分互不相关。Stata 对主成分分析的主要容包括：主成分估计、主成分分析的恰当性（包括负偏协方差矩阵和负偏相关系数矩阵、KMO(Kaiser-Meyer-Olkin)抽样充分性、复相关系数、共同度等指标测度）、主成分的旋转、预测、各种检验、碎石图、得分图、载荷图等。 p j n i b a y ij j i ij ,,2,1,,2,1,' ==+=ε 主成分的模型表达式为： p p j i i i i diag v v v v i p V V C λλλλλλλ≥≥≥=∧='' ==∧=∑ 2121),,,,(0 1 其中，a 称为得分，b 称为载荷。主成分分析主要的分析方法是对相关系数矩阵（或协方差矩阵）进行特征值分析。 Stata 中可以通过负偏相关系数矩阵、负相关系数平方和KMO 值对主成分分析的恰当性进行分析。负偏相关系数矩阵即变量之间两两偏相关系数的负数。非对角线元素则为负的偏相关系数。如果变量之间存在较强的共性，则偏相关系数比较低。因此，如果矩阵中偏相关系数较高的个数比较多，说明某一些变量与另外一些变量的相关性比较低，主成分模型可能不适用。这时，主成分分析不能得到很好的数据约化效果。 Kaiser-Meyer-Olkin 抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标，是通过比较两个变量的相关系数与偏相关系数得到的。KMO 介于0于1之间。KMO 越高，表明变量的共性越强。如果偏相关系数相对于相关系数比较高，则KMO 比较低，主成分分析不能起到很好的数据约化效果。根据Kaiser （1974），一般的判断标准如下：0.00-0.49,不能接受（unacceptable ）;0.50-0.59,非常差（miserable ）；0.60-0.69，勉强接受（mediocre ）；0.70-0.79,可以接受（middling ）；0.80-0.89，比较好（meritorious ）；0.90-1.00,非常好（marvelous ）。 SMC 即一个变量与其他所有变量的复相关系数的平方，也就是复回归方程的可决系数。SMC 比较高表明变量的线性关系越强，共性越强，主成分分析就越合适。成分载荷、KMO 、SMC 等指标都可以通过extat 命令进行分析。多元方差分析是方差分析在多元中的扩展，即模型含有多个响应变量。本章介绍多元（协）方差分析以及霍特林（Hotelling)均值向量T 检验。 12.1 主成分估计 Stata 可以通过变量进行主成分分析，也可以直接通过相关系数矩阵或协方差矩阵进行。（1）sysuse auto,clear pca trunk weight length headroom pca trunk weight length headroom, comp(2) covariance

stata常用命令

用help命令熟悉以下命令的功能： cd：（Change directory）改变stata的工作路径用法：（cd changes the current working directory to the specified drive and directory.） ●指定全路径：cd e:\ ●指定相对路径（如果当前路径已经指向e:\那么下面命令将达到和上面全路径命令同样效果）： ●cd .. 返回上一级目录 dir：（Display filenames）显示当前目录下的文件信息用法：（list the names of files in the specified，the names of the commands come from names popular on Unix and Windows，filespec may be any valid Mac, Unix, or Windows file path or file）工作列表文件中指定的名称目录,命令的名称来自名字流行的Unix和Windows文件规范可以是任何有效的Mac,Unix或Windows文件路径或文件。 . dir, w . dir *.dta . dir \mydata\*.dta List：（List values of variables）列出指定变量的取值用法：（st displays the values of variables. If no varlist is specified, the values of all the variables are displayed）列表显示变量的值。如果没有指定varlist,所有的值显示的变量。list [varlist] [if] [in] [, options] . list in 1/10 . list mpg weight . list mpg weight in 1/20 . list if mpg>20 . list mpg weight if mpg>20 . list mpg weight if mpg>20 in 1/10 Describe：（Describe data in memory or in file）描述内存或者文件中的数据(样本数、变量类型等信息) 用法：（describe produces a summary of the dataset in memory or of the data stored in a Stata-format dataset. For a compact listing of variable names, use describe, simple.） ●描述内存数据： ●描述文件数据：describe [varlist] using filename [, file_options] Use：（Load Stata dataset）调用数据，打开数据文件（以dta结尾）文件名+.dta 数据读入stata 用法：（use loads into memory a Stata-format dataset previously saved by save. If filename is specified without an extension, .dta is assumed. If your

stata简单讲义第六讲

线性相关和回归赵耐青在实际研究中，经常要考察两个指标之间的关系，即：相关性。现以体重与身高的关系为例，分析两个变量之间的相关性。要求身高和体重呈双正态分布，既：在身高和体重平均数的附近的频数较多，远离身高和体重平均数的频数较少。样本相关系数计算公式(称为Pearson 相关系数)： ) () () )((2 2 YY XX XY L L L Y Y X X Y Y X X r = ----= ∑ ∑ ∑ (1) 1. 考察随机模拟相关的情况。显示两个变量相关的散点图程序simur.ado （本教材配套程序,使用见前言）。命令为simur 样本量总体相关系数如显示样本量为100，ρ=0的散点图本例命令为simur 100 0

如显示样本量为200，ρ=0.8的散点图本例命令为simur 200 0.8 如显示样本量为200，ρ=0.99的散点图本例命令为simur 200 0.99

如显示样本量为200，ρ=-0.99的散点图本例命令为simur 200 -0.99 例1. 测得某地15名正常成年男子的身高x（cm）、体重y（kg）如试计算x和y之间的相关系数r并检验H0：ρ＝0 vs H1: ρ≠0。 α=0.05

数据格式为 176.0 69.0 175.0 74.0 172.0 68.0 170.0 64.0 173.0 68.5 168.0 56.0 172.0 54.0 170.0 62.0 172.0 63.0 173.0 67.0 168.0 60.0 171.0 68.0 172.0 76.0 173.0 65.0 Stata命令pwcorr 变量1 变量2 …变量m，sig 本例命令pwcorr x y,sig pwcorr x y,sig Pearson相关系数=0.5994，P值=0.0182<0.05，因此可以认为身高与体重呈正线性相关。

[推荐] stata基本操作汇总常用命令

[推荐] Stata基本操作汇总——常用命令 help和search都是查找帮助文件的命令，它们之间的区别在于help用于查找精确的命令名，而search是模糊查找。如果你知道某个命令的名字，并且想知道它的具体使用方法，只须在stata的命令行窗口中输入help空格加上这个名字。回车后结果屏幕上就会显示出这个命令的帮助文件的全部内容。如果你想知道在stata下做某个估计或某种计算，而不知道具体该如何实现，就需要用search命令了。使用的方法和help类似，只须把准确的命令名改成某个关键词。回车后结果窗口会给出所有和这个关键词相关的帮助文件名和链接列表。在列表中寻找最相关的内容，点击后在弹出的查看窗口中会给出相关的帮助文件。耐心寻找，反复实验，通常可以较快地找到你需要的内容.下面该正式处理数据了。我的处理数据经验是最好能用stata的do文件编辑器记下你做过的工作。因为很少有一项实证研究能够一次完成，所以，当你下次继续工作时。能够重复前面的工作是非常重要的。有时因为一些细小的不同，你会发现无法复制原先的结果了。这时如果有记录下以往工作的do文件将把你从地狱带到天堂。因为你不必一遍又一遍地试图重现做过的工作。在stata 窗口上部的工具栏中有个孤立的小按钮，把鼠标放上去会出

现“bring do-file editor to front”，点击它就会出现do文件编辑器。为了使do文件能够顺利工作，一般需要编辑do文件的“头”和“尾”。这里给出我使用的“头”和“尾”。capture clear （清空内存中的数据）capture log close （关闭所有打开的日志文件）set more off （关闭more选项。如果打开该选项，那么结果分屏输出，即一次只输出一屏结果。你按空格键后再输出下一屏，直到全部输完。如果关闭则中间不停，一次全部输出。）set matsize 4000 （设置矩阵的最大阶数。我用的是不是太大了？）cd D: （进入数据所在的盘符和文件夹。和dos的命令行很相似。）log using （文件名）.log,replace （打开日志文件，并更新。日志文件将记录下所有文件运行后给出的结果，如果你修改了文件内容，replace选项可以将其更新为最近运行的结果。）use （文件名）,clear （打开数据文件。）（文件内容）log close （关闭日志文件。）exit,clear （退出并清空内存中的数据。）实证工作中往往接触的是原始数据。这些数据没有经过整理，有一些错漏和不统一的地方。比如，对某个变量的缺失观察值，有时会用点，有时会用-9，-99等来表示。回归时如果使用这些观察，往往得出非常错误的结果。还有，在不同的数据文件中，相同变量有时使用的变量名不同，会给合并数

主成分分析在STATA中的实现以及理论介绍

主成分分析在S T A T A中的实现以及理论介绍 Ting Bao was revised on January 6, 20021

第十二章主成分分析主成分分分析也称作主分量分析，是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降维的思想，在损失较少信息的前提下把多个指标转化为较少的综合指标。转化生成的综合指标即称为主成分，其中每个主成分都是原始变量的线性组合，且各个主成分互不相关。Stata 对主成分分析的主要内容包括：主成分估计、主成分分析的恰当性（包括负偏协方差矩阵和负偏相关系数矩阵、KMO(Kaiser-Meyer-Olkin)抽样充分性、复相关系数、共同度等指标测度）、主成分的旋转、预测、各种检验、碎石图、得分图、载荷图等。 p j n i b a y ij j i ij ,,2,1,,2,1,' ==+=ε 主成分的模型表达式为： p p j i i i i diag v v v v i p V V C λλλλλλλ≥≥≥=∧='' ==∧=∑ 2121),,,,(0 1 其中，a 称为得分，b 称为载荷。主成分分析主要的分析方法是对相关系数矩阵（或协方差矩阵）进行特征值分析。 Stata 中可以通过负偏相关系数矩阵、负相关系数平方和KMO 值对主成分分析的恰当性进行分析。负偏相关系数矩阵即变量之间两两偏相关系数的负数。非对角线元素则为负的偏相关系数。如果变量之间存在较强的共性，则偏相关系数比较低。因此，如果矩阵中偏相关系数较高的个数比较多，说明某一些变量与另外一些变量的相关性比较低，主成分模型可能不适用。这时，主成分分析不能得到很好的数据约化效果。 Kaiser-Meyer-Olkin 抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标，是通过比较两个变量的相关系数与偏相关系数得到的。KMO 介于0于1之间。KMO 越高，表明变量的共性越强。如果偏相关系数相对于相关系数比较高，则KMO 比较低，主成分分析不能起到很好的数据约化效果。根据Kaiser （1974），一般的判断标准如下：不能接受（unacceptable ）;非常差（miserable ）；，勉强接受（mediocre ）；可以接受（middling ）；，比较好（meritorious ）；非常好（marvelous ）。 SMC 即一个变量与其他所有变量的复相关系数的平方，也就是复回归方程的可决系数。SMC 比较高表明变量的线性关系越强，共性越强，主成分分析就越合适。成分载荷、KMO 、SMC 等指标都可以通过extat 命令进行分析。多元方差分析是方差分析在多元中的扩展，即模型含有多个响应变量。本章介绍多元（协）方差分析以及霍特林（Hotelling)均值向量T 检验。主成分估计 Stata 可以通过变量进行主成分分析，也可以直接通过相关系数矩阵或协方差矩阵进行。（1）sysuse auto,clear pca trunk weight length headroom pca trunk weight length headroom, comp(2) covariance

Stata实验指导书.doc-武汉理工大学

实验指导书武汉理工大学政治与行政学院 2013年4月

实验一STATA基本介绍实验目的掌握什么是STATA？该软件具有什么功能？熟悉STATA菜单各项的含义，数据输入、存储以及数据运算与处理等。实验内容 1.什么是STATA 2.STATA的菜单 3.数据输入与保存 4、数据文件的合并与汇总 5.数据编辑整理 6.变量重新赋值 7.数据的运算与新变量的生成 8.数据的排序 9.数据分组基本步骤当打开STATA后，展现在我们面前的界面如下：菜单栏共有11个选项，常用的有以下8个选项： 1．文件：文件管理菜单，有关文件的调入、存储、显示和打印等； 2．编辑：编辑菜单，有关文本内容的选择、拷贝、剪贴、寻找和替换等； 3．显示：显示菜单，有关状况栏、工具条、网格线是否显示，以及数据显示的字体类型、大小等设置； 4．数据：数据管理菜单，有关数据变量定义、数据格式选定、观察对象的选择、排序、加权、数据文件的转换、连接、汇总等； 5．转换：数据转换处理菜单，有关数值的计算、重新赋值、缺失值替代等；

6．分析：统计菜单，有关一系列统计方法的应用； 7．图形：作图菜单，有关统计图的制作； 8．使用程序：用户选项菜单，有关命令解释、字体选择、文件信息、定义输出标题、窗口设计等；实验报告自己草拟10名学生的序号、姓名、统计学成绩、管理学成绩、每天学习时间特征资料。（以自己的姓名作为第一号，并以自己的名字设为文件名）要求：（1）添加性别数据特征；粘贴处（2）按统计学成绩由高到低排序；粘贴处

（3）按统计学成绩数量标志进行等距分组，并进行汇总统计。粘贴处（4）计算生成统计学与管理学两科的总成绩与平均成绩两个变量。粘贴处

Stata统计分析命令

Stata统计分析常用命令汇总一、winsorize极端值处理范围：一般在1%和99%分位做极端值处理，对于小于1%的数用1%的值赋值，对于大于99%的数用99%的值赋值。 1、Stata中的单变量极端值处理： stata 11.0，在命令窗口输入“findit winsor”后，系统弹出一个窗口，安装winsor模块安装好模块之后，就可以调用winsor命令，命令格式：winsor var1, gen(new var) p(0.01) 或者在命令窗口中输入：ssc install winsor安装winsor命令。winsor命令不能进行批量处理。 2、批量进行winsorize极端值处理：打开链接：https://www.wendangku.net/doc/c85631514.html,/judson.caskey/data.html，找到winsorizeJ，点击右键，另存为到stata中的ado/plus/目录下即可。命令格式：winsorizeJ var1var2var3,suffix(w)即可，这样会生成三个新变量，var1w var2w var3w，而且默认的是上下1%winsorize。如果要修改分位点，则写成如下格式：winsorizeJ var 1 var2 var3,suffix(w) cuts(5 95)。 3、Excel中的极端值处理：（略） winsor2 命令使用说明简介：winsor2 winsorize or trim (if trim option is specified) the variables in varlist at particular percentiles specified by option cuts(# #). In defult, new variables will be generated with a suffix "_w" or "_tr", which can be changed by specifying suffix() option. The replace option replaces the variables with their winsorized or trimmed ones. 相比于winsor命令的改进： (1) 可以批量处理多个变量； (2) 不仅可以winsor，也可以trimming； (3) 附加了by() 选项，可以分组winsor 或trimming； (4) 增加了replace 选项，可以不必生成新变量，直接替换原变量。范例： *- winsor at (p1 p99), get new variable "wage_w" . sysuse nlsw88, clear . winsor2 wage *- left-trimming at 2th percentile . winsor2 wage, cuts(2 100) trim *- winsor variables by (industry south), overwrite the old variables . winsor2 wage hours, replace by(industry south) 使用方法: 1. 请将winsor 2.ado 和winsor2.sthlp 放置于stata12\ado\base\w 文件夹下； 2. 输入help winsor2 可以查看帮助文件；

主成分分析在STATA中的实现以及理论介绍

主成分分析在S T A T A 中的实现以及理论介绍文件编码（TTU-UITID-GGBKT-POIU-WUUI-0089）

Stata中可以通过负偏相关系数矩阵、负相关系数平方和KMO值对主成分分析的恰当性进行分析。负偏相关系数矩阵即变量之间两两偏相关系数的负数。非对角线元素则为负的偏相关系数。如果变量之间存在较强的共性，则偏相关系数比较低。因此，如果矩阵中偏相关系数较高的个数比较多，说明某一些变量与另外一些变量的相关性比较低，主成分模型可能不适用。这时，主成分分析不能得到很好的数据约化效果。 Kaiser-Meyer-Olkin抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标，是通过比较两个变量的相关系数与偏相关系数得到的。KMO介于0于1之间。KMO越高，表明变量的共性越强。如果偏相关系数相对于相关系数比较高，则KMO比较低，主成分分析不能起到很好的数据约化效果。根据Kaiser（1974），一般的判断标准如下：不能接受（unacceptable）;非常差（miserable）；，勉强接受（mediocre）；可以接受（middling）；，比较好（meritorious）；非常好（marvelous）。 SMC即一个变量与其他所有变量的复相关系数的平方，也就是复回归方程的可决系数。SMC比较高表明变量的线性关系越强，共性越强，主成分分析就越合适。

stata基础命令

display 命令 display “1+1”输出为1+1 display 1+1 输出为2 set mem设置内存 set mem 500m,perm 设置内存为500m set matsize 500 设置matsize为500 query memory 查看内存设置保留和删除变量keep & drop drop crcd repttype 删除crcd repttype keep stkcd stknme nindcd nnindcd 保留stkcd stknme nindcd nindcd （注意命令的大小写） save保存stata格式的数据 save “D:\Teach课件\STATA\data\CG_Co.dta “新建文件名 save “D:\Teach课件\STATA\data\CG_Co.dta ”,replace 重置已有文件 use&insheet using use 打开dta文件，insheet using打开csv文件 gen生成的新的变量 gen tdate=date(accper,"YMD") 产生一个tdate变量用来存放从accper变量中提取的年月日 format tdate %d 设置tdate为整数型变量 gen year=year(tdate) 提取tdate里面的年份存为year变量 gen month=month(tdate) 提取tdate里面的月份存为month变量 if条件句&tab离散变量的频率 keep if month==12 如保留变量month等于12的数据（注意双等号） tab year 画出变量year的离散频率纵向添加数据append use TRD_Year2011.dta,clear 打开2011的数据文件 append using TRD_Year2012.dta 向2011的数据文件中纵向加入2012的数据文件*注意2012内的文件变数量与变数名必须相同，若不同，用keep或drop 保留或删除 merge文件合并 use TRD_Year2011_2012.dta,clear 打开该数据文件 sort stkcd year 排列一下要合并文件内的数据顺序stkcd和year 均为变量名 save TRD_Year2011_2012.dta,replace 排列后重新储存该数据文件

stata命令大全

调整变量格式： format x1 %10.3f ——将x1的列宽固定为10，小数点后取三位 format x1 %10.3g ——将x1的列宽固定为10，有效数字取三位 format x1 %10.3e ——将x1的列宽固定为10，采用科学计数法 format x1 %10.3fc ——将x1的列宽固定为10，小数点后取三位，加入千分位分隔符 format x1 %10.3gc ——将x1的列宽固定为10，有效数字取三位，加入千分位分隔符 format x1 %-10.3gc ——将x1的列宽固定为10，有效数字取三位，加入千分位分隔符，加入“-”表示左对齐合并数据： use "C:\Documents and Settings\xks\桌面\2006.dta", clear merge using "C:\Documents and Settings\xks\桌面\1999.dta" ——将1999和2006的数据按照样本（observation）排列的自然顺序合并起来 use "C:\Documents and Settings\xks\桌面\2006.dta", clear merge id using "C:\Documents and Settings\xks\桌面\1999.dta" ,unique sort ——将1999和2006的数据按照唯一的（unique）变量id来合并，在合并时对id进行排序（sort）建议采用第一种方法。对样本进行随机筛选： sample 50 在观测案例中随机选取50%的样本，其余删除 sample 50,count 在观测案例中随机选取50个样本，其余删除查看与编辑数据： browse x1 x2 if x3>3 （按所列变量与条件打开数据查看器） edit x1 x2 if x3>3 （按所列变量与条件打开数据编辑器）数据合并（merge）与扩展（append） merge表示样本量不变，但增加了一些新变量；append表示样本总量增加了，但变量数目不变。one-to-one merge：数据源自stata tutorial中的exampw1和exampw2 第一步：将exampw1按v001～v003这三个编码排序，并建立临时数据库tempw1 clear use "t:\statatut\exampw1.dta" su ——summarize的简写 sort v001 v002 v003 save tempw1 第二步：对exampw2做同样的处理 clear use "t:\statatut\exampw2.dta" su sort v001 v002 v003 save tempw2 第三步：使用tempw1数据库，将其与tempw2合并： clear use tempw1 merge v001 v002 v003 using tempw2

STATA简介

进入词条搜索词条欧冠首页自然文化人物经济科学体育百科消息：百度百科“知识先锋”计划启动免费试吃百度身边满汉全席你开宴展望“十二五” 看亚运游广州--旅游大拼盘百度百科权威合作

编辑本段级统计部分 ) 都是用 Stata 自己的语言编写的 Stata 其统计分析能力远远超过了 SPSS ，在许多方面也超过了 SAS ！由于 Stata 在分析时是将数据全部读入内存，在计算全部完成后才和磁盘交换数据，因此计算速度极快（一般来说， SAS 的运算速度要比 SPSS 至少快一个数量级，而 Stata 的某些模块和执行同样功能的 SAS 模块比，其速度又比 SAS 快将近一个数量级！） Stata 也是采用命令行方式来操作，但使用上远比 SAS 简单。其生存数据分析、纵向数据（重复测量数据）分析等模块的功能甚至超过了 SAS 。用 Stata 绘制的统计图形相当精美，很有特色。 STATA 的功能列表数据管理 (Data management) 资料转换、分组处理、附加档案、 ODBC 、行 - 列转换、数据标记、字符串函数…等基本统计 (Basic statistics) 直交表、相关性、 t- 检定、变异数相等性检定、比例检定、信赖区间…等线性模式 (Linear models) 稳健 Huber/White/sandwich 变异估计 , 三阶最小平方法、类非相关回归、齐次多项式回归、 GLS 广义型线性模式 (Generalized linear models) 十连结函数、使用者 - 定义连结、 ML 及 IRLS 估计、九变异数估计、七残差…等二元、计数及有限应变量 (Binary, count, and limited dependent variables) 罗吉斯特、 probit 、卜松回归、 tobit 、 truncated 回归、条件罗吉斯特、多项式逻辑、巢状逻辑、负二项、 zero-inflated 模型、 Heckman 选择模式、边际影响 Panel 数据 / 交叉 - 组合时间序列 (Panel data/cross-sectional time-series) 随机及固定影响之回归、 GEE 、随机及固定 - 影响之卜松及负二项分配、随机 - 影响、工具变量回归、 AR(1) 干扰回归无母数方法 (Nonparametric methods) 多变量方法 (Multivariate methods) 因素分析、多变量回归、 anonical 相关系数模型检定及事后估计量支持分析 (Model testing and post-estimation support) Wald 检定、 LR 检定、线性及非线性组合、非线性限制检定、边际影响、修正平均数 Hausman 检定群集分析 (Cluster analysis) 加权平均 , 质量中心及中位数联结、 kmeans 、 kmedians 、 dendrograms 、停止规则、使用者扩充图形 (Graphics) 直线图、散布图、条状图、圆饼图、 hi-lo 图、回归诊断图… 调查方法 (Survey methods) 抽样权重、丛集抽样、分层、线性变异数估计量、拟 - 概似最大估计量、回归、工具变量… 生存分析 (Survival analysis) Kaplan – Meier 、 Nelson – Aalen, 、 Cox 回归 ( 弱性 ) 、参数模式 ( 弱性 ) 、危险比例测试、时间共变项

STATA面板数据模型操作命令

STATA 面板数据模型估计命令一览表一、静态面板数据的STATA 处理命令 εαβit ++=x y it i it 固定效应模型 μβit +=x y it it εαμit +=it it 随机效应模型（一）数据处理输入数据 ●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构 ●summarize sq cpi unem g se5 ln 各变量的描述性统计（统计分析） ●gen lag_y=L.y /////// 产生一个滞后一期的新变量

gen F_y=F.y /////// 产生一个超前项的新变量 gen D_y=D.y /////// 产生一个一阶差分的新变量 gen D2_y=D2.y /////// 产生一个二阶差分的新变量（二）模型的筛选和检验 ●1、检验个体效应（混合效应还是固定效应）（原假设：使用OLS混合模型）●xtreg sq cpi unem g se5 ln,fe 对于固定效应模型而言，回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。在我们这个例子中发现F统计量的概率为0.0000，检验结果表明固定效应模型优于混合OLS模型。 ●2、检验时间效应（混合效应还是随机效应）（检验方法：LM统计量）（原假设：使用OLS混合模型） ●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现) xttest0

可以看出，LM检验得到的P值为0.0000，表明随机效应非常显著。可见，随机效应模型也优于混合OLS模型。 ●3、检验固定效应模型or随机效应模型（检验方法：Hausman检验）原假设：使用随机效应模型（个体效应与解释变量无关）通过上面分析，可以发现当模型加入了个体效应的时候，将显著优于截距项为常数假设条件下的混合OLS模型。但是无法明确区分FE or RE的优劣，这需要进行接下来的检验，如下： Step1：估计固定效应模型，存储估计结果 Step2：估计随机效应模型，存储估计结果 Step3：进行Hausman检验 ●qui xtreg sq cpi unem g se5 ln,fe est store fe qui xtreg sq cpi unem g se5 ln,re est store re hausman fe (或者更优的是hausman fe,sigmamore/ sigmaless) 可以看出，hausman检验的P值为0.0000，拒绝了原假设，认为随机效应模型的基本假设得不到满足。此时，需要采用工具变量法和是使用固定效应模型。