当前位置：文档库 › Probit回归模型

Probit回归模型

Probit模型也是一种广义的线性模型，当因变量为分类变量时，有四种常用的分析模型：

1.线性概率模型(LPM)

2.Logistic模型

3.Probit模型

4.对数线性模型

和Logistic回归一样，Probit回归也分为：二分类Probit回归、有序多分类Probit回归、无序多分类Probit回归。

我们再来回顾一下因变量为分类变量的分析思路，以二分类因变量为例，为例使y的预测值在[0,1]之间，我们构造一个理论模型：

函数F(x,β)被称为“连接函数”，如果连接函数为标准正态分布，则模型称为Probit回归模型，如果连接函数为logistic分布，则模型称为logistic回归模型。

Probit回归也是利用最大似然法进行参数估计，且估计过程和Logistic一样。

Probit回归Logistic回归都属于离散因变量分析模型，二者没有本质区别，通常情况下可以互换使用，而且函数图像几乎重叠，只是反映的意义不同。然而Logistic回归的应用比Probit回归广泛得多，这主要是因为Logistic回归的偏回归系数解释起来更加直观和易于理解——Probit回归的偏回归系数含义为其他自变量保持不变的时该自变量每增加一个单位，出现某个结果的概率密度函数的改变值，这很难以理解。

那么什么情况下可以使用Probit回归代替Logistic回归呢？可从以下两个方面考虑

1.自变量中连续型变量较多

2.残差符合正态分布

除此之外，使用Logistic回归即可

生存分析-随机森林实验与代码

随机森林模型在生存分析中的应用【摘要】目的：本文探讨随机森林方法用于高维度、强相关、小样本的生存资料分析时，可以起到变量筛选的作用。方法：以乳腺癌数据集构建乳腺癌转移风险评估模型为实例进行实证分析，使用随机森林模型进行变量选择，然后拟合cox 回归模型。结果：随机森林模型通过对变量的选择，有效的解决数据维度高且强相关的情况，得到了较高的 AUC 值。一、数据说明该乳腺癌数据集来自于NCBI ,有77个观测值以及22286个基因变量。通过筛选选取454个基因变量。将数据随机分为训练集合测试集，其中2/3为训练集, 1/3为测试集。绘制K-M 曲线图：二、随机森林模型随机森林由许多的决策树组成，因为这些决策树的形成采用了随机的方法，因此也叫做随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随机森林时，其实就是让每一颗决策树进行分类，最后取所有决策树中分类结果最多的那类为最终的结果。因此随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定使用randomForestSRC 包得到的随机森林模型具有以下性质： Kaplan-Meker estlmaie wHh 95% conndence bounds S ?2 S

Number of deaths: 27 Number of trees: 800 Mini mum term inal node size: 3 Average no. of term inal no des: 14.4275 No. of variables tried at each split: 3 Total no. of variables: 452 Analysis: RSF Family: surv Splitting rule: logrank Error rate: 19.87% 发现直接使用随机森林得到的模型，预测误差很大，达到了19.8%进一步考虑使用随机森林模型进行变量选择，结果如下： > our.rf$rfsrc.refit.obj Sample size: 52 Number of deaths: 19 Number of trees: 500 Minimum terminal node size: 2 Average no. of term inal no des: 11.554 No. of variables tried at each split: 3 Total no. of variables: 9 Analysis: RSF Family: surv Splitting rule: logrank *random* Number of random split points: 10 Error rate: 11.4% > our.rf$topvars [1] "213821_s_at" "219778_at" "204690_at" "220788_s_at" "202202_s_at" [6] "211603_s_at" "213055_at" "219336_s_at" "37892_at" 一共选取了9个变量，同时误差只有11.4% 接下来，使用这些变量做cox回归，剔除模型中不显著(>0.01 )的变量，最终参与模型建立的变量共有4个。模型结果如下： exp(coef) exp(-coef) lower .95 upper .95 '218150_at' 1.6541 0.6046 0.11086 24.6800 '200914_x_at' 0.9915 1.0086 0.34094 2.8833 '220788_s_at' 0.2649 3.7750 0.05944 1.1805 '201398_s_at' 1.7457 0.5729 0.33109 9.2038 '201719 s at' 2.4708 0.4047 0.93808 6.5081

第八章统计回归模型

第八章统计回归模型回归分析是研究一个变量Y 与其它若干变量X 之间相关关系的一种数学工具.它是在一组试验或观测数据的基础上，寻找被随机性掩盖了的变量之间的依存关系.粗略的讲，可以理解为用一种确定的函数关系去近似代替比较复杂的相关关系.这个函数称为回归函数. 回归分析所研究的主要问题是如何利用变量X 、Y 的观察值(样本)，对回归函数进行统计推断，包括对它进行估计及检验与它有关的假设等. 回归分析包含的内容广泛.此处将讨论多项式回归、多元线性回归、非线性回归以及逐步回归. 一、多项式回归 (1) 一元多项式回归一元多项式回归模型的一般形式为εβββ++++=m m x x y ...10. 如果从数据的散点图上发现y 与x 呈现较明显的二次(或高次)函数关系，则可以选用一元多项式回归. 1. 用函数polyfit 估计模型参数，其具体调用格式如下： p=polyfit(x,y,m) p 返回多项式系数的估计值；m 设定多项式的最高次数；x ，y 为对应数据点值. [p,S]=polyfit(x,y,m) S 是一个矩阵，用来估计预测误差. 2. 输出预估值与残差的计算用函数polyval 实现，其具体调用格式如下： Y=polyval(p,X) 求polyfit 所得的回归多项式在X 处的预测值Y . [Y ,DELTA]=polyval(p,X,S) p ，S 为polyfit 的输出，DELTA 为误差估计.在线性回归模型中，Y ±DELTA 以50%的概率包含函数在X 处的真值. 3. 模型预测的置信区间用polyconf 实现，其具体调用格式如下： [Y ,DELTA]=polyconf(p,X,S,alpha) 求polyfit 所得的回归多项式在X 处的预测值Y 及预测值的显著性为1-alpha 的置信区间Y±DELTA ，alpha 缺省时为0.05. 4. 交互式画图工具polytool ，其具体调用格式如下： polytool(x,y,m)； polytool(x,y,m,alpha)；用m 次多项式拟合x ，y 的值，默认值为1，alpha 为显著性水平，默认值为0.05. 例1 观测物体降落的距离s 与时间t 的关系，得到数据如下表，求s . 解根据数据的散点图，应拟合为一条二次曲线.选用二次模型，具体代码如下： %%%输入数据

随机森林与逻辑回归模型在违约预测中的应用

2016年第21期信息与电脑 China Computer&Communication 计算机工程应用技术随机森林与逻辑回归模型在违约预测中的应用刘开元（广州大学计算机科学与教育软件学院，广东广州 510006）摘　要：近几年来随着国家经济以及汽车消费信贷市场的发展，贷款违约问题逐渐成为各家信贷机构关注的焦点。目前，汽车信贷违约预测的方法还不够完善，为了建立起一套行之有效的模型，笔者通过将随机森林组合算法与逻辑回归相结合，对某商业银行的汽车信贷数据进行分析，构建了一个易于解释且实用的违约判别模型。关键词：随机森林；逻辑回归；违约预测；汽车贷款中图分类号：P642.22 文献标识码：A 文章编号：1003-9767（2016）21-111-02 １　引言 21世纪初，车辆信贷市场在国内打开，许多银行预感汽车信贷的获利机遇，纷纷开始进入车贷市场。在接下来的几年里，车辆信贷业务发展迅猛，仅仅两年多的时间里，银行车辆信贷业务增加了数倍，据统计，仅2003年车贷额就增加30亿左右，平均每月增加2亿至3亿，最多的月增加达到6亿多。2003年底，上海一个市的银行发放汽车贷款超过80亿。然而在车贷市场迅猛发展的同时，车贷违约问题逐渐暴露出来，因为车贷风险要比房贷来得快而高，车贷风险释放使银行违约率上升的同时，车贷坏账最终的受害者也是银行本身。为了降低坏账率，构建一个适用的违约判别模型就成为了各家信贷机构关注的重大点。本文在传统决策树模型的基础上引入随机森林组合算法，使得模型在易于解释的同时能得到更好的预测结果。２　随机森林与逻辑回归组合模型 2.1　决策树与随机森林决策树是一个贪婪算法，它代表的是对象属性与对象值之间的一种映射关系。决策树通过熵增益率或Gini 系数下降幅度对对象属性进行分组判断，理想的分组应尽量使两组输出变量值的Gini 系数下降幅度或熵增益率最大。 Gini 系数表达式为：2 1i Gini p =?∑。信息熵表达式为：2log ()i i info p p =∑。其中为样本类别在当前分类样本下出现的频率。随机森林最早起源于贝尔实验室Tin Kam Ho 提出的随即决策森林（Random Decision Forests ）算法，后由Leo Breiman 和Adele Cutler 提出。随机森林实际上由许多决策树组成，最后分类结果取决于各个决策树分类器的简单多数选举。随机森林是一个由一组决策树分类器(h (X ,f k (θ)),k =1~K )组成的分类器集合，其中为输入向量集， f (x )表示单个决策树，θk 是服从独立同分布的输入向量集的子集，K 表示随机森林中决策树的个数，在给定自变量X 的情况下，每个决策树通过投标来决定最优的分类结果。随机森林算法构造如下：（1）对给定的训练样本，随即可重复取样，形成新的子样本数据；（2）对新的子样本数据中的M 个特征变量随机抽取m (m ＜M )个特征，构造完整的决策树；（3）重复前两个步骤得到K 个决策树，形成随机森林；（4）每个决策树投票，选出最优的分类。随机森林模型如图1 所示。图１　随机森林模型 2.2　逻辑回归逻辑回归是一种广义线性回归（Generalized Linear Model ），因此与多元线性回归分析有很多相同之处。它们的模型形式基本上相同，都具有βx+β0，其中β为权重，β0为阈值，区别在于它们的因变量不同，多元线性回归直接将βx+β0作为因变量，即y =βx+β0，而逻辑回归则通过逻辑函数对表达式进行logit 变换，然后根据阈值设定大小决定因变量的值。逻辑回归算法构造如下。（1）对给定的训练样本X 进行多元线性回归得到逻辑回归的输入向量h (x )： 011() i n n h x βββ=+x +...+x （2）对h (x )进行logit 变换，得到预测向量集P ： () 1 1i i h x p e ?= +作者简介：刘开元（1991-），男，安徽宣城人，研究生。研究方向：数据挖掘与算法。 — １１１ —

实验报告及分析_R中bagging回归与随机森林以及boosting回归

一、R中boosting回归这个主要用R中的mboost包中的mboost函数来实现。但是作为铺助，还要加载party包。函数如下 mboost(formula, data = list(),baselearner = c("bbs", "bols", "btree", "bss", "bns"), ...) 其中的参数需要注意formula的输入格式。至于data也可以是数据框。我们用决策树的boosting方法。要注意查看formula的输入格式，参见下面的具体例子。一个具体的例子我们使用我的电脑上自带的数据，即E:\Documents\R中的mg文本文件中的数据。该数据无任何说明，知道它是由6个自变量和一个因变量构成。试验如下。 > library(party) > library(mboost) > w<-read.table('mg.txt',header=T) >B1<-mboost(y~btree(x1)+btree(x2)+btree(x3)+btree(x4)+btree(x5)+btre e(x6),data=w[-1,]) #构建分类器，用除掉第一个样本的数据做训练数据。>y0<-predict(B1,w[1,]) #用第一个样本作测试。二、bagging回归

与boosting回归想法类似，bagging回归的做法就是不断放回地对训练样本进行再抽样，对每个自助样本都建立一棵回归树，对于每一个观测，每棵树给一个预测，最后将其平均。使用到的函数包为ipred，使用函数为bagging（），用法如下：bagging(formula, data, subset, na.action=na.rpart, ...) 主要参数介绍： formula：回归方程形式 data：数据集（数据框） control：对树枝的控制，使用函数rpart.control（），可以控制诸如cp值，xval等参量。（注意必须加载过rpart包，才能找到rpart.control 函数）下面是用bagging对iris数据进行测试的例子。 > data(iris) > ir<-iris > set.seed(124) > count.test<-round(runif(50,1,150)) > test<-ir[count.test,] > library(ipred) > reg<-bagging(Species~.,data=ir)

Eviews之变系数回归模型

EVIEWS 之变系数回归模型 1 变系数回归模型前面讨论的是变截距模型，并假定不同个体的解释变量的系数是相同的，然而在现实中变化的经济结构或者不同的经济背景等不可观测的反映个体差异的因素会导致经济结构的参数随着横截面个体的变化而变化，即解释变量对被解释变量的影响要随着截面的变化而变化。这时要考虑系数随着横截面个体的变化而变化的变系数模型。 1.变系数回归模型原理变系数模型一般形式如下： ,1,2,,,1,2,,it i it i it y x u i N t T αβ=++==（1）其中：it y 为因变量，it x 为1k ?维解释变量向量，N 为截面成员个数，T 为每个截面成员的观测时期总数。参数i α表示模型的常数项，i β为对应于解释变量的系数向量。随机误差项it u 相互独立，且满足零均值、等方差的假设。在式子（1）中所表示的变系数模型中，常数项和系数向量都是随着截面个体变化而变化，因此将该模型改写为： it it i it y x u λ=+ （2）其中：1(1)(1,)it it k x x ?+=，'(,)i i i λαβ= 模型的矩阵形式为： u X Y +?= （3）其中：11N NT y Y y ?????=??????；121i i i iT T y y y y ???????=??????；????????????=N X X X X 00000021；1121112 22212i i ki i i ki i iT iT kiT T k x x x x x x x x x x ???????=??????，12(1)1N N k λλλ+????????=??????，11N NT u u u ?????=??????，121i i i iT T u u u u ???????=??????

随机森林

随机森林为了克服决策树容易过度拟合的缺点，Breiman（2001）提出了一种新的组合分类器算法——随机森林算法（Random Forests , RF）。他把分类决策树组合成随即森林，即在变量（列）的使用和数据（行）的使用上进行随机化，生成很多分类树，再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度，对多元共线性不敏感，可以很好地预测多达几千个解释变量的作用，被称为当前最好的算法之一。基本原理 1.随机森林的定义随机森林是一个由决策树分类器集合{} θ构成的组合分类器模 x ,2,1 k h (= ), , k 型，其中参数集{} θ是独立同分布的随机向量，x是输入向量。当给定输入向量 k 时每个决策树有一票投票权来选择最优分类结果。每一个决策树是由分类回归树（CART）算法构建的未剪枝的决策树。因此与CART相对应，随机森林也分为随机分类森林和随机回归森林。目前，随机分类森林的应用较为普遍，它的最终结果是单棵树分类结果的简单多数投票。而随机回归森林的最终结果是单棵树输出结果的简单平均。 2.随机森林的基本思想随机森林是通过自助法（Bootstrap）重复采样技术，从原始训练样本集N 中有放回地重复随机抽取k个样本生成新的训练集样本集合，然后根据自助样本生成k决策树组成的随机森林。其实质是对决策树算法的一种改进，将多个决策树合并在一起，每棵树的建立依赖一个独立抽取的样本，森林中的每棵树具有相同的分布，分类误差取决于每一棵树的分类能力和它之间的相关性。 3.随机森林的生成过程根据随机森林的原理和基本思想，随机森林的生成主要包括以下三个步骤：首先，通过Bootstrap方法在原始样本集S中抽取k个训练样本集，一般情况下每个训练集的样本容量与S一致；其次，对k个训练集进行学习，以此生成k个决策树模型。在决策树生成过