当前位置：文档库 › 基于支持向量机对测井曲线的函数估计方法

基于支持向量机对测井曲线的函数估计方法

杨斌路游

中国石油大学(北京)计算机科学与技术系 (102249）

E-mail: ybcup@https://www.wendangku.net/doc/7515769528.html,

摘要：基于支持向量机解决非线性问题是一种有效的方法。利用支持向量机的回归方法，建立声波测井曲线的数学模型，从而实现测井曲线的估计。经过某地区的实际资料验证，达到了预期的效果。

关键词：支持向量机测井曲线估计

1.引言

传统的测井曲线的估计方法是利用已知井段的训练样本集，通过神经网络反复学习建立与声波

]1[

时差的非线性映射关系。V. N. Vaplik等人提出的统计学习理论是一种专门的小样本理论，它避免了人工神经网络等方法的网络结构难以确定、过学习和欠学习以及局部极小等问题，被认为是目前针对小样本的分类、回归等问题的最佳理论。这一方法数学推导严密，理论基础坚实。基于这一理论近年提出的支持向量机方法，为解决非线性问题提供了一个新思路。

]2[

声波测井因其纵向的高分辨率常被当着地层对比、地震反演的桥梁。然而当钻井深度不够，而又需要事先预测未钻达地层的孔隙压力、岩石力学性能等信息时，反过来用地震信息来对测井曲线的估计是一件有意义的事情。

本文在声波测井的研究中引入基于统计学习理论的支持向量机，对测井数据和地震数据的分析，建立了一种新的测井曲线的估计方法。

2.支持向量机的模型

]3[

支持向量机是通过控制学习机器的容量实现对推广能力的控制。而支持向量机是基于统计学习理论发展起来的一种新的通用学习机器，较以往的方法表现很多理论和实践的优势，其中最突出的一个优点是支持向量机不存在“过拟合”问题。其基本思想是定义最优线性超平面，并把寻找最优线性超平面的算法归结为求解一个凸规划问题。进而基于Mercer核展开定理，通过非线性映射Φ，把样本空间映射到一个高维乃至于无穷维的特征空间（Hilbert空间），如图1所示，使在特征空间中可以应用线性化学习机的方法解决样本空间中的高度非线性分类和回归问题。简单地说就是升维和线性化。所谓最优超平面，就是这样的超平面，它不但能够将所有训练样本正确分类，而且使训练样本中离超平面最近的点到超平面的距离（定义为间隔）最大，通过使间隔最大化来控制分类机的复杂度，进而实现较好的推广能力。

-1-

支持向量机方法，又称为核方法，可以很好地应用于回归问题中，回归分析又称函数估计，它要解决的问题是：根据给定的样本数据集]64[?}L ,,1i |)y ,x {(i i K =，其中为预报因子值，为预报对象值，寻求一个反映样本数据的最优函数关系

i x i y )),,(;(1l x x x f y L α=。这里的最优是指结构风险误差最小的原则。

对于我们的问题，首先引入核函数实现非线性回归。即，将样本空间中的点和用映射的象和代替，再应用x i x )x (Φ)x (i Φ))x ()x (()x ,x (K i i Φ?Φ=得到：

∑+α?α=+Φ?=?

V .S i i i b )x ,x (K )(b ))x (w ()x (f

如果使支持向量的系数带上符号，上式变成：

∑+β=.

V .S i i b )x ,x (K )x (f

这就是基于核方法的非线性函数估计方法的最终表达式，根据此式可以做高度非线性问题的推理预报。其中为支持向量，x 为输入向量，为输出值，为核函数，,分别为求得的支持向量系数和阈值。

i x )x (f )x ,x (K i i βb 3.支持向量机对测井曲线的函数估计

3.1 数据处理

这里有两个主要目的：首先，石油的测井数据和地震数据没有一种十分规范的格式，里面还有很多参数是不可用的。这样就要求我们人工的审查这些数据，剔除那些无法参加运算的属性数据。并且根据石油行业的基础背景情况，选择有代表性的属性来构成样本的维数。另一个目的是，为了避免由于各决策参数因量纲差异造成数值误差很大而给决策结果带来的负面影响，因此，必须对决-2-

策参数进行标准化处理。常用的数据标准化处理采用归一化方法，计算公式为:

,将决策参数或者预测参数数据统一刻度在（0，1）之间。

3.2支持向量机的学习训练

用150个样本作为训练集，用12个样本作为检验样本集，用支持向量机进行学习训练和验证。首先进行核函数的选取，通过对B样条（bspline）核函数、径向基（RBF）核函数、样条(spline)核函数的比较分析，发现样条(spline)核函数比较适合测井曲线的函数估计问题。

3.3结果分析

通过对某地区几口井的实际资料的估计取得了预期的效果。图2是该区X2口井的测井曲线的函数估计图，横轴和纵轴分别代表归一化后的井的深度和声波时差，‘*’代表不同深度对应的实测声波时差值，曲线是对不同深度对应的声波时差值的估计，从图中可以看出估计值与实测值吻合得很好，推广能力的界为0.0146。另外还在该区作了X1,X3,X4,X7等多口井的估计，均获得较好的估计效果。

图2

4.结束语

支持向量机在石油测井曲线的估计问题中的使用能够获得预期的效果，具有较强的泛化能力，具有适应性强，效率高的特点。在小样本的情况下也能够保持较稳定的准确率。

致谢

作者感谢石油测井专家李洪奇教授给予的指导和有益的建议。

-3-

参考文献

[1]Vapnik V N统计学习理论的本质（第二版），（张学工译）.北京：清华大学出版社，2000.

[2]郭齐军.测井声波时差在地层压力预测中的应用.中国海上油气（地质），1997，11（1）.

[3]Vapnik V N统计学习理论,(许建华张学工译).北京：电子工业出版社，2004.

[4]陈永义，冯汉中处理非线性分类和回归问题的一种新方法—支持向量机，应用气象学报，2004，

Vol.2.

[5] Vapnik V N, Golowichs, SmolaA, Support Vector Method for function approximation,

Regression estimation,and Signal Processing.In:Mozerm,JordanM,PetscheT (eds).

Neural Information Processing Systems, MIT Press, 1997,9

[6] Drucker H, Burges C, and Kanfman Letal.Support Vector Regression Machines.In: Mozer M, Jordan M,

Petsche T (eds). Neural Information Processing Systems, MIT Press, 1997,9

Function Estimation Method Of Log Curve Based On Support

Vector Machine

Bin YANG You LU

Department of Computer Science and Technology, University of Petroleum China, Beijing,102249

Abstract

Support Vector Machine (SVM) is an effective method for solving nonlinear problem. Constructing mathematic model of sonic log curve by using Support Vector Regression Method, consequently, realizing estimation of log curve. Their expected effects were proved through the real data in the some area. Keywords: support vector machine, estimation of log curve

作者简介: 杨斌，男，硕士研究生，研究方向为计算智能；

路游，男，博士，副教授，研究方向为计算智能。

-4-

支持向量机分类器

支持向量机分类器 1 支持向量机的提出与发展支持向量机( SVM, support vector machine )是数据挖掘中的一项新技术，是借助于最优化方法来解决机器学习问题的新工具，最初由V.Vapnik 等人在1995年首先提出，近几年来在其理论研究和算法实现等方面都取得了很大的进展，开始成为克服“维数灾难”和过学习等困难的强有力的手段，它的理论基础和实现途径的基本框架都已形成。根据Vapnik & Chervonenkis的统计学习理论 ,如果数据服从某个(固定但未知的)分布,要使机器的实际输出与理想输出之间的偏差尽可能小,则机器应当遵循结构风险最小化 ( SRM,structural risk minimization)原则,而不是经验风险最小化原则,通俗地说就是应当使错误概率的上界最小化。SVM正是这一理论的具体实现。与传统的人工神经网络相比, 它不仅结构简单,而且泛化( generalization)能力明显提高。 2 问题描述 2.1问题引入假设有分布在Rd空间中的数据，我们希望能够在该空间上找出一个超平面(Hyper-pan),将这一数据分成两类。属于这一类的数据均在超平面的同侧，而属于另一类的数据均在超平面的另一侧。如下图。比较上图，我们可以发现左图所找出的超平面（虚线），其两平行且与两类数据相切的超平面（实线）之间的距离较近，而右图则具有较大的间隔。而由于我们希望可以找出将两类数据分得较开的超平面，因此右图所找出的是比较好的超平面。可以将问题简述如下：设训练的样本输入为xi，i=1，…，l，对应的期望输出为yi∈{+1，-1}，其中+1和-1分别代表两类的类别标识，假定分类面方程为ω﹒x+b=0。为使分类面对所有样本正确分类并且具备分类间隔，就要求它满足以下约束条件：它追求的不仅仅是得到一个能将两类样本分开的分类面，而是要得到一个最优的分类面。 2.2 问题的数学抽象将上述问题抽象为：根据给定的训练集

利用常规测井方法识别划分水淹层

2003年11月第18卷第6期西安石油学院学报(自然科学版) Jo urnal of Xi ′an Petr oleum Inst itute(N at ur al Science Edition) N o v.2003 V ol.18N o.6 收稿日期:2003-03-03 作者简介:宋子齐(1944-),男,重庆市人,教授,主要从事测井解释、储集层、油藏方面的研究. 文章编号:1001-5361(2003)06-0050-04 利用常规测井方法识别划分水淹层 Recognizing watered -out zones by using traditional well logs 宋子齐,赵磊,王瑞飞,康立明,陈荣环,白振强 (西安石油大学石油工程学院,陕西西安　710065) 摘要:根据测井曲线的水淹特征,分别对砂泥岩剖面和下套管的老井水淹层段进行分析,阐述了自然电位、电阻率、双频介电测井、人工激发极化电位、声波时差、中子伽马、自然伽马、热中子寿命及碳氧比等测井曲线识别划分水淹层的方法、技术及特点,指出提高水淹层测井解释方法实用效果的进一步实验研究工作. 关键词:水淹层;识别;测井方法;测井解释中图分类号:P 631.8+11;T E 15 文献标识码:A 目前,我国各大油田相继进入勘探开发后期,水驱油田的测井解释作为石油开发中的重要环节就显得愈来愈重要.然而,由于国内各大油田的地质特点、水驱开发及资源条件不同,尚没有一种通用的水淹层测井解释方法. 国外在解决这些问题时,常利用某些测井新技术以确定地层水真电阻率及地层含水饱和度.由于我国测井仪器的局限,在工作中很难套用国外的方法. 为此,从水淹层的特征研究入手,针对砂泥岩剖面的特点,对不同类型井段,根据单一测井曲线的水淹层特性以及多种测井曲线水淹特征的组合,分析并阐述水淹层段识别划分的方法. 1　砂泥岩剖面水淹层段的划分为了强化开采,在边外或边内注入淡水,使得评价储层的含油饱和度更加复杂.划分淡水淹层虽然困难,但在较好的地层条件下,仍可用自然电位曲线、地层自然电流曲线、电阻率曲线、介电测井曲线、人工电位曲线等把水淹层识别划分出来.1.1　自然电位基线偏移由于油层内部的非均质性影响,大多数水淹层都具有局部水淹的特点,被水淹的局部部位就引起自然电位曲线基线偏移.基线偏移的主要原因在于油层被淡水水淹以后,原始地层水矿化度局部受到淡化. 假设砂岩下部已被水淹,地层水的矿化度由水淹前C w 2变为水淹后C w3,围岩的地层水矿化度为C w 1.若C mf

九种常规曲线测井方法(苍松参考)

常规测井曲线方法及应用项目符号单位测量的物理量理论基础分辨率主要应用影响因素影响结果表现井径测井CAL In/ cm 测量井眼直径的变化机械式直接测量井径的大小 ①辅助区分岩性 ②井眼形状 ③计算固井水泥用量 ④其他曲线的环境校正参考 ⑤检查套管变形和破裂情况 ①岩性 ②裂缝 ①泥岩段或裂缝发育段易发生扩径。自然伽马测井GR API 或μ R/h ①地层中天然GR 射线放射性强度 ②计数率（地面仪器接收到的每分钟形成的电脉冲数） ①岩石具有自然放射性 ②不同地层具有不同的自然放射性垂向： 12~16 In 径向： 4~6 in (1 in = 0.0254 m ) ①区分岩性 ②进行地层对比 ③估算泥质含量 ④判断放射性矿物 ⑤划分储集层 ①υτ影响（υ为测井速度，τ为时间常数） ②放射性涨落的影响 ③层厚对曲线幅度的影响 ④井的参数（井径、泥浆比重，套管，水泥环等） ①表现在GRmax下降，且 GRmax的位置不在地层中心，而向上移动 ②GR曲线上具有许多“小锯齿”独特形态 ③厚度小于3倍井径时，地层变薄，泥岩的GR曲线值会下降，砂岩层的GR的曲线值则会上升 ④泥浆、套管、水泥环吸收 GR射线，使得GR值降低自然电位测井SP mv ①钻开岩层时井壁附近产生的电化学活动而形成的自然电场。 ②电极和地面参考电极间的电位 ①井壁附近两种不同矿化度的溶液（泥浆和地层水）接触产生电动势垂向： 6~10 in ①划分渗透层 ②估计泥质含量 ③确定地层水电阻率Rw ④判断水淹层 ⑤判断岩性 ⑥地层对比与沉积相研究 ①地层水和泥浆滤液中含盐度比值 Cw/Cmf ②岩性 ③温度 ④地层水和泥浆滤液含盐性质 ⑤地层电阻率 ⑥地层厚度 ⑦井径 ⑧泥浆侵入 ①Cw>Cmf 砂岩层SP负异常；Cw

支持向量机数据分类预测

支持向量机数据分类预测一、题目——意大利葡萄酒种类识别 Wine数据来源为UCI数据库，记录同一区域三种品种葡萄酒的化学成分，数据有178个样本，每个样本含有13个特征分量。50%做为训练集，50%做为测试集。二、模型建立模型的建立首先需要从原始数据里把训练集和测试集提取出来，然后进行一定的预处理，必要时进行特征提取，之后用训练集对SVM进行训练，再用得到的模型来预测试集的分类。三、Matlab实现 3.1 选定训练集和测试集在178个样本集中，将每个类分成两组，重新组合数据，一部分作为训练集，一部分作为测试集。 % 载入测试数据wine,其中包含的数据为classnumber = 3,wine:178*13的矩阵,wine_labes:178*1的列向量 load chapter12_wine.mat; % 选定训练集和测试集 % 将第一类的1-30,第二类的60-95,第三类的131-153做为训练集 train_wine = [wine(1:30,:);wine(60:95,:);wine(131:153,:)]; % 相应的训练集的标签也要分离出来 train_wine_labels = [wine_labels(1:30);wine_labels(60:95);wine_labels(131:153)]; % 将第一类的31-59,第二类的96-130,第三类的154-178做为测试集 test_wine = [wine(31:59,:);wine(96:130,:);wine(154:178,:)]; % 相应的测试集的标签也要分离出来 test_wine_labels = [wine_labels(31:59);wine_labels(96:130);wine_labels(154:178)]; 3.2数据预处理对数据进行归一化： %% 数据预处理 % 数据预处理,将训练集和测试集归一化到[0,1]区间 [mtrain,ntrain] = size(train_wine); [mtest,ntest] = size(test_wine); dataset = [train_wine;test_wine]; % mapminmax为MATLAB自带的归一化函数 [dataset_scale,ps] = mapminmax(dataset',0,1); dataset_scale = dataset_scale';

测井曲线的识别及应用

第一讲测井曲线的识别及应用钻井取芯、岩屑录井、地球物理测井是目前比较普及的三种认识了解地层的方法。钻井获取的岩芯资料直观、准确，但成本高、效率低。岩屑录井简便、及时，但干扰因素多，深度有误差，岩屑易失真。测井是一种间接的录井手段，它是应用地球物理方法，连续地测定岩石的物理参数，以不同的岩石存在着一定物性差别，在测井曲线上有不同的变化特征为基础，利用各种测井曲线显示的特征、变化规律来划分钻井地质剖面、认识研究储层的一种录井方法；具有经济实用、收获率高、易保存的优势，是目前我们认识地层的主要途径。鄂尔多斯盆地常规测井系列分为综合测井和标准测井两种。综合测井系列：重点反映目的层段钻井剖面的地层特征。测量井段由井底到直罗组底部，比例尺1：200。由感应、八侧向、四米电阻、微电极、声速、井径、自然电位、自然咖玛八种测井方法组成。探井、评价井为了提高储层物性解释精度，加测密度和补偿中子两条曲线。标准测井系列：全面反映钻井剖面地层特征，测量井段由井底到井口（黄土层底部），比例尺1：500，多用于盆地宏观地质研究。过去标准测井系列较单一，仅有视电阻率、自然咖玛测井等两三条曲线。近几年完钻井的标准测井系列曲线较完善，只比综合测井系列少了微电极测井一项。一、测井曲线的识别微电极系测井、四米电阻测井、感应—八侧向测井、都是以测定岩石的电阻率为物理前提，但曲线的指向意义各异。微电极常用于判断砂岩渗透性和薄层划分。感应—八侧向测井用于判定砂岩的含油水层性能。四米电阻、声速、井径、自然电位、自然咖玛用于砂泥岩性划分。它们各有特定含义，又互相印证，互为补充，所以，我们使用时必须综合考虑。 1、微电极测井大家知道，油井完钻后由井眼向外围依次是：泥饼、冲洗带、侵入带、地层。泥饼是泥浆中的水分进入地层后，吸附、残留在砂岩壁上的泥浆颗粒物。冲洗带是紧靠井壁附近，地层中的流体几乎被钻井液全部赶走了的部分；其深入地层的范围一般约7—8厘米。侵入带是钻井液与地层中流体的混合部分。

用于分类的支持向量机

文章编号:100228743(2004)0320075204 用于分类的支持向量机黄发良,钟　智Ξ (1.广西师范大学计算机系,广西桂林541000; 　2.广西师范学院数学与计算机科学系,广西南宁530001) 摘　要:支持向量机是20世纪90年代中期发展起来的机器学习技术,建立在结构风险最小化原理之上的支持向量机以其独有的优点吸引着广大研究者,该文着重于用于分类的支持向量机,对其基本原理与主要的训练算法进行介绍,并对其用途作了一定的探索. 关键词:支持向量机;机器学习;分类中图分类号:TP181　文献标识码:A 支持向量机S VM (Support Vector Machine )是AT&T Bell 实验室的V.Vapnik 提出的针对分类和回归问题的统计学习理论.由于S VM 方法具有许多引人注目的优点和有前途的实验性能,越来越受重视,该技术已成为机器学习研究领域中的热点,并取得很理想的效果,如人脸识别、手写体数字识别和网页分类等. S VM 的主要思想可以概括为两点:(1)它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;(2)它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界. 1　基本原理支持向量机理论最初来源于数据分类问题的处理,S VM 就是要寻找一个满足要求的分割平面,使训练集中的点距离该平面尽可能地远,即寻求一个分割平面使其两侧的margin 尽可能最大. 设输入模式集合{x i }∈R n 由两类点组成,如果x i 属于第1类,则y i =1,如果x i 属于第2类,则y i =-1,那么有训练样本集合{x i ,y i },i =1,2,3,…,n ,支持向量机的目标就是要根据结构风险最小化原理,构造一个目标函数将两类模式尽可能地区分开来,通常分为两类情况来讨论,(1)线性可分,(2)线性不可分. 1.1　线性可分情况在线性可分的情况下,就会存在一个超平面使得训练样本完全分开,该超平面可描述为: w ?x +b =0(1) 其中,“?”是点积,w 是n 维向量,b 为偏移量. 最优超平面是使得每一类数据与超平面距离最近的向量与超平面之间的距离最大的这样的平面.最优超平面可以通过解下面的二次优化问题来获得: min <(w )= 12‖w ‖2(2) Ξ收稿日期:2004202206作者简介:黄发良(1975-),男,湖南永州人,硕士研究生;研究方向:数据挖掘、web 信息检索. 2004年9月广西师范学院学报(自然科学版)Sep.2004 第21卷第3期 Journal of G u angxi T eachers Education U niversity(N atural Science Edition) V ol.21N o.3

基于支持向量机的分类方法

基于支持向量机的分类方法摘要：本文首先概述了支持向量机的相关理论，引出了支持向量机的基本模型。当训练集的两类样本点集重合区域很大时，线性支持向量分类机就不适用了，由此介绍了核函数相关概念。然后进行了核函数的实验仿真，并将支持向量机应用于实例肿瘤诊断，建立了相应的支持向量机模型，从而对测试集进行分类。最后提出了一种支持向量机的改进算法，即根据类向心度对复杂的训练样本进行预删减。 1、支持向量机给定训练样本集1122{[,],[,], ,[,]}()l l l T a y a y a y Y =∈Ω?L ，其中n i a R ∈Ω=，Ω是输入空间，每一个点i a 由n 个属性特征组成，{1,1},1,,i y Y i l ∈=-=L 。分类就是在基于训练集在样本空间中找到一个划分超平面，将不同的类别分开，划分超平面可通过线性方程来描述： 0T a b ω+= 其中12(;;;)d ωωωω=K 是法向量，决定了超平面的方向，b 是位移项，决定了超平面与原点之间的距离。样本空间中任意点到超平面的距离为|| |||| T a b r ωω+=。支持向量、间隔：假设超平面能将训练样本正确分类，即对于[,]i i a y T ∈，若1i y =+，则有 0T i a b ω+>，若1i y =-，则有0T i a b ω+<。则有距离超平面最近的几个训练样本点使得 11 11 T i i T i i a b y a b y ωω?+≥+=+?+≤-=-? 中的等号成立，这几个训练样本点被称为支持向量；两个异类支持向量到超平面的距离之和2 |||| r ω=被称为间隔。支持向量机基本模型：找到具有最大间隔的划分超平面，即 ,2max ||||..()1,1,2,...,b T i i s t y a b i m ωωω+≥= 这等价于 2 ,||||min 2..()1,1,2,...,b T i i s t y a b i m ωωω+≥= 这就是支持向量机（SVM ）的基本模型。支持向量机问题的特点是目标函数2 ||||2 ω是ω的凸函数，并且约束条件都是线性的。

利用常规测井曲线进行裂缝识别

利用常规测井曲线进行裂缝识别崔健1，张星2 1. 中国矿业大学（北京），北京（100083） 2. 冀东油田勘探开发研究院，河北唐山（063004） E-mail ：cuijian68@https://www.wendangku.net/doc/7515769528.html, 摘要：本文针对碳酸盐岩储层的裂缝识别和预测，就如何利用常规测井曲线识别裂缝发育段，提出一种行之有效的判别裂缝存在的方法。给出了计算裂缝参数的数学模型，利用获得的裂缝的相关参数对裂缝进行了定量的描述和预测。并进一步探讨了改进裂缝预测的三种可行性方法。关键词：裂缝识别，次生孔隙，常规测井，裂缝发育程度，裂缝指数 1. 裂缝研究的目的意义裂缝性储层是石油勘探开发的重要领域[1] [2]。大量的碳酸盐岩储层、各种类型的古潜山裂缝性储层、致密的砂砾岩储层都有裂缝的存在，是油气储积的有利场所。然而裂缝性油藏勘探开发中如今还存在许多的难题，如裂缝预测技术、裂缝描述及表征、裂缝渗透性预测等问题。原因主要表现在地质上的复杂性：储集空间多样化，且差异大、裂缝储层的非均质性极强、裂缝储层油、气、水分布复杂。其次表现在裂缝成因的复杂性：化学、物理、成岩、构造多方面因素。还有就是裂缝形成期次的复杂性。裂缝性储层研究要解决的问题主要有两点：1)裂缝在哪儿？－裂缝分布预测；2)哪些裂缝能产油、能高产？－裂缝渗透性预测。 2. 裂缝研究方法本文以***构造嘉陵江组气藏裂缝预测为例，探讨利用测井数据建立裂缝性油气藏测井解释模型与评价方法[3]。本次研究的构造三维工区面积250 Km2，总井数11口。主要目的层为嘉二、嘉四段。研究目的是利用常规测井资料对裂缝进行识别和预测。 2.1 岩性识别如表1所示，嘉二岩石的测井响应特征值可以归结为：白云岩具有较小的自然伽玛，较高的补偿中子，中－低电阻率，当孔隙度较高时有较高的声波时差；灰岩表现为高电阻率，中等自然伽玛，低且平直的补偿中子；石膏的测井响应值为极高电阻率，极低自然伽玛，极低且平直的补偿中子；泥岩表现为低－极低电阻率，高－极高自然伽玛，高－极高的声波时差和补偿中子。表1 不同岩石典型的测井响应值 Tab.1 Typical log response for difference rock type in Jia2 Fields 自然伽马 (API) 声波时差 (us/m) 密度 (g/cm3) 中子 (P.U) 泥质 100-150 360-426 2.4-2.8 40-60 方解石 30-40 154-158 2.7-2.72 0.5-3 白云石 20-30 141-148 2.85-2.87 3-6 石膏 10-20 164-171 2.95-2.98 -2 地层水 0 620 1 100

随机森林与支持向量机分类性能比较

随机森林与支持向量机分类性能比较黄衍，查伟雄（华东交通大学交通运输与经济研究所，南昌 330013）摘要：随机森林是一种性能优越的分类器。为了使国内学者更深入地了解其性能，通过将其与已在国内得到广泛应用的支持向量机进行数据实验比较，客观地展示其分类性能。实验选取了20个UCI数据集，从泛化能力、噪声鲁棒性和不平衡分类三个主要方面进行，得到的结论可为研究者选择和使用分类器提供有价值的参考。关键词：随机森林；支持向量机；分类中图分类号：O235 文献标识码： A Comparison on Classification Performance between Random Forests and Support Vector Machine HUANG Yan, ZHA Weixiong (Institute of Transportation and Economics, East China Jiaotong University, Nanchang 330013, China)【Abstract】Random Forests is an excellent classifier. In order to make Chinese scholars fully understand its performance, this paper compared it with Support Vector Machine widely used in China by means of data experiments to objectively show its classification performance. The experiments, using 20 UCI data sets, were carried out from three main aspects: generalization, noise robustness and imbalanced data classification. Experimental results can provide references for classifiers’ choice and use. 【Key words】Random Forests; Support Vector Machine; classification 0 引言分类是数据挖掘领域研究的主要问题之一，分类器作为解决问题的工具一直是研究的热点。常用的分类器有决策树、逻辑回归、贝叶斯、神经网络等，这些分类器都有各自的性能特点。本文研究的随机森林[1]（Random Forests，RF）是由Breiman提出的一种基于CART 决策树的组合分类器。其优越的性能使其在国外的生物、医学、经济、管理等众多领域到了广泛的应用，而国内对其的研究和应用还比较少[2]。为了使国内学者对该方法有一个更深入的了解，本文将其与分类性能优越的支持向量机[3]（Support Vector Machine，SVM）进行数据实验比较，客观地展示其分类性能。本文选取了UCI机器学习数据库[4]的20个数据集作为实验数据，通过大量的数据实验，从泛化能力、噪声鲁棒性和不平衡分类三个主要方面进行比较，为研究者选择和使用分类器提供有价值的参考。 1 分类器介绍 1.1 随机森林随机森林作为一种组合分类器，其算法由以下三步实现： 1. 采用bootstrap抽样技术从原始数据集中抽取n tree个训练集，每个训练集的大小约为原始数据集的三分之二。 2. 为每一个bootstrap训练集分别建立分类回归树（Classification and Regression Tree，CART），共产生n tree棵决策树构成一片“森林”，这些决策树均不进行剪枝（unpruned）。在作者简介：黄衍（1986-），男，硕士研究生，主要研究方向：数据挖掘与统计分析。通信联系人：查伟雄，男，博士，教授，主要研究方向：交通运输与经济统计分析。 E-mail: huangyan189@https://www.wendangku.net/doc/7515769528.html,.

支持向量机SVM分类算法

支持向量机SVM分类算法 SVM的简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力[14]（或称泛化能力）。以上是经常被有关SVM 的学术文献引用的介绍，我来逐一分解并解释一下。 Vapnik是统计机器学习的大牛，这想必都不用说，他出版的《Statistical Learning Theory》是一本完整阐述统计机器学习思想的名著。在该书中详细的论证了统计机器学习之所以区别于传统机器学习的本质，就在于统计机器学习能够精确的给出学习效果，能够解答需要的样本数等等一系列问题。与统计机器学习的精密思维相比，传统的机器学习基本上属于摸着石头过河，用传统的机器学习方法构造分类系统完全成了一种技巧，一个人做的结果可能很好，另一个人差不多的方法做出来却很差，缺乏指导和原则。所谓VC维是对函数类的一种度量，可以简单的理解为问题的复杂程度，VC维越高，一个问题就越复杂。正是因为SVM关注的是VC维，后面我们可以看到，SVM解决问题的时候，和样本的维数是无关的（甚至样本是上万维的都可以，这使得SVM很适合用来解决文本分类的问题，当然，有这样的能力也因为引入了核函数）。结构风险最小听上去文绉绉，其实说的也无非是下面这回事。机器学习本质上就是一种对问题真实模型的逼近（我们选择一个我们认为比较好的近似模型，这个近似模型就叫做一个假设），但毫无疑问，真实模型一定是不知道的（如果知道了，我们干吗还要机器学习？直接用真实模型解决问题不就可以了？对吧，哈哈）既然真实模型不知道，那么我们选择的假设与问题真实解之间究竟有多大差距，我们就没法得知。比如说我们认为宇宙诞生于150亿年前的一场大爆炸，这个假设能够描述很多我们观察到的现象，但它与真实的宇宙模型之间还相差多少？谁也说不清，因为我们压根就不知道真实的宇宙模型到底是什么。这个与问题真实解之间的误差，就叫做风险（更严格的说，误差的累积叫做风险）。我们选择了一个假设之后（更直观点说，我们得到了一个分类器以后），真实误差无从得知，但我们可以用某些可以掌握的量来逼近它。最直观的想法就是使用分类器在样本数据上的分类的结果与真实结果（因为样本是已经标注过的数据，是准确的数据）之间的差值来表示。这个差值叫做经验风险Remp(w)。以前的机器学习方法都把经验风险最小化作为努力的目标，但后来发现很多分类函数能够在样本集上轻易达到100%的正确率，在真实分类时却一塌糊涂（即所谓的推广能力差，或泛化能力差）。此时的情况便是选择了一个足够复杂的分类函数（它的VC维很高），能够精确的记住每一个样本，但对样本之外的数据一律分类错误。回头看看经验风险最小化原则我们就会发现，此原则适用的大前提是经验风险要确实能够逼近真实风险才行（行话叫一致），但实际上能逼近么？答案是不能，因为样本数相对于现实世界要分类的文本数来说简直九牛

遥感作业-关于计算机解译中的专家系统分类法与支持向量机分类法的阐述

关于计算机解译中的专家系统分类法与支持向量机分类法的阐述摘要：本文从什么叫计算机目视解译，专家系统分类法、支持向量机分类法的概念三个方面进行了阐述。进一步详细地了解了什么是遥感图像的计算机目视解译，以及专家系统分类法与支持向量机的前沿应用关键字：计算机目视解译专家系统分类法支持向量机分来法遥感图像的目视解译又称目视判断，或目视判译，它指专家人员通过直接观察或借助辅助判读仪器在遥感图像上获取特定目标地物信息的过程。目视解译的目的是从遥感图像中获取需要的地学专题地图，它需要解决的问题是判读出遥感图像中有哪些地物，他们分布在哪里，并对其数量特征给予粗略的估计。地面各种目标地物在遥感图像中存在着不同的色、形、位的差异。构成了可供识别的目标地物特征。目视解译人员依据目标地物的特征，作为分析、解译、理解和识别遥感图像的基础。目视解译的主要步骤是：从已知到未知，先易后难，先地表后深部，先整体后局部，先宏观后微观，先图形后线形。专家系统是一个智能计算机程序系统，其内部含有大量的某个领域专家水平的知识与经验，能够利用人类专家的知识和解决问题的方法来处理该领域问题。也就是说，专家系统是一个具有大量的专门知识与经验的程序系统，它应用人工智能技术和计算机技术，根据某领域一个或多个专家提供的知识和经验，进行推理和判断，模拟人类专家的决策过程，以便解决那些需要人类专家处理的复杂问题，简而言之，专家系统是一种模拟人类专家解决领域问题的计算机程序系统。专家系统通常由人机交互界面、知识库、推理机、解释器、综合数据库、知识获取等6个部分构成。其中尤以知识库与推理机相互分离而别具特色。专家系统的体系结构随专家系统的类型、功能和规模的不同，而有所差异。为了使计算机能运用专家的领域知识，必须要采用一定的方式表示知识。目前常用的知识表示方式有产生式规则、语义网络、框架、状态空间、逻辑模式、脚本、过程、面向对象等。基于规则的产生式系统是目前实现知识运用最基本的方法。产生式系统由综合数据库、知识库和推理机3个主要部分组成，综合数据

三分量测井方法规程

6 特种测井方法技术设计特种测井方法由于不常使用，尚无相应的规范或标准，有些方法属国际合作项目，所用仪器尚未落实，只能根据有关参考资料，编写初步技术设计。待项目落实后，再根据有关资料补充或修改设计。 6.1 井中重力测量井中重力测量主要测量重力变化值Δg，可以确定重力场、岩石的平均整体密度随深度的变化规律，一般情况下，它与岩性密度测井通常有较好的一致性，但其探测深度远大于岩性密度测井，因而可以发现钻井附近的密度异常体，这对于解释地面重力异常和地震勘探结果具有重要意义。 6.1.1 任务及目的测量井段：主孔0米到5000米；测点间距：控制测量为50米，密度边界测量应加密，总测点数控制在150左右。测量目的：测量地层密度，了解钻井附近的密度异常体和构造情况。 6.1.2 测量仪器采用引进的美国L&R井中重力仪和精密深度控制系统。井中重力仪主要技术特性见下表： 6.1.3 测量技术要求深度误差：绝对深度误差与其它测井要求相同，两种测量间距测量间的相对深度误差小于10厘米；重力测量均方误差小于20微伽；对每点仪器稳定后的测量值求平均作为最终重力值，每点测量时间约为10分钟，总测井时间小于2天。测量时，应考虑零漂的影响。

6.1.4 数据处理与解释测量数据应进行零漂、深度（井斜）、地形等校正。从校正后的重力值，给出视体密度和布格异常垂直剖面图；正反演求解钻孔外侧异常体参数或探索地层产状。 6.2 井中三分量磁测井中三分量磁测是地面磁测向井中的发展，在钻孔中确定磁场的大小和方向随深度的变化。它的特点是可以同时测得磁场的三个互相垂直分量：△Z、△X、△Y。该方法同时亦能划分磁性岩层的界面及发现井周的磁性不均匀体。 6.2.1 任务与目的测量井段：0～5000米分次完成测量；测量目的：提供井及其周围一定空间范围内地下地质体磁性、空间分布、构造和空间磁场变化规律等资料。 6.2.2 测量仪器井中三分量磁测属于国际合作项目，因客观原因，具体的仪器型号、参数尚未得知，暂按德国Braunchweig大学研制的FML磁饱和式井中三分量磁力仪考虑。测量范围±65000nT 分辨率 0.1nT 6.2.3 测量方法技术要求该方法尚无国家或行业标准，测量方法技术等可参照原地质矿产部地球物理地球化学勘查局1982年颁发的《井中磁测工作规范》和有关文献资料。 1、由测量段底部向顶部提升时连续测量测速：小于720m/h 测量精度：20 nT 采样间距：8～10cm 2、为减少外地磁场短时变化的影响，钻孔中的测量安排在夜间磁场活动平静期进行； 3、基点选择和正常场的确定在井场附近，其周围20～30米范围内无磁性干扰，建立校对仪器用的分基点，该点应与工区地面磁测基点联测，推算工区正常场值。 4、所测钻孔应是斜孔，其斜度需大于1°。其它如深度控制、重复测量长度、深度比例尺、横向比例尺、对钻孔和提升设备的要求和安全操作等和常规测井曲线基本相同。 5、井场的资料初步验收

《声波测井应用学习及常规测井曲线的不同特征》

声波测井应用学习及常规测井曲线的不同特征声波测井是研究地层声学性质的各种测井方法的总称，主要用来测量地层各种波的传播速度（纵波、横波和斯通利波）和幅度。常用的声波测井方法有补偿声波测井、长源距声波、阵列声波测井、偶极子阵列声波测井、超声波成象测井等。补偿声波测井是在油气勘探、开发中应用最多的测井方法之一，是通过测量井壁介质的声学性质来判断井壁地层的地质特征及井眼工程状况的一类测井方法。通常是采用单发—双收或双发—双收的探头设计，用于补偿井眼扩径造成的对纵波幅度影响。这类声波测井仪的测量数据主要用来估算地层的孔隙度。这里介绍的声波测井就是指声波速度测井，声波速度测井曲线上记录的是地层的声波时差（单位：μs/ft或μs/m）。一、声波曲线的应用 1、划分地层由于不同的地层具有不同的声波速度，所以根据声波时差曲线可以划分不同的岩性地层。砂泥岩剖岩中砂岩声波速度大，时差小；泥岩声波速度小，时差大；在碳酸盐岩剖面中致密灰岩和白云岩时差低，含泥质时时差增大，若有裂缝和孔隙时声波时差明显增大。常用岩石骨架值如下：砂岩为55.5μs/ft(182μs/m)，灰岩为47μs/ft(155μs/m)，白云岩为43μs/ft(141μs/m)，淡水为189μs/ft(620μs/m)。 2、确定岩石孔隙度声速测井是最常用的岩性—孔隙度测井方法之一。要用声速测井

确定孔隙度，就必须建立声速测井响应方程，即时间平均公式Δt=φΔtf+(1-φ)Δtma，其物理意义是声波在单位厚度岩层上传播所用的时间，等于其在孔隙中以流体声速经过全部孔隙所用时间，以及在孔隙外岩石骨架部分以岩石骨架声速经过全部骨架所需时间的总和。若考虑地层压力，则孔隙度 Δt—测量的纯岩石声波时差，μs/ft或μs/m； Δtma—岩石骨架的声波时差，μs/ft或μs/m； Δtf—岩石孔隙流体的声波时差，μs/ft或μs/m； CP—压实系数； φ—纯岩石孔隙度，%。 3、识别气层和裂缝声速测井曲线表现为时差值急剧增大，增大的数值是按声波信号的周期（50微秒左右）成倍增加，这种现象称为“周波跳跃”。“周波跳跃”可以作为裂缝层段或储集层中含气的特征标志。（1）时差一般性增大，一般可以认为同类地层中孔隙更发育一些。但如果有产气或裂缝的地质依据，也可以判断为有气或有裂缝带。（2）如果时差明显增大或有周波跳跃，当地质上可能含气，并且电阻率测井以明显高电阻率显示证明地层含油气时，可判断为气层；当地质上不可能含气时，可判断为裂缝异常发育；如果本地层存在裂缝发育的气层，也应从电阻率测井等资料得到证实。（3）井眼严重扩大的盐岩层或泥浆严重混气的井段，也可能产生时差明显增大或周波跳跃。 4、研究断层和检测压力异常

20.ENVI4.3 支持向量机分类原理、操作及实例分析

ENVI4.3 支持向量机分类原理、操作及实例分析一、支持向量机算法介绍 1.支持向量机算法的理论背景支持向量机分类（Support Vector Machine或SVM）是一种建立在统计学习理论（Statistical Learning Theory或SLT）基础上的机器学习方法。与传统统计学相比，统计学习理论（SLT）是一种专门研究小样本情况下及其学习规律的理论。该理论是建立在一套较坚实的理论基础之上的，为解决有限样本学习问题提供了一个统一的框架。它能将许多现有方法纳入其中，有望帮助解决许多原来难以解决的问题，如神经网络结构选择问题、局部极小点问题等；同时，在这一理论基础上发展了一种新的通用学习方法——支持向量机（SVM），已初步表现出很多优于已有方法的性能。一些学者认为，SLT和SVM正在成为继神经网络研究之后新的研究热点，并将推动机器学习理论和技术的重大发展。支持向量机方法是建立在统计学习理论的VC维（VC Dimension）理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力。支持向量机的几个主要优点有：（1）它是专门针对有限样本情况的，其目标是得到现有信息下的最优解而不仅仅是样本数趋于无穷大时的最优值；（2）算法最终将转化成为一个二次型寻优问题，从理论上说，得到的将是全局最优点，解决了在神经网络方法中无法避免的局部极值问题；（3）算法将实际问题通过非线性变换转换到高维的特征空间(Feature Space)，在高维空间中构造线性判别函数来实现原空间中的非线性判别函数，特殊性质能保证机器有较好的推广能力，同时它巧妙地解决了维数问题，其算法复杂度与样本维数无关； 2.支持向量机算法简介通过学习算法，SVM可以自动寻找那些对分类有较大区分能力的支持向量，由此构造出分类器，可以将类与类之间的间隔最大化，因而有较好的推广性和较高的分类准确率。最优分类面（超平面）和支持向量

测井方法与综合解释

《测井方法与综合解释》综合复习资料一、名词解释声波时差孔隙度地层压力地层倾角含油孔隙度泥质含量二、填空题 1．描述储集层的基本参数有____________、____________、____________和____________等。 2．地层三要素________________、_____________、_____________。 3．伽马射线去照射地层可能会产生___________________、______________和_________________效应。4．岩石中主要的放射性核素有_______、_______和________等。 5．声波时差Δt的单位是___________，电导率的单位是___________。 6．渗透层在微电极曲线上有基本特征是________________________________。 7.地层因素随地层孔隙度的减小而；岩石电阻率增大系数随地层含水饱和度的增大而。 8.当Rw大于Rmf时，渗透性砂岩的SP先对泥岩基线出现__________异常。 9.由测井探测特性知，普通电阻率测井提供的是探测范围内共同贡献。对于非均匀电介质，其大小不仅与测井环境有关，还与测井仪器________和__________有关。电极系A0.5M2.25N的电极距是___________。 10.地层对热中子的俘获能力主要取决于的含量。利用中子寿命测井区分油、水层时，要求地层水矿化度，此时，水层的热中子寿命油层的热中子寿命。 11.某淡水泥浆钻井地层剖面，油层和气层通常具有的视电阻率。油气层的深浅电阻率显示泥浆特征。 12.地层岩性一定，C/O测井值，地层剩余油饱和度。 13.在砂泥岩剖面，当渗透层SP曲线为负异常时，井眼泥浆为_________，油层的泥浆侵入特征是__________。 14.地层中的主要放射性核素是__________、__________、_________。沉积岩的泥质含量越高，地层放射性

实验2分类预测模型-支持向量机

实验2分类预测模型——支持向量机SVM 一、实验目的 1. 了解和掌握支持向量机的基本原理。 2. 熟悉一些基本的建模仿真软件（比如SPSS 、Matlab 等）的操作和使用。 3. 通过仿真实验，进一步理解和掌握支持向量机的运行机制，以及其运用的场景，特别是在分类和预测中的应用。二、实验环境 PC 机一台，SPSS 、Matlab 等软件平台。三、理论分析 1. SVM 的基本思想支持向量机（Support Vector Machine, SVM ），是Vapnik 等人根据统计学习理论中结构风险最小化原则提出的。SVM 能够尽量提高学习机的推广能力，即使由有限数据集得到的判别函数，其对独立的测试集仍能够得到较小的误差。此外，支持向量机是一个凸二次优化问题，能够保证找到的极值解就是全局最优解。这希尔特点使支持向量机成为一种优秀的基于机器学习的算法。 SVM 是从线性可分情况下的最优分类面发展而来的，其基本思想可用图1所示的二维情况说明。图1最优分类面示意图图1中，空心点和实心点代表两类数据样本，H 为分类线，H1、H2分别为过各类中离分类线最近的数据样本且平行于分类线的直线，他们之间的距离叫做分类间隔（margin ）。所谓最优分类线，就是要求分类线不但能将两类正确分开，使训练错误率为0，而且还要使分类间隔最大。前者保证分类风险最小；后者（即：分类间隔最大）使推广性的界中的置信范围最小，从而时真实风险最小。推广到高维空间，最优分类线就成为了最优分类面。 2. 核函数 ω

支持向量机的成功源于两项关键技术：利用SVM 原则设计具有最大间隔的最优分类面；在高维特征空间中设计前述的最有分类面，利用核函数的技巧得到输入空间中的非线性学习算法。其中，第二项技术就是核函数方法，就是当前一个非常活跃的研究领域。核函数方法就是用非线性变换 Φ 将n 维矢量空间中的随机矢量x 映射到高维特征空间，在高维特征空间中设计线性学习算法，若其中各坐标分量间相互作用仅限于内积，则不需要非线性变换 Φ 的具体形式，只要用满足Mercer 条件的核函数替换线性算法中的内积，就能得到原输入空间中对应的非线性算法。常用的满足Mercer 条件的核函数有多项式函数、径向基函数和Sigmoid 函数等，选用不同的核函数可构造不同的支持向量机。在实践中，核的选择并未导致结果准确率的很大差别。 3. SVM 的两个重要应用：分类与回归分类和回归是实际应用中比较重要的两类方法。SVM 分类的思想来源于统计学习理论，其基本思想是构造一个超平面作为分类判别平面，使两类数据样本之间的间隔最大。SVM 分类问题可细分为线性可分、近似线性可分及非线性可分三种情况。SVM 训练和分类过程如图2所示。图2 SVM 训练和分类过程 SVM 回归问题与分类问题有些相似，给定的数据样本集合为 x i ,y i ,…, x n ,y n 。其中，x i x i ∈R,i =1,2,3…n 。与分类问题不同，这里的 y i 可取任意实数。回归问题就是给定一个新的输入样本x ，根据给定的数据样本推断他所对应的输出y 是多少。如图3-1所示，“×”表示给定数据集中的样本点，回归所要寻找的函数 f x 所对应的曲线。同分类器算法的思路一样，回归算法需要定义一个损失函数，该函数可以忽略真实值某个上下范围内的误差，这种类型的函数也就是 ε 不敏感损失函数。变量ξ度量了训练点上误差的代价，在 ε 不敏感区内误差为0。损失函数的解以函数最小化为特征，使用 ε 不敏感损失函数就有这个优势，以确保全局最小解的存在和可靠泛化界的优化。图3-2显示了具有ε 不敏感带的回归函数。 o x y 图3-1 回归问题几何示意图 o x y 图3-2 回归函数的不敏感地