当前位置：文档库 › Oracle10g 正则表达式

Oracle10g 正则表达式

Oracle Database 10g 中的正规表达式特性是一个用于处理文本数据的强大工具

Oracle Database 10g 的一个新特性大大提高了您搜索和处理字符数据的能力。这个特性就是正规表达式，是一种用来描述文本模式的表示方法。很久以来它已在许多编程语言和大量UNIX 实用工具中出现过了。

Oracle 的正规表达式的实施是以各种SQL 函数和一个WHERE 子句操作符的形式出现的。如果您不熟悉正规表达式，那么这篇文章可以让您了解一下这种新的极其强大然而表面上有点神秘的功能。已经对正规表达式很熟悉的读者可以了解如何在Oracle SQL 语言的环境中应用这种功能。

什么是正规表达式？

正规表达式由一个或多个字符型文字和/或元字符组成。在最简单的格式下，正规表达式仅由字符文字组成，如正规表达式cat。它被读作字母c，接着是字母a 和t，这种模式匹配cat、location 和catalog 之类的字符串。元字符提供算法来确定Oracle 如何处理组成一个正规表达式的字符。当您了解了各种元字符的含义时，您将体会到正规表达式用于查找和替换特定的文本数据是非常强大的。

验证数据、识别重复关键字的出现、检测不必要的空格，或分析字符串只是正规表达式的许多应用中的一部分。您可以用它们来验证电话号码、邮政编码、电子邮件地址、社会安全号码、IP 地址、文件名和路径名等的格式。此外，您可以查找如HTML 标记、数字、日期之类的模式，或任意文本数据中符合任意模式的任何事物，并用其它的模式来替换它们。

用Oracle Database 10g 使用正规表达式

您可以使用最新引进的Oracle SQL REGEXP_LIKE 操作符和REGEXP_INSTR、REGEXP_SUBSTR 以及REGEXP_REPLACE 函数来发挥正规表达式的作用。您将体会到这个新的功能如何对LIKE 操作符和INSTR、SUBSTR 和REPLACE 函数进行了补充。实际上，它们类似于已有的操作符，但现在增加了强大的模式匹配功能。被搜索的数据可以是简单的字符串或是存储在数据库字符列中的大量文本。正规表达式让您能够以一种您以前从未想过的方式来搜索、替换和验证数据，并提供高度的灵活性。

正规表达式的基本例子

在使用这个新功能之前，您需要了解一些元字符的含义。句号(.) 匹配一个正规表达式中的任意字符（除了换行符）。例如，正规表达式a.b 匹配的字符串中首先包含字母a，接着是其它任意单个字符（除了换行符），再接着是字母b。字符串axb、xaybx 和abba 都与之匹配，因为在字符串中隐藏了这种模式。如果您想要精确地匹配以a 开头和以 b 结尾的一条三个字母的字符串，则您必须对正规表达式进行定位。脱字符号(^) 元字符指示一行的开始，而美元符号($) 指示一行的结尾（参见表1：附表见第4页）。因此，正规表达式^a.b$ 匹配字符串aab、abb 或axb。将这种方式与LIKE 操作符提供的类似的模式匹配a_b 相比较，其中(_) 是单字符通配符。

默认情况下，一个正规表达式中的一个单独的字符或字符列表只匹配一次。为了指示在一个正规表达式中多次出现的一个字符，您可以使用一个量词，它也被称为重复操作符。.如果您想要得到从字母 a 开始并以字母 b 结束的匹配模式，则您的正规表达式看起来像这样：^a.*b$。* 元字符重复前面的元字符(.) 指示的匹配零次、一次或更多次。LIKE 操作符的等价的模式是a%b，其中用百分号(%) 来指示任意字符出现零次、一次或多次。

表2 给出了重复操作符的完整列表。注意它包含了特殊的重复选项，它们实现了比现有的LIKE 通配符更大的灵活性。如果您用圆括号括住一个表达式，这将有效地创建一个可以重复一定次数的子表达式。例如，正规表达式b(an)*a 匹配ba、bana、banana、yourbananasplit 等。

Oracle 的正规表达式实施支持POSIX （可移植操作系统接口）字符类，参见表3 中列出的内容。这意味着您要查找的字符类型可以非常特别。假设您要编写一条仅查找非字母字符的LIKE 条件—作为结果的WHERE 子句可能不经意就会变得非常复杂。

POSIX 字符类必须包含在一个由方括号([]) 指示的字符列表中。例如，正规表达式[[:lower:]] 匹配一个小写字母字符，而[[:lower:]]{5} 匹配五个连续的小写字母字符。

除POSIX 字符类之外，您可以将单独的字符放在一个字符列表中。例如，正规表达式^ab[cd]ef$ 匹配字符串abcef 和abdef。必须选择c 或d。

除脱字符(^) 和连字符(-) 之外，字符列表中的大多数元字符被认为是文字。正规表达式看起来很复杂，这是因为一些元字符具有随上下文环境而定的多重含义。^ 就是这样一种元字符。如果您用它作为一个字符列表的第一个字符，它代表一个字符列表的非。因此，[^[:digit:]] 查找包含了任意非数字字符的模式，而^[[:digit:]] 查找以数字开始的匹配模式。连字符(-) 指示一个范围，正规表达式[a-m] 匹配字母 a 到字母m 之间的任意字母。但如果它是一个字符行中的第一个字符（如在[-afg] 中），则它就代表连字符。

之前的一个例子介绍了使用圆括号来创建一个子表达式；它们允许您通过输入更替元字符来输入可更替的选项，这些元字符由竖线(|) 分开。

例如，正规表达式t(a|e|i)n 允许字母t 和n 之间的三种可能的字符更替。匹配模式包括如tan、ten、tin 和Pakistan 之类的字，但不包括teen、mountain 或tune。作为另一种选择，正规表达式t(a|e|i)n 也可以表示为一个字符列表t[aei]n。表 4 汇总了这些元字符。虽然存在更多的元字符，但这个简明的概述足够用来理解这篇文章使用的正规表达式。

REGEXP_LIKE 操作符

REGEXP_LIKE 操作符向您介绍在Oracle 数据库中使用时的正规表达式功能。表5 列出了REGEXP_LIKE 的语法。

下面的SQL 查询的WHERE 子句显示了REGEXP_LIKE 操作符，它在ZIP 列中搜索满足正规表达式[^[:digit:]] 的模式。它将检索ZIPCODE 表中的那些ZIP 列值包含了任意非数字字符的行。

SELECT zip FROM zipcode WHERE REGEXP_LIKE(zip, '[^[:digit:]]')

ZIP

-----

ab123

123xy

007ab

abcxy

这个正规表达式的例子仅由元字符组成，更具体来讲是被冒号和方括号分隔的POSIX 字符类digit。第二组方括号（如[^[:digit:]] 中所示）包括了一个字符类列表。如前文所述，需要这样做是因为您只可以将POSIX 字符类用于构建一个字符列表。

REGEXP_INSTR 函数

这个函数返回一个模式的起始位置，因此它的功能非常类似于INSTR 函数。新的REGEXP_INSTR 函数的语法在表6 中给出。这两个函数之间的主要区别是，REGEXP_INSTR 让您指定一种模式，而不是一个特定的搜索字符串；因而它提供了更多的功能。接下来的示例使用REGEXP_INSTR 来返回字符串Joe Smith, 10045 Berry Lane, San Joseph, CA 91234 中的五位邮政编码模式的起始位置。如果正规表达式被写为[[:digit:]]{5}，则您将得到门牌号的起始位置而不是邮政编码的，因为10045 是第一次出现五个连续数字。因此，您必须将表达式定位到该行的末尾，正如$ 元字符所示，该函数将显示邮政编码的起始位置，而不管门牌号的数字个数。

SELECT REGEXP_INSTR('Joe Smith, 10045 Berry Lane, San Joseph, CA 91234',

'[[:digit:]]{5}$') AS rx_instr FROM dual

RX_INSTR

----------

编写更复杂的模式

让我们在前一个例子的邮政编码模式上展开，以便包含一个可选的四位数字模式。您的模式现在可能看起来像这样：[[:digit:]]{5}(-[[:digit:]]{4})?$。如果您的源字符串以 5 位邮政编码或 5 位+ 4 位邮政编码的格式结束，则您将能够显示该模式的起始位置。

SELECT REGEXP_INSTR('Joe Smith, 10045 Berry Lane, San Joseph, CA 91234-1234',

' [[:digit:]]{5}(-[[:digit:]]{4})?$') AS starts_at FROM dual

STARTS_AT

----------

在这个示例中，括弧里的子表达式(-[[:digit:]]{4}) 将按? 重复操作符的指示重复零次或一次。此外，企图用传统的SQL 函数来实现相同的结果甚至对SQL 专家也是一个挑战。为了更好地说明这个正规表达式示例的不同组成部分，表7 包含了一个对单个文字和元字符的描述。

REGEXP_SUBSTR 函数

类似于SUBSTR 函数的REGEXP_SUBSTR 函数用来提取一个字符串的一部分。表8 显示了这个新函数的语法。在下面的示例中，匹配模式[^,]* 的字符串将被返回。该正规表达式搜索其后紧跟着空格的一个逗号；然后按[^,]* 的指示搜索零个或更多个不是逗号的字符，最后查找另一个逗号。这种模式看起来有点像一个用逗号分隔的值字符串。

SELECT REGEXP_SUBSTR('first field, second field , third field', ', [^,]*,') FROM dual

REGEXP_SUBSTR('FIR

------------------

, second field ,

REGEXP_REPLACE 函数

让我们首先看一下传统的REPLACE SQL 函数，它把一个字符串用另一个字符串来替换。假设您的数据在正文中有不必要的空格，您希望用单个空格来替换它们。利用REPLACE 函数，您需要准确地列出您要替换多少个空格。然而，多余空格的数目在正文的各处可能不是相同的。下面的示例在Joe 和Smith 之间有三个空格。REPLACE 函数的参数指定要用一个空格来替换两个空格。在这种情况下，结果在原来的字符串的Joe 和Smith 之间留下了一个额外的空格。

SELECT REPLACE('Joe Smith',' ', ' ') AS replace FROM dual

REPLACE

---------

Joe Smith

REGEXP_REPLACE 函数把替换功能向前推进了一步，其语法在表9 中列出。以下查询用单个空格替换了任意两个或更多的空格。( ) 子表达式包含了单个空格，它可以按{2,} 的指示重复两次或更多次。

SELECT REGEXP_REPLACE('Joe Smith', '( ){2,}', ' ') AS RX_REPLACE FROM dual

RX_REPLACE

----------

Joe Smith

后向引用正则表达式的一个有用的特性是能够存储子表达式供以后重用；这也被称为后向引用（在表 10 中对其进行了概述）。它允许复杂的替换功能，如在新的位置上交换模式或显示重复出现的单词或字母。子表达式的匹配部分保存在临时缓冲区中。缓冲区从左至右进行编号，并利用 \digit 符号进行访问，其中 digit 是 1 到 9 之间的一个数字，它匹配第 digit 个子表达式，子表达式用一组圆括号来显示。

接下来的例子显示了通过按编号引用各个子表达式将姓名 Ellen Hildi Smith 转变为 Smith, Ellen Hildi。

SELECT REGEXP_REPLACE(

'Ellen Hildi Smith',

'(.*) (.*) (.*)', '\3, \1 \2')

FROM dual

REGEXP_REPLACE('EL

------------------

Smith, Ellen Hildi

该 SQL 语句显示了用圆括号括住的三个单独的子表达式。每一个单独的子表达式包含一个匹配元字符 (.)，并紧跟着 * 元字符，表示任何字符（除换行符之外）都必须匹配零次或更多次。空格将各个子表达式分开，空格也必须匹配。圆括号创建获取值的子表达式，并且可以用 \digit 来引用。第一个子表达式被赋值为 \1 ，第二个\2，以此类推。这些后向引用被用在这个函数的最后一个参数 (\3, \1 \2) 中，这个函数有效地返回了替换子字符串，并按期望的格式来排列它们（包括逗号和空格）。表 11 详细说明了该正则表达式的各个组成部分。

后向引用对替换、格式化和代替值非常有用，并且您可以用它们来查找相邻出现的值。接下来的例子显示了使用 REGEP_SUBSTR 函数来查找任意被空格隔开的重复出现的字母数字值。显示的结果给出了识别重复出现的单词is 的子字符串。

SELECT REGEXP_SUBSTR(

'The final test is is the implementation',

'([[:alnum:]]+)([[:space:]]+)\1') AS substr

FROM dual

SUBSTR

------

is is

匹配参数选项

您可能已经注意到了正则表达式操作符和函数包含一个可选的匹配参数。这个参数控制是否区分大小写、换行符的匹配和保留多行输入。

正则表达式的实际应用

您不仅可以在队列中使用正则表达式，还可以在使用 SQL 操作符或函数的任何地方（比如说在 PL/SQL 语言中）使用正则表达式。您可以编写利用正则表达式功能的触发器，以验证、生成或提取值。

接下来的例子演示了您如何能够在一次列检查约束条件中应用 REGEXP_LIKE 操作符来进行数据验证。它在插

入或更新时检验正确的社会保险号码格式。如 123-45-6789 和 123456789 之类格式的社会保险号码对于这种列约束条件是可接受的值。有效的数据必须以三个数字开始，紧跟着一个连字符，再加两个数字和一个连字符，最后又是四个数字。另一种表达式只允许 9 个连续的数字。竖线符号 (|) 将各个选项分开。

ALTER TABLE students

ADD CONSTRAINT stud_ssn_ck CHECK

(REGEXP_LIKE(ssn,

'^([[:digit:]]{3}-[[:digit:]]{2}-[[:digit:]]{4}|[[:digit:]]{9})$'))

由 ^ 和 $ 指示的开头或结尾的字符都是不可接受的。确保您的正则表达式没有分成多行或包含任何不必要的空格，除非您希望格式如此并相应地进行匹配。表 12 说明了该正则表达式示例的各个组成部分。

将正则表达式与现有的功能进行比较

正则表达式有几个优点优于常见的 LIKE 操作符和 INSTR、SUBSTR 及 REPLACE 函数的。这些传统的 SQL 函数不便于进行模式匹配。只有 LIKE 操作符通过使用 % 和 _ 字符匹配，但 LIKE 不支持表达式的重复、复杂的更替、字符范围、字符列表和 POSIX 字符类等等。此外，新的正则表达式函数允许检测重复出现的单词和模式交换。这里的例子为您提供了正则表达式领域的一个概览，以及您如何能够在您的应用程序中使用它们。

实实在在地丰富您的工具包

因为正则表达式有助于解决复杂的问题，所以它们是非常强大的。正则表达式的一些功能难于用传统的 SQL 函数来仿效。当您了解了这种稍显神秘的语言的基础构建程序块时，正则表达式将成为您的工具包的不可缺少的一部分（不仅在 SQL 环境下也在其它的编程语言环境下）。为了使您的各个模式正确，虽然尝试和错误有时是必须的，但正则表达式的简洁和强大是不容置疑的。

Alice Rischert (ar280@https://www.wendangku.net/doc/dd17959801.html,) 是哥伦比亚大学计算机技术与应用系的数据库应用程序开发和设计方向的主席。她编写了 Oracle SQL 交互手册第 2 版（Prentice Hall，2002）和即将推出的 Oracle SQL 示例（Prentice Hall，2003）。Rischert 拥有超过 15 年的经验在财富 100 强公司内担任数据库设计师、DBA 和项目主管，并且她自从 Oracle version 5 起就一直使用 Oracle 产品。

附表见下页：

j s正则表达式

正则正则：一个规则，它是用来处理字符串的，验证字符串是否符合某个规则（正则匹配），或者是把字符串中符合规则的内容取出来（正则捕获）一个正则是由元字符组成的。创建正则有两种方式(有一些区别) var reg1=/\d/;//字面量方式，代表包含0-9之间的任意一个数字即可var reg2=new RegExp("\\d");//实例创建方式区别在于： 1.实例创建方式需要多转译一次,把具有特殊意思，并且带\的都要多转译一次。 2.字面量方式无法识别变量，而实例创建方式可以，也就是说实例创建可以进行我们的字符串拼接（把一个变量代表的值放到正则中作为规则）。 var reg1=/\d/; var reg2=new RegExp("\\d"); varreg=/zhufeng/; console.log(reg.test("welcome zhufeng student"));//true console.log(reg.test("welcome zhufeng student"));//false var c="w100"; varreg=/^"+c+"$/;//以"开头，出现一到多次，然后是c出现一到多次，最后以"结尾，而不是我们认为的字符串拼接 varreg=new RegExp("^"+c+"$");//此时只能包含w100的正则中还包含修饰符：i（ignoreCase忽略大小写）, m（multiline 匹配换行）, g(global 全局匹配) varreg=/^[a-z]$/i; varreg=new RegExp("^[a-z]$","i"); console.log(reg.test("Z")); 具有特殊意义的元字符 \d :0-9之间任意一个数字 \ :转译字符 ^ ：以某一个元字符开始 $ ：以某一个元字符结束 \n ：一个换行符 . :匹配除了\n以为的任何字符 x|y :x或者y [xyz] :x y z 三个中一个 [^xyz] :除三个中的任一个 [a-z] :a--z之间任意一个 [^a-z] :除了a--z之间任意一个

正则表达式

正则表达式一、什么是这则表达式正则表达式（regular expressions）是一种描述字符串集的方法，它是以字符串集中各字符串的共有特征为依据的。正则表达式可以用于搜索、编辑或者是操作文本和数据。它超出了java程序设计语言的标准语法，因此有必要去学习特定的语法来构建正则表达式。一般使用的java.util.regex API所支持的正则表达式语法。二、测试用具 import java.io.BufferedReader; import java.io.InputStreamReader; import java.util.Scanner; import java.util.regex.Matcher; import java.util.regex.Pattern; public class Regex{ public static void main(String[]args)throws Exception{ BufferedReader br=new BufferedReader(new InputStreamReader(System.in)); if(br==null){ System.out.println("没有输入任何数据"); System.exit(1); } while(true){ System.out.print("输入表达式："); Pattern pattern=https://www.wendangku.net/doc/dd17959801.html,pile(br.readLine()); System.out.print("输入字符串："); Matcher matcher=pattern.matcher(br.readLine()); boolean found=false; while(matcher.find()){ System.out.println("找到子字符串"+matcher.group()+" 开始于索引"+matcher.start()+"结束于索引"+matcher.end()+"\n") found=true; } if(!found){ System.out.println("没有找到子字符串\n"); } } } }

csharp正则表达式

学习笔记：正则表达式 2011-8-29 一．正则表达式正则表达式(Regex)是用来进行文本处理的技术，是语言无关的，在几乎所有语言中都有实现。一个正则表达式就是由普通的字符及特殊字符（称为元字符符）组成的文字模式。该模式秒杀在查找文章主体时待匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。正则表达式的常用元字符(全为英文状态，注意可以代表的字符种类和个数)：元字符含义 .(点) 可以匹配除”\n”外的任意一个字符 [](中括号) 可以匹配中括号内的任意一个字符例如，"[abc]" 匹配"plain"中的"a" |(或符号) 可以匹配或符号两边的任意一个字符，优先级比较低匹配x 或y。例如"z|food" 可匹配"z" 或"food"。正则表达式的常用限定符(全为英文状态)：元字符含义 *(星号) 其限定的表达式出现次数等于或大于0次例如，"zo*"可以匹配"z"、"zoo" +(加号) 其限定的表达式至少出现1次例如，"zo+"可以匹配"zoo",但不匹配"z" ?(问号) 其限定的表达式出现1次或0次例如，"a?ve?"可以匹配"never"中的"ve" {n} 其限定的表达式出现次数确定n次(n≥0) {n,} 其限定的表达式至少出现n次 {n,m} 其限定的表达式出现的次数为≥n次，≤m次(m>n) 还有几个重要的符号：符号含义 ^ (Shift+6)匹配输入的开始位置非的意思。例如[^a-z]，匹配非a-z的一个字符。 $ (Shift+4)匹配输入的结尾 \将下一个字符标记为特殊字符或字面值例如：想匹配”.”时或其他特殊字符时，需写为的”\.” ()(小括号) 1.改变优先级 2.分组，提取信息需要熟记一些简写： \d = [0-9]

正则表达式教程

正则表达式学习要点： 1.什么是正则表达式 2.创建正则表达式 3.获取控制 4.常用的正则假设用户需要在HTML 表单中填写姓名、地址、出生日期等。那么在将表单提交到服务器进一步处理前，JavaScript 程序会检查表单以确认用户确实输入了信息并且这些信息是符合要求的。一．什么是正则表达式正则表达式(regular expression)是一个描述字符模式的对象。ECMAScript 的RegExp 类表示正则表达式，而String 和RegExp 都定义了使用正则表达式进行强大的模式匹配和文本检索与替换的函数。正则表达式主要用来验证客户端的输入数据。用户填写完表单单击按钮之后，表单就会被发送到服务器，在服务器端通常会用PHP、https://www.wendangku.net/doc/dd17959801.html, 等服务器脚本对其进行进一步处理。因为客户端验证，可以节约大量的服务器端的系统资源，并且提供更

好的用户体验。二．创建正则表达式创建正则表达式和创建字符串类似，创建正则表达式提供了两种方法，一种是采用new 运算符，另一个是采用字面量方式。 1.两种创建方式 var box = new RegExp('box'); //第一个参数字符串 var box = new RegExp('box', 'ig'); //第二个参数可选模式修饰符模式修饰符的可选参数参数含义 i 忽略大小写 g 全局匹配 m 多行匹配 var box = /box/; //直接用两个反斜杠 var box = /box/ig; //在第二个斜杠后面加上模式修饰符 2.测试正则表达式 RegExp 对象包含两个方法：test()和exec()，功能基本相似，用于测试字符串匹配。test() 方法在字符串中查找是否存在指定的正则表达式并返回布尔值，如果存在则返回true，不存在则返回false。exec()方法也用于在字符串中查找指定正则表达式，如果exec()方法执行成

JS正则表达式大全

JS正则表达式大全 JS正则表达式大全【1】正则表达式中的特殊字符【留着以后查用】字符含意 \ 做为转意，即通常在"\"后面的字符不按原来意义解释，如/b/匹配字符"b"，当b前面加了反斜杆后/\b/，转意为匹配一个单词的边界。 -或- 对正则表达式功能字符的还原，如"*"匹配它前面元字符0次或多次，/a*/将匹配a,aa,aaa，加了"\"后，/a\*/将只匹配"a*"。 ^ 匹配一个输入或一行的开头，/^a/匹配"an A"，而不匹配"An a" $ 匹配一个输入或一行的结尾，/a$/匹配"An a"，而不匹配"an A" * 匹配前面元字符0次或多次，/ba*/将匹配b,ba,baa,baaa + 匹配前面元字符1次或多次，/ba*/将匹配ba,baa,baaa ? 匹配前面元字符0次或1次，/ba*/将匹配b,ba (x) 匹配x保存x在名为$1...$9的变量中 x|y 匹配x或y {n} 精确匹配n次 {n,} 匹配n次以上 {n,m} 匹配n-m次 [xyz] 字符集(character set)，匹配这个集合中的任一一个字符(或元字符) [^xyz] 不匹配这个集合中的任何一个字符 [\b] 匹配一个退格符 \b 匹配一个单词的边界 \B 匹配一个单词的非边界 \cX 这儿，X是一个控制符，/\cM/匹配Ctrl-M \d 匹配一个字数字符，/\d/ = /[0-9]/ \D 匹配一个非字数字符，/\D/ = /[^0-9]/ \n 匹配一个换行符 \r 匹配一个回车符 \s 匹配一个空白字符，包括\n,\r,\f,\t,\v等 \S 匹配一个非空白字符，等于/[^\n\f\r\t\v]/ \t 匹配一个制表符 \v 匹配一个重直制表符 \w 匹配一个可以组成单词的字符(alphanumeric，这是我的意译，含数字)，包括下划线，如[\w]匹配

正则表达式语法完整版

正则表达式基础知识一个正则表达式就是由普通字符（例如字符a 到z）以及特殊字符（称为元字符）组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。如：

下面看几个例子： "^The"：表示所有以"The"开始的字符串（"There"，"The cat"等）； "of despair$"：表示所以以"of despair"结尾的字符串； "^abc$"：表示开始和结尾都是"abc"的字符串——呵呵，只有"abc"自己了；"notice"：表示任何包含"notice"的字符串。 '*'，'+'和'?'这三个符号，表示一个或一序列字符重复出现的次数。它们分别表示“没有或更多”，“一次或更多”还有“没有或一次”。下面是几个例子： "ab*"：表示一个字符串有一个a后面跟着零个或若干个b。（"a", "ab", "abbb",……）；"ab+"：表示一个字符串有一个a后面跟着至少一个b或者更多； "ab?"：表示一个字符串有一个a后面跟着零个或者一个b； "a?b+$"：表示在字符串的末尾有零个或一个a跟着一个或几个b。也可以使用范围，用大括号括起，用以表示重复次数的范围。 "ab{2}"：表示一个字符串有一个a跟着2个b（"abb"）； "ab{2,}"：表示一个字符串有一个a跟着至少2个b； "ab{3,5}"：表示一个字符串有一个a跟着3到5个b。

请注意，你必须指定范围的下限（如："{0,2}"而不是"{,2}"）。还有，你可能注意到了，'*'，'+'和'?'相当于"{0,}"，"{1,}"和"{0,1}"。还有一个'|'，表示“或”操作： "hi|hello"：表示一个字符串里有"hi"或者"hello"； "(b|cd)ef"：表示"bef"或"cdef"； "(a|b)*c"：表示一串"a""b"混合的字符串后面跟一个"c"； '.'可以替代任何字符： "a.[0-9]"：表示一个字符串有一个"a"后面跟着一个任意字符和一个数字； "^.{3}$"：表示有任意三个字符的字符串（长度为3个字符）；方括号表示某些字符允许在一个字符串中的某一特定位置出现： "[ab]"：表示一个字符串有一个"a"或"b"（相当于"a|b"）； "[a-d]"：表示一个字符串包含小写的'a'到'd'中的一个（相当于"a|b|c|d"或者"[abcd]"）；"^[a-zA-Z]"：表示一个以字母开头的字符串； "[0-9]%"：表示一个百分号前有一位的数字； "[0-9]+"：表示一个以上的数字； ",[a-zA-Z0-9]$"：表示一个字符串以一个逗号后面跟着一个字母或数字结束。你也可以在方括号里用'^'表示不希望出现的字符，'^'应在方括号里的第一位。（如："%[^a-zA-Z]%"表示两个百分号中不应该出现字母）。为了逐字表达，必须在"^.$()|*+?{\"这些字符前加上转移字符'\'。请注意在方括号中，不需要转义字符。

正则表达式

正则表达式定义正则表达式(regular expression)描述了一种字符串匹配的模式，可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。列目录时，dir *.txt或ls *.txt中的*.txt就不是一个正则表达式,因为这里*与正则式的*的含义是不同的。正则表达式是由普通字符（例如字符a 到z）以及特殊字符（称为元字符）组成的文字模式。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。普通字符由所有那些未显式指定为元字符的打印和非打印字符组成。这包括所有的大写和小写字母字符，所有数字，所有标点符号以及一些符号。非打印字符字符含义 \cx 匹配由x指明的控制字符。例如，\cM 匹配一个Control-M 或回车符。x 的值必须为A-Z 或a-z 之一。否则，将c 视为一个原义的'c' 字符。 \f 匹配一个换页符。等价于\x0c 和\cL。 \n 匹配一个换行符。等价于\x0a 和\cJ。 \r 匹配一个回车符。等价于\x0d 和\cM。 \s 匹配任何空白字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。 \S 匹配任何非空白字符。等价于[^ \f\n\r\t\v]。 \t 匹配一个制表符。等价于\x09 和\cI。 \v 匹配一个垂直制表符。等价于\x0b 和\cK。特殊字符所谓特殊字符，就是一些有特殊含义的字符，如上面说的"*.txt"中的*，简单的说就是表示任何字符串的意思。如果要查找文件名中有＊的文件，则需要对＊进行转义，即在其前加一个\。ls \*.txt。正则表达式有以下特殊字符。 $ 匹配输入字符串的结尾位置。如果设置了RegExp 对象的Multiline 属性，则$ 也匹配'\n' 或'\r'。要匹配$ 字符本身，请使用\$。 ( ) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符，请使用$ 和$。 * 匹配前面的子表达式零次或多次。要匹配* 字符，请使用\*。 = + 匹配前面的子表达式一次或多次。要匹配+ 字符，请使用\+。 . 匹配除换行符\n之外的任何单字符。要匹配 .，请使用\。 [ 标记一个中括号表达式的开始。要匹配[，请使用\[。 ? 匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。要匹配? 字符，请使用\?。 \ 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如，'n' 匹配字符'n'。'\n' 匹配换行符。序列'\\' 匹配"\"，而'\(' 则匹配"("。 ^ 匹配输入字符串的开始位置，除非在方括号表达式中使用，此时它表示不接受该字符集合。要匹配^ 字符本身，请使用\^。 { 标记限定符表达式的开始。要匹配{，请使用\{。| 指明两项之间的一个选择。要匹配|，请使用\|。

正则表达式

要想真正的用好正则表达式，正确的理解元字符是最重要的事情。下表列出了所有的元字符和对它们的一个简短的描述。字符描述 \ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如，“\n”匹配字符“n”。“\\n”匹配一个换行符。序列“\\”匹配“\”而“\（”则匹配“（”。 ^ 匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性，^也匹配“\n”或“\r”之后的位置。 $ 匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性，$也匹配“\n”或“\r”之前的位置。 * 匹配前面的子表达式零次或多次。例如，zo*能匹配“z”以及“zoo”。*等价于{0，}。 + 匹配前面的子表达式一次或多次。例如，“z o+”能匹配“zo”以及“zoo”，但不能匹配“z”。+等价于{1，}。 ? 匹配前面的子表达式零次或一次。例如，“do（es）?”可以匹配“does”或“does”中的“d o”。?等价于{0，1}。 {n} n是一个非负整数。匹配确定的n次。例如，“o{2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的两个o。 {n,} n是一个非负整数。至少匹配n次。例如，“o{2，}”不能匹配“Bob”中的“o”，但能匹配“fo o o ood”中的所有o。“o{1，}”等价于“o+”。“o{0，}”则等价于“o*”。 {n,m} m和n均为非负整数，其中n<=m。最少匹配n次且最多匹配m次。例如，“o{1，3}”将匹配“fooooood”中的前三个o。“o{0，1}”等价于“o?”。请注意在逗号和两个数之间不能有空格。 ? 当该字符紧跟在任何一个其他限制符（*，+，?，{n}，{n，}，{n，m}）后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串“oooo”，“o?”将匹配单个“o”，而“o+”将匹配所有“o”。点匹配除“\n”之外的任何单个字符。要匹配包括“\n”在内的任何字符，请使用像“[\s\S]”的模式。

oracle正则表达式like

ORACLE中的支持正则表达式的函数主要有下面四个： 1，REGEXP_LIKE ：与LIKE的功能相似 2，REGEXP_INSTR ：与INSTR的功能相似 3，REGEXP_SUBSTR ：与SUBSTR的功能相似 4，REGEXP_REPLACE ：与REPLACE的功能相似它们在用法上与Oracle SQL 函数LIKE、INSTR、SUBSTR 和REPLACE 用法相同，但是它们使用POSIX 正则表达式代替了老的百分号（%）和通配符（_）字符。POSIX 正则表达式由标准的元字符（metacharacters）所构成： '^' 匹配输入字符串的开始位置，在方括号表达式中使用，此时它表示不接受该字符集合。 '$' 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性，则 $ 也匹配 '\n' 或 '\r'。 '.' 匹配除换行符之外的任何单字符。(like 中直接用_匹配) '?' 匹配前面的子表达式零次或一次。 '+' 匹配前面的子表达式一次或多次。 '*' 匹配前面的子表达式零次或多次。 '|' 指明两项之间的一个选择。例子'^([a-z]+|[0-9]+)$'表示所有小写字母或数字组合成的字符串。 '( )' 标记一个子表达式的开始和结束位置。 '[]' 标记一个中括号表达式。 '{m,n}' 一个精确地出现次数范围，m=<出现次数<=n，'{m}'表示出现m次，'{m,}'表示至少出现m次。 \num 匹配 num，其中 num 是一个正整数。对所获取的匹配的引用。字符簇： [[:alpha:]] 任何字母。 [[:digit:]] 任何数字。 [[:alnum:]] 任何字母和数字。 [[:space:]] 任何白字符。 [[:upper:]] 任何大写字母。 [[:lower:]] 任何小写字母。 [[:punct:]] 任何标点符号。 [[:xdigit:]] 任何16进制的数字，相当于[0-9a-fA-F]。各种操作符的运算优先级 \转义符 (), (?:), (?=), [] 圆括号和方括号 (?:)：不进入缓存 *, +, ?, {n}, {n,}, {n,m} 限定符 ^, $, anymetacharacter 位置和顺序 | */ --创建表 create table fzq

Oracle通配符

在Where子句中，可以对datetime、char、varchar字段类型的列用Like子句配合通配符选取那些"很像…"的数据记录，以下是可使用的通配符： %零或者多个字符 _单一任何字符（下划线） \特殊字符 []在某一范围内的字符，如[0-9]或者[aeth] [^]不在某范围内的字符，如[^0-9]或者[^aeth] 其中关于条件，SQL提供了四种匹配模式： 1,%:表示任意0个或多个字符。可匹配任意类型和长度的字符，有些情况下若是中文，请使用两个百分号（%%）表示。比如SELECT * FROM [user] WHERE u_name LIKE '%三%' 将会把u_name为"张三","张猫三"、"三脚猫","唐三藏"等等有"三"的记录全找出来。另外，如果需要找出u_name中既有"三"又有"猫"的记录，请使用and条件 SELECT * FROM [user] WHERE u_name LIKE '%三%' AND u_name LIKE '%猫%' 若使用SELECT * FROM [user] WHERE u_name LIKE '%三%猫%' 虽然能搜索出"三脚猫",但不能搜索出符合条件的"张猫三". 2,_: 表示任意单个字符。匹配单个任意字符，它常用来限制表达式的字符长度语句：比如SELECT * FROM [user] WHERE u_name LIKE '_三_' 只找出"唐三藏"这样u_name为三个字且中间一个字是"三"的；再比如SELECT * FROM [user] WHERE u_name LIKE '三__'; 只找出"三脚猫"这样name为三个字且第一个字是"三"的； 3,[ ]:表示括号内所列字符中的一个（类似正则表达式）。指定一个字符、字符串或范围，要求所匹配对象为它们中的任一个。比如SELECT * FROM [user] WHERE u_name LIKE '[张李王]三' 将找出"张三"、"李三"、"王三"（而不是"张李王三"）；如[ ] 内有一系列字符（01234、abcde之类的）则可略写为"0-4"、"a-e" SELECT * FROM [user] WHERE u_name LIKE '老[1-9]' 将找出"老1"、"老2"、……、"老9"; 4,[^ ] :表示不在括号所列之内的单个字符。其取值和[] 相同，但它要求所匹配对象为指定字符以外的任一个字符。比如SELECT * FROM [user] WHERE u_name LIKE '[^张李王]三' 将找出不姓"张"、"李"、"王"的"赵三"、"孙三"等； SELECT * FROM [user] WHERE u_name LIKE '老[^1-4]'; 将排除"老1"到"老4",寻找"老5"、"老6"、…… 5,查询内容包含通配符时由于通配符的缘故，导致我们查询特殊字符"%"、"_"、"["的语句无法正常实现，而把特殊字符用"[ ]"括起便可正常查询。据此我们写出以下函数： /// /// 处理查询条件 /// /// 查询条件 /// string public static string DealSqlQuery（string queryCondition）{

Oracle_模糊_查询方法

Oracle 模糊查询方法在Where子句中，可以对datetime、char、varchar字段类型的列用Like子句配合通配符选取那些“很像...”的数据记录，以下是可使用的通配符： % 零或者多个字符 _ 单一任何字符（下划线） \ 特殊字符 [] 在某一范围内的字符，如[0-9]或者[aeth] [^] 不在某范围内的字符，如[^0-9]或者[^aeth] 其中关于条件，SQL提供了四种匹配模式： 1，%：表示任意0个或多个字符。可匹配任意类型和长度的字符，有些情况下若是中文，请使用两个百分号（%%）表示。比如SELECT * FROM [user] WHERE u_name LIKE '%三%' 将会把u_name为“张三”，“张猫三”、“三脚猫”，“唐三藏”等等有“三”的记录全找出来。另外，如果需要找出u_name中既有“三”又有“猫”的记录，请使用and条件SELECT * FROM [user] WHERE u_name LIKE '%三%' AND u_name LIKE '%猫%' 若使用SELECT * FROM [user] WHERE u_name LIKE '%三%猫%' 虽然能搜索出“三脚猫”，但不能搜索出符合条件的“张猫三”。 2，_：表示任意单个字符。匹配单个任意字符，它常用来限制表达式的字符长度语句：比如SELECT * FROM [user] WHERE u_name LIKE '_三_' 只找出“唐三藏”这样u_name为三个字且中间一个字是“三”的；再比如SELECT * FROM [user] WHERE u_name LIKE '三__'; 只找出“三脚猫”这样name为三个字且第一个字是“三”的； 3，[ ]：表示括号内所列字符中的一个（类似正则表达式）。指定一个字符、字符串或范围，要求所匹配对象为它们中的任一个。比如SELECT * FROM [user] WHERE u_name LIKE '[张李王]三' 将找出“张三”、“李三”、“王三”（而不是“张李王三”）；

很完整的一篇正则表达式总结

1、正则表达式-完结篇---工具类开发--- ? 1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 '/.+/', 'email'=> '/^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$/', 'url'=> '/^http(s?):\/\/(?:[A-za-z0-9-]+\.)+[A-za-z]{2,4}(?:[\/ \?#][\/=\?%\-&~`@[\]\':+!\.#\w]*)?$/', 'currency'=> '/^\d+(\.\d+)?$/', 'number'=> '/^\d+$/', 'zip'=> '/^\d{6}$/', 'integer'=> '/^[-\+]?\d+$/', 'double'=> '/^[-\+]?\d+(\.\d+)?$/',

5 1 6 1 7 1 8 1 9 2 0 2 1 2 2 2 3 2 4 2 5 2 6 2'english'=> '/^[A-Za-z]+$/', 'qq'=> '/^\d{5,11}$/', 'mobile'=> '/^1(3|4|5|7|8)\d{9}$/', ); //定义其他属性 private$returnMatchResult=false; //返回类型判断 private$fixMode=null; //修正模式 private$matches=array(); //存放匹配结果 private$isMatch=false; //构造函数，实例化后传入默认的两个参数 public function __construct($returnMatchResult=false,$fixMode=null){ $this->returnMatchResult=$returnMatchResult; $this->fixMode=$fixMode; } //判断返回结果类型，为匹配结果matches还是匹配成功与否isMatch，并调用返回方法 private function regex($pattern,$subject){ if(array_key_exists(strtolower($pattern), $this->validate)) $pattern=$this->validate[$pattern].$this->fixMode; //判断后再连接上修正模式作为匹配的正则表达式 $this->returnMatchResult ?

Oracle正则表达式的用法

正则表达式具有强大、便捷、高效的文本处理功能。能够添加、删除、分析、叠加、插入和修整各种类型的文本和数据。Oracle从10g开始支持正则表达式一、Oracle预定义的 POSIX 字符类字符类说明 [:alph a:] 字母字符 [:lowe r:] 小写字母字符 [:uppe r:] 大写字母字符 [:digi t:] 数字 [:alnu m:] 字母数字字符 [:spac e:]空白字符（禁止打印），如回车符、换行符、竖直制表符和换页符 [:punc t:] 标点字符 [:cntr l:] 控制字符（禁止打印）[:prin t:] 可打印字符 [:alnum:]字母和数字混合的字符

二、正则表达式运算符和函数 1、REGEXP_SUBSTR REGEXP_SUBSTR为指定字符串的一部分与正则表达式建立匹配。语法如下： REGEXP_SUBSTR(source_string, pattern, start_position, occurrence, match_parameter) 说明其中source_string是必须的。可以是带引号的字符串或者变量。 Pattern是用单引号引用的与正则表达式。 Start_position指定了在字符串中的准确位置，默认值为1。 Occurrence是一个选项，指定在源字符串匹配过程中相对其他字符串，哪个字符串应该匹配。最后，match_parameter也是一个选项，指定在匹配时是否区分大水写。实例（1）、返回从ename的第二个位置开始查找，并且是以“L”开头到结尾的字串

SQL> select regexp_substr(ename,'L.*','2') substr from emp; （2）、 SELECT REGEXP_SUBSTR(mc,'[a-z]+') FROM test; SELECT REGEXP_SUBSTR(mc,'[0-9]+') FROM test; SELECT REGEXP_SUBSTR('aababcde','^a.*b') FROM DUAL; （3)、 SQL 代码复制 DECLARE V_RESULT VARCHAR2(255); BEGIN--返回‘light’ SELECT REGEXP_SUBSTR('But, soft! What light through yonder window breaks？','l[[:alpha:]]{4}') INTO V_RESULT FROM DUAL; DBMS_OUTPUT.PUT_LINE(V_RESULT); END; 2、REGEXP_INSTR REGEXP_INSTR返回与正则表达式匹配的字符和字符串的位置。语法 REGEXP_INSTR(source_string, pattern [, start_position [, occurrence [, return_option [, match_parameter]]]]) 参数： 'start' 开始查找的位置； 'occurrence' 说明应该返回第几次出现pattern的位置； 'eturn_option' 说明应该返回什么整数。若该参数为0，则说明要返回的整数是x中的一个字符的位置；若该参数为非0的整数，则说明要返回的整数为x中出现在pattern之后的

正则表达式

第一章正则表达式概述正则表达式(Regular Expression)起源于人类神经系统的研究。正则表达式的定义有以下几种： ●用某种模式去匹配一类字符串的公式，它主要是用来描述字符串匹配的工具。 ●描述了一种字符串匹配的模式。可以用来检查字符串是否含有某种子串、将匹配的子串做替换或者从中取出符合某个条件的子串等。 ●由普通字符(a-z)以及特殊字符（元字符）组成的文字模式，正则表达式作为一个模版，将某个字符模式与所搜索的字符串进行匹配。 ●用于描述某些规则的的工具。这些规则经常用于处理字符串中的查找或替换字符串。也就是说正则表达式就是记录文本规则的代码。 ●用一个字符串来描述一个特征，然后去验证另一个字符串是否符合这个特征。以上这些定义其实也就是正则表达式的作用。第二章正则表达式基础理论这些理论将为编写正则表达式提供法则和规范，正则表达式主要包括以下基础理论： ●元字符 ●字符串 ●字符转义 ●反义 ●限定符 ●替换 ●分组 ●反向引用 ●零宽度断言 ●匹配选项 ●注释 ●优先级顺序 ●递归匹配 2．1 元字符在正则表达式中，元字符（Metacharacter）是一类非常特殊的字符，它能够匹配一个位置或字符集合中的一个字符，如：、 \w等。根据功能，元字符可以分为两种类型：匹配位置的元字符和匹配字符的元字符。 2．1．1 匹配位置的元字符

包括：^、$、和\b。其中^（脱字符号）和$（美元符号）都匹配一个位置，分别匹配行的开始和结尾。比如，^string匹配以string开头的行，string$匹配以string结尾的行。^string$匹配以string开始和结尾的行。单个$匹配一个空行。单个^匹配任意行。\b匹配单词的开始和结尾，如：\bstr匹配以str开始的单词，但\b不匹配空格、标点符号或换行符号，所以，\bstr可以匹配string、string fomat等单词。\bstr正则表达式匹配的字符串必须以str开头，并且str以前是单词的分界处，但此正则表达式不能限定str之后的字符串形式。以下正则表达式匹配以ing结尾的字符串，如string、This is a string等 Ing\b 正则表达式ing\b匹配的字符串必须以ing结尾，并且ing后是分界符，以下正则表达式匹配一个完整的单词：\bstring\b。 2.1.2匹配字符的元字符匹配字符的元字符有7个:.(点号)、\w、\W、、s\、\S、\d和\D。其中点号匹配除换行之外的任意字符；\w匹配单词字符（包括字母、汉字、下划线和数字）；\W匹配任意非单词字符、\s匹配任意的空白字符，如空格、制表符、换行等；\S匹配任意的非空白字符；\d匹配任意数字字符；\D匹配任意的非数字字符。如： ^.$匹配一个非空行，在该行中可以包含除了换行符以外的任意字符。 ^\w$匹配一个非空行，并且该行中只能包含字母、数字、下划线和汉字中的任意字符。 \ba\w\w\w\w\w\w\\b匹配以字母a开头长度等于7的任意单词 \ba\w\w\w\d\d\d\D\b匹配以字母a开头后面有3个字符三个数字和1个非数字字符长度等于8的单词 2.2字符类字符类是一个字符集合，如果该字符集合中的任何一个字符被匹配，则它会找到该匹配项。字符类可以在[]（方括号）中定义。如：

ORACLE 正则表达式摘录笔记

ORACLE 正则表达式一.正则表达式简介: 正则表达式，就是以某种模式来匹配一类字符串。一旦概括了某类字符串，那么正则表达式即可用于针对字符串的各种相关操作。例如，判断匹配性，进行字符串的重新组合等。正则表达式提供了字符串处理的快捷方式。Oracle 10g及以后的版本中也支持正则表达式. 二. 正则表达式相对通配符的优势: 1.正则表达式中不仅存在着代表模糊字符的特殊字符，而且存在着量词等修饰字符，使得模式的控制更加灵活和强大。 2.通配符的使用一般是在特定的环境下,不同的环境下，通配符有可能不同。而正则表达式，不但广泛应用于各种编程语言，而且在各种编程语言中，保持了语法的高度一致性。三. 元字符: 元字符是指在正则表达式中表示特殊含义的字符。量词用来指定量词的前一个字符出现的次数。量词的形式主要有“?”、“*”、“+”、“{}”。量词在用于匹配字符串时，默认遵循贪婪原则。贪婪原则是指，尽可能多地匹配字符。例如:字符串“Function(p),(OK)”，如果使用正则表达式“$.*$”进行匹配，则得到字符串“(p),(OK)” ，而非“(p)”；若欲得到“(p)”，则必须取消量词的贪

婪原则，此时只需要为量词后追加另外一个数量词“?”即可。如上面的正则表达式应该改为“$.*?$”。五. 字符转义: 元字符在正则表达式中有特殊含义。如果需要使用其原义，则需要用到字符转义。字符转义使用字符“\”来实现。其语法模式为：“\”+元字符。例如，“\.”表示普通字符“.”；“\.doc”匹配字符串“.doc”；而普通字符“\”需要使用“\\”来表示。六. 字符组. 字符组是指将模式中的某些部分作为一个整体。这样，量词可以来修饰字符组，从而提高正则表达式的灵活性。字符组通过()来实现. 许多编程语言中，可以利用“$1”、“$2”等来获取第一个、第二个字符组，即所谓的后向引用。在Oracle中，引用格式为“\1”、“\2”。七. 正则表达式分支可以利用“|”来创建多个正则表达式分支。例如，“\d{4}|\w{4}”可以看做两个正则表达式——“\d{4}”和“\w{4}”，匹配其中任何一个正则表达式的字符串都被认为匹配整个正则表达式。如果该字符串两个正则表达式分支都匹配，那么将被处理为匹配第一个正则表达式分支。八. 字符类. 在Oracle中，正则表达式的用法与标准用法略有不同。这种不同主要体现在对于字符类的定义上。Orale中不使用字符“\”与普通字符组合的形式来实现字符九. ORACLE中的四个正则表达式相关函数. 1.regexp_like(expression, regexp) 返回值为一个布尔值。如果第一个参数匹配第二个参数所代表的正则表达式，那么将返回真，否则将返回假。举例:select * from people where regexp_like(name, '^J.*$'); 相当于: select * from people where name like 'J%'; 2.regexp_instr(expression, regexp, startindex, times) 返回找到的匹配字符串的位置.

正则表达式

正则表达式
目录
1. 引言 2. 基本语法 3. sed 4. awk 5. 练习:在 C 语言中使用正则表达式
1. 引言
以前我们用 grep 在一个文件中找出包含某些字符串的行,比如在头文件中找出一个宏定义. 其实 grep 还可以找出符合某个模式(Pattern)的一类字符串.例如找出所有符合 xxxxx@xxxx.xxx 模式的字符串(也就是 email 地址),要求 x 字符可以是字母,数字,下划线,小数点或减号,email 地址的每一部分可以有一个或多个 x 字符,例如 abc.d@https://www.wendangku.net/doc/dd17959801.html,, 1_2@987-6.54,当然符合这个模式的不全是合法的 email 地址,但至少可以做一次初步筛选, 筛掉 a.b,c@d 等肯定不是 email 地址的字符串.再比如,找出所有符合 yyy.yyy.yyy.yyy 模式的字符串(也就是 IP 地址),要求 y 是 0-9 的数字,IP 地址的每一部分可以有 1-3 个 y 字符. 如果要用 grep 查找一个模式,如何表示这个模式,这一类字符串,而不是一个特定的字符串呢?从这两个简单的例子可以看出,要表示一个模式至少应该包含以下信息: 字符类(Character Class):如上例的 x 和 y,它们在模式中表示一个字符,但是取值范围是一类字符中的任意一个. 数量限定符(Quantifier): 邮件地址的每一部分可以有一个或多个 x 字符,IP 地址的每一部分可以有 1-3 个 y 字符各种字符类以及普通字符之间的位置关系:例如邮件地址分三部分,用普通字符@和. 隔开,IP 地址分四部分,用.隔开,每一部分都可以用字符类和数量限定符描述.为了表示位置关系,还有位置限定符(Anchor)的概念,将在下面介绍.
规定一些特殊语法表示字符类,数量限定符和位置关系,然后用这些特殊语法和普通字符一起表示一个模式,这就是正则表达式(Regular Expression).例如 email 地址的正则表达式可以写成[a-zA-Z0-9_.-]+@[a-zA-Z0-9_.-]+\.[a-zA-Z0-9_.-]+,IP 地址的正则表达式可以写成[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}.下一节介绍正则表达式的语法, 我们先看看正则表达式在 grep 中怎么用.例如有这样一个文本文件 testfile:
192.168.1.1
第 1 页共 10 页

正则表达式和字符

一、正则表达式除非您以前使用过正则表达式，否则您可能不熟悉此术语。但是，毫无疑问，您已经使用过不涉及脚本的某些正则表达式概念。正则表达式示例例如，您很可能使用? 和* 通配符来查找硬盘上的文件。通配符匹配文件名中的单个字符，而* 通配符匹配零个或多个字符。像data?.dat 这样的模式将查找下列文件： data1.dat data2.dat datax.dat dataN.dat 使用* 字符代替? 字符扩大了找到的文件的数量。data*.dat 匹配下列所有文件： data.dat data1.dat data2.dat data12.dat datax.dat dataXYZ.dat 尽管这种搜索方法很有用，但它还是有限的。和* 通配符的能力引入了正则表达式所依赖的概念，但正则表达式功能更强大，而且更加灵活。

二、正则表达式语法正则表达式是一种文本模式，包括普通字符（例如，a 到z 之间的字母）和特殊字符（称为“元字符”）。模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式示例下表包含了元字符的完整列表以及它们在正则表达式上下文中的行为：

三、生成正则表达式正则表达式的结构与算术表达式的结构类似。即，各种元字符和运算符可以将小的表达式组合起来，创建大的表达式。分隔符通过在一对分隔符之间放置表达式模式的各种组件，就可以构建正则表达式。对于JScript，分隔符是正斜杠(/) 字符。例如： /expression/ 在上面的示例中，正则表达式模式(expression) 存储在RegExp对象的Pattern属性中。正则表达式的组件可以是单个字符、字符集、字符的范围、在几个字符之间选择或者所有这些组件的任何组合。四、优先级顺序正则表达式从左到右进行计算，并遵循优先级顺序，这与算术表达式非常类似。运算符下表从最高到最低说明了各种正则表达式运算符的优先级顺序：