- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[工学]正则表达式
正则表达式 正则表达式 正则表达式的概念 正则表达式的作用 正则表达式的组成 正则表达式的概念 正则表达式到底是什么? 正则表达式,就是用某种模式去从左向右地去匹配一类字符串的一个公式,换句话说,正则表达式就是记录文本规则的代码。 正则表达式的作用 正则表达式用于字符串处理、表单验证等场合,实用高效。Windows/Dos下用于文件查找的通配符,是*和?。如果你想查找某个目录下的所有的Word文档的话,你会搜索*.doc。在这里,*会被解释成任意的字符串。 和通配符类似,正则表达式也是用来进行文本匹配的工具,只不过比起通配符,它能更精确地描述你的需求——当然,代价就是更复杂。 某个字符串匹配某个正则表达式,通常是指这个字符串里有一部分(或几部分分别)能满足表达式给出的条件。 正则表达式的组成 正则表达式由一些普通字符和一些元字符组成。 普通字符包括大小写的字母和数字,而元字符则具有特殊的含义。在最简单的情况下,一个正则表达式看上去就是一个普通的字符串。例如,正则表达式“Hello中没有包含任何元字符,它可以匹配“Hello和123Hello等字符串,但是不能匹配“hello。 元字符 元字符是正则表达式规定的特殊代码。正则表达式中有很多元字符,例如:\d 匹配一位数字,\b代表是字符串的开头和结尾。下面列出一些元字符: 常用的一些元字符 正则表达式基本书写符号 字符转义 当查找元字符本身时,比如查找.,或者*, 无法指定它们,因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此,你应该使用\.和\*。当然,要查找\本身,你也得用\\. 例如:Asp\.net匹配Asp.net,C:\\Windows匹配C:\Windows。 限定符 正则表达式中所有的限定符是指定数量的代码 。 正则表达式限定符符号 正则表达式限定符符号 限定符 下面是一些使用重复的例子: Windows\d+匹配Windows后面跟1个或更多数字 ^\w+匹配一行的第一个单词(或整个字符串的第一个单词,具体匹配哪个意思得看选项设置) 字符类 问题: 要想查找数字,字母或数字,空白是很简单的,因为已经有了对应这些字符集合的元字符,但是如果你想匹配没有预定义元字符的字符集合(比如元音字母a,e,i,o,u),应该怎么办? 字符类 很简单,你只需要在方括号里列出它们就行了,像[aeiou]就匹配任何一个英文元音字母,[.?!]匹配标点符号(.或?或!)。 可以指定一个字符范围,像[0-9]代表的含意与\d就是完全一致的:一位数字;同理[a-z0-9A-Z_]也完全等同于\w(如果只考虑英文的话)。 字符类 下面是一个更复杂的表达式: \(?0\d{2}[) -]?\d{8} 这个表达式可以匹配几种格式的电话号码,像(010或022或02912345678等。我们对它进行一些分析吧:首先是一个转义字符\(,它能出现0次或1次(?),然后是一个0,后面跟着2个数字(\d{2}),然后是)或-或空格中的一个,它出现1次或不出现(?),最后是8个数字(\d{8})。 这个表达式是个不好的表达式,因为它会匹配几种不正确的格式。 分枝条件 刚才那个表达式也能匹配010(022样的“不正确”的格式。要解决这个问题,我们需要用到分枝条件。 正则表达式里的分枝条件指的是有几种规则,如果满足其中任意一种规则都应该当成匹配,具体方法是用|把不同的规则分隔开。 例如:0\d{2}-\d{8}|0\d{3}-\d{7}这个表达式能匹配两种以连字号分隔的电话号码:一种是三位区号,8位本地号(如010,一种是4位区号,7位本地号(0376-2233445)。 分枝条件 \(0\d{2}\)[- ]?\d{8}|0\d{2}[- ]?\d{8}这个表达式匹配3位区号的电话号码,其中区号可以用小括号括起来,也可以不用,区号与本地号间可以用连字号或空格间隔,也可以没有间隔。你可以试试用分枝条件把这个表达式扩展成也支持4位区号的。 \d{5}-\d{4}|\d{5}这个表达式用于匹配美国的邮政编码。美国邮编的规则是5位数字,或者用连字号间隔的9位数字。 分枝条件 之所以要给出这个例子是因为它能说明一个问题:使用分枝条件时,要注意各个条件的顺序。如果你把它改成\d{5}|\d{5}-\d{4}的话,那么就只会匹配5位的邮编(以及9位邮编的前5位)。原因是匹配分枝条件时,将会从左到右地测试每个条件,如果满足了某个分枝的话,就不会去再管其它的条件了。 分组 我们已经提到了怎么重复单个字符(直接在字符后面加上限定符就行了);但如果想要重
文档评论(0)