(完整word版)正则表达式和字符串处理(全).doc

(完整word版)正则表达式和字符串处理(全).doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
正则表达式和字符串处理 (全) 第一章 正则表达式概述 正则表达式 (Regular Expression) 起源于人类神经系统的研究。正则表达式的定义有以下几种: 用某种模式去匹配一类字符串的公式,它主要是用来描述字符串匹配的工具。 描述了一种字符串匹配的模式。可以用来检查字符串是否含有某种子串、将匹配的子串做替换或者从中取出符合某个条件的子串等。 由普通字符 (a-z) 以及特殊字符(元字符)组成的文字模式,正则表达式作为一个模版,将某个字符模式与所搜索的字符串进行匹配。 用于描述某些规则的的工具。这些规则经常用于处理字符串中的查找或替换字符串。 也就是说正则表达式就是记录文本规则的代码。 用一个字符串来描述一个特征,然后去验证另一个字符串是否符合这个特征。 以上这些定义其实也就是正则表达式的作用。 第二章 正则表达式基础理论 这些理论将为编写正则表达式提供法则和规范,正则表达式主要包括以下基础理论: 元字符 字符串 字符转义 反义 限定符 替换 分组 反向引用 零宽度断言 匹配选项 注释 优先级顺序 递归匹配 2. 1 元字符 在正则表达式中,元字符( Metacharacter )是一类非常特殊的字符,它能够匹配一个位置 或字符集合中的一个字符,如:、 \w 等。根据功能,元字符可以分为两种类型:匹配位置 的元字符和匹配字符的元字符。 2. 1.1 匹配位置的元字符 包括: ^、 $、和 \b。其中 ^(脱字符号)和 $(美元符号)都匹配一个位置,分别匹配行的开 始和结尾。 比如,^string 匹配以 string 开头的行, string$ 匹配以 string 结尾的行。 ^string$ 匹配以 string 开始和结尾的行。单个 $ 匹配一个空行。单个 ^匹配任意行。 \b 匹配单词的开始和结尾,如: \bstr 匹配以 str 开始的单词,但 \b 不匹配空格、标点符号或换行符号,所以, \bstr 可以匹配 string 、string fomat 等单词。 \bstr 正则表达式匹配的字符串必须以 str 开头, 并且 str 以前是单词的分界处,但此正则表达式不能限定 str 之后的字符串形式。以下正则 表达式匹配以 ing 结尾的字符串,如 string 、This is a string 等 Ing\b 正则表达式 ing\b 匹配的字符串必须以 ing 结尾,并且 ing 后是分界符,以下正则表达式匹 配一个完整的单词: \bstring\b 。 2.1.2 匹配字符的元字符 匹配字符的元字符有 7 个 :.( 点号 )、 \w 、 \W 、、 、 \S 、 \d 和 \D。其中 点号匹配除换行之外 的任意字符; \w 匹配单词字符(包括字母、汉字、下划线和数字); \W 匹配任意非单词字符、 \s 匹配任意的空白字符,如空格、制表符、换行等; \S 匹配任意的非空白字符; \d 匹配任意数字字符; \D 匹配任意的非数字字符。如: ^.$ 匹配一个非空行,在该行中可以包含除了换行符以外的任意字符。 ^\w$ 匹配一个非空行,并且该行中只能包含字母、数字、下划线和汉字中的任意字符。 \ba\w\w\w\w\w\w\\b 匹配以字母 a 开头长度等于 7 的任意单词 \ba\w\w\w\d\d\d\D\b 匹配以字母 a 开头后面有 3 个字符三个数字和 1 个非数字字符长度等 于 8 的单词 2.2 字符类 字符类是一个字符集合,如果该字符集合中的任何一个字符被匹配,则它会找到该匹配项。 字符类可以在 [] (方括号)中定义。如: [012345] 可以匹配数字 0 到 5 中的任意一个。 <H[123456]>  可以匹配  HTML  标签中的  H1  到  H6 。 [Jj]ack  可以匹配字符串  Jack  或 jack 。 但是,由于表达式 [0123456789] 书写非常不方便,连字符 (-) 便应用而生 ,[0-9] 等价于 [0123456789] 。 [a-z] 匹配任何小写字母, [A-Z] 匹配任意大写字母。如果要在字符类中包含 连字符,则必须包含在第一位,如: [-a]表示表达式匹配 -或者 a。在字符类中如果 ^是字符 类的第一个字符表示否定该字符串,也就是匹配该字符串外的任意字符,如:  [^abc] 匹配除 了 abc 以外的任意字符, [^-] 匹配除了连字符以外的任意字符, a[^b] 匹配 a 之后不是 b 的字符串。 表 2-1 常用的字符类 字符或表达式 \w \W \s \S \d \D [abc] [^abc] [0-9a-z_A-Z_] \p{name} \P{name} . [^0-9a-zA-Z_]  说

文档评论(0)

137****7230 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档