(完整word版)正则表达式和字符串处理(全).doc

下载文档 降价啦

106
0
约8.29千字
约 9页
2020-10-31 发布于山东
举报
版权申诉
保障服务

(完整word版)正则表达式和字符串处理(全).doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

正则表达式和字符串处理 (全) 第一章正则表达式概述正则表达式 (Regular Expression) 起源于人类神经系统的研究。正则表达式的定义有以下几种：用某种模式去匹配一类字符串的公式，它主要是用来描述字符串匹配的工具。描述了一种字符串匹配的模式。可以用来检查字符串是否含有某种子串、将匹配的子串做替换或者从中取出符合某个条件的子串等。由普通字符 (a-z) 以及特殊字符（元字符）组成的文字模式，正则表达式作为一个模版，将某个字符模式与所搜索的字符串进行匹配。用于描述某些规则的的工具。这些规则经常用于处理字符串中的查找或替换字符串。也就是说正则表达式就是记录文本规则的代码。用一个字符串来描述一个特征，然后去验证另一个字符串是否符合这个特征。以上这些定义其实也就是正则表达式的作用。第二章正则表达式基础理论这些理论将为编写正则表达式提供法则和规范，正则表达式主要包括以下基础理论：元字符字符串字符转义反义限定符替换分组反向引用零宽度断言匹配选项注释优先级顺序递归匹配 2． 1 元字符在正则表达式中，元字符（ Metacharacter ）是一类非常特殊的字符，它能够匹配一个位置或字符集合中的一个字符，如：、 \w 等。根据功能，元字符可以分为两种类型：匹配位置的元字符和匹配字符的元字符。 2． 1．1 匹配位置的元字符包括： ^、 $、和 \b。其中 ^（脱字符号）和 $（美元符号）都匹配一个位置，分别匹配行的开始和结尾。比如，^string 匹配以 string 开头的行， string$ 匹配以 string 结尾的行。 ^string$ 匹配以 string 开始和结尾的行。单个 $ 匹配一个空行。单个 ^匹配任意行。 \b 匹配单词的开始和结尾，如： \bstr 匹配以 str 开始的单词，但 \b 不匹配空格、标点符号或换行符号，所以， \bstr 可以匹配 string 、string fomat 等单词。 \bstr 正则表达式匹配的字符串必须以 str 开头，并且 str 以前是单词的分界处，但此正则表达式不能限定 str 之后的字符串形式。以下正则表达式匹配以 ing 结尾的字符串，如 string 、This is a string 等 Ing\b 正则表达式 ing\b 匹配的字符串必须以 ing 结尾，并且 ing 后是分界符，以下正则表达式匹配一个完整的单词： \bstring\b 。 2.1.2 匹配字符的元字符匹配字符的元字符有 7 个 :.( 点号 )、 \w 、 \W 、、、 \S 、 \d 和 \D。其中点号匹配除换行之外的任意字符； \w 匹配单词字符（包括字母、汉字、下划线和数字）； \W 匹配任意非单词字符、 \s 匹配任意的空白字符，如空格、制表符、换行等； \S 匹配任意的非空白字符； \d 匹配任意数字字符； \D 匹配任意的非数字字符。如： ^.$ 匹配一个非空行，在该行中可以包含除了换行符以外的任意字符。 ^\w$ 匹配一个非空行，并且该行中只能包含字母、数字、下划线和汉字中的任意字符。 \ba\w\w\w\w\w\w\\b 匹配以字母 a 开头长度等于 7 的任意单词 \ba\w\w\w\d\d\d\D\b 匹配以字母 a 开头后面有 3 个字符三个数字和 1 个非数字字符长度等于 8 的单词 2.2 字符类字符类是一个字符集合，如果该字符集合中的任何一个字符被匹配，则它会找到该匹配项。字符类可以在 [] （方括号）中定义。如： [012345] 可以匹配数字 0 到 5 中的任意一个。 <H[123456]> 可以匹配 HTML 标签中的 H1 到 H6 。 [Jj]ack 可以匹配字符串 Jack 或 jack 。但是，由于表达式 [0123456789] 书写非常不方便，连字符 (-) 便应用而生 ,[0-9] 等价于 [0123456789] 。 [a-z] 匹配任何小写字母， [A-Z] 匹配任意大写字母。如果要在字符类中包含连字符，则必须包含在第一位，如： [-a]表示表达式匹配 -或者 a。在字符类中如果 ^是字符类的第一个字符表示否定该字符串，也就是匹配该字符串外的任意字符，如： [^abc] 匹配除了 abc 以外的任意字符， [^-] 匹配除了连字符以外的任意字符， a[^b] 匹配 a 之后不是 b 的字符串。表 2-1 常用的字符类字符或表达式 \w \W \s \S \d \D [abc] [^abc] [0-9a-z_A-Z_] \p{name} \P{name} . [^0-9a-zA-Z_] 说