- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
正则表达式和字符串处理 (全)
第一章 正则表达式概述
正则表达式 (Regular Expression) 起源于人类神经系统的研究。正则表达式的定义有以下几种:
用某种模式去匹配一类字符串的公式,它主要是用来描述字符串匹配的工具。
描述了一种字符串匹配的模式。可以用来检查字符串是否含有某种子串、将匹配的子串做替换或者从中取出符合某个条件的子串等。
由普通字符 (a-z) 以及特殊字符(元字符)组成的文字模式,正则表达式作为一个模版,将某个字符模式与所搜索的字符串进行匹配。
用于描述某些规则的的工具。这些规则经常用于处理字符串中的查找或替换字符串。
也就是说正则表达式就是记录文本规则的代码。
用一个字符串来描述一个特征,然后去验证另一个字符串是否符合这个特征。
以上这些定义其实也就是正则表达式的作用。
第二章 正则表达式基础理论
这些理论将为编写正则表达式提供法则和规范,正则表达式主要包括以下基础理论:
元字符
字符串
字符转义
反义
限定符
替换
分组
反向引用
零宽度断言
匹配选项
注释
优先级顺序
递归匹配
2. 1 元字符
在正则表达式中,元字符( Metacharacter )是一类非常特殊的字符,它能够匹配一个位置
或字符集合中的一个字符,如:、 \w 等。根据功能,元字符可以分为两种类型:匹配位置
的元字符和匹配字符的元字符。
2. 1.1 匹配位置的元字符
包括: ^、 $、和 \b。其中 ^(脱字符号)和 $(美元符号)都匹配一个位置,分别匹配行的开
始和结尾。 比如,^string 匹配以 string 开头的行, string$ 匹配以 string 结尾的行。 ^string$ 匹配以 string 开始和结尾的行。单个 $ 匹配一个空行。单个 ^匹配任意行。 \b 匹配单词的开始和结尾,如: \bstr 匹配以 str 开始的单词,但 \b 不匹配空格、标点符号或换行符号,所以,
\bstr 可以匹配 string 、string fomat 等单词。 \bstr 正则表达式匹配的字符串必须以 str 开头,
并且 str 以前是单词的分界处,但此正则表达式不能限定 str 之后的字符串形式。以下正则
表达式匹配以 ing 结尾的字符串,如 string 、This is a string 等
Ing\b
正则表达式 ing\b 匹配的字符串必须以 ing 结尾,并且 ing 后是分界符,以下正则表达式匹
配一个完整的单词: \bstring\b 。
2.1.2 匹配字符的元字符
匹配字符的元字符有 7 个 :.( 点号 )、 \w 、 \W 、、 、 \S 、 \d 和 \D。其中 点号匹配除换行之外
的任意字符; \w 匹配单词字符(包括字母、汉字、下划线和数字); \W 匹配任意非单词字符、 \s 匹配任意的空白字符,如空格、制表符、换行等; \S 匹配任意的非空白字符; \d 匹配任意数字字符; \D 匹配任意的非数字字符。如:
^.$ 匹配一个非空行,在该行中可以包含除了换行符以外的任意字符。
^\w$ 匹配一个非空行,并且该行中只能包含字母、数字、下划线和汉字中的任意字符。
\ba\w\w\w\w\w\w\\b 匹配以字母 a 开头长度等于 7 的任意单词
\ba\w\w\w\d\d\d\D\b 匹配以字母 a 开头后面有 3 个字符三个数字和 1 个非数字字符长度等
于 8 的单词
2.2 字符类
字符类是一个字符集合,如果该字符集合中的任何一个字符被匹配,则它会找到该匹配项。
字符类可以在 [] (方括号)中定义。如:
[012345] 可以匹配数字 0 到 5 中的任意一个。
<H[123456]>
可以匹配
HTML
标签中的
H1
到
H6 。
[Jj]ack
可以匹配字符串
Jack
或 jack 。
但是,由于表达式 [0123456789] 书写非常不方便,连字符 (-) 便应用而生 ,[0-9] 等价于
[0123456789] 。 [a-z] 匹配任何小写字母, [A-Z] 匹配任意大写字母。如果要在字符类中包含
连字符,则必须包含在第一位,如: [-a]表示表达式匹配 -或者 a。在字符类中如果 ^是字符
类的第一个字符表示否定该字符串,也就是匹配该字符串外的任意字符,如:
[^abc] 匹配除
了 abc 以外的任意字符, [^-] 匹配除了连字符以外的任意字符, a[^b] 匹配 a 之后不是 b 的字符串。
表 2-1 常用的字符类
字符或表达式
\w
\W
\s
\S
\d
\D
[abc]
[^abc]
[0-9a-z_A-Z_]
\p{name}
\P{name}
.
[^0-9a-zA-Z_]
说
文档评论(0)