- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
正则表达式和字串处理
第一章????????正则表达式概述
正则表达式(Regular Expression)起源于人类神经系统的研究。正则表达式的定义有以下几种:
l?????????用某种模式去匹配一类字符串的公式,它主要是用来描述字符串匹配的工具。
l?????????描述了一种字符串匹配的模式。可以用来检查字符串是否含有某种子串、将匹配的子串做替换或者从中取出符合某个条件的子串等。
l?????????由普通字符(a-z)以及特殊字符(元字符)组成的文字模式,正则表达式作为一个模版,将某个字符模式与所搜索的字符串进行匹配。
l?????????用于描述某些规则的的工具。这些规则经常用于处理字符串中的查找或替换字符串。也就是说正则表达式就是记录文本规则的代码。
l?????????用一个字符串来描述一个特征,然后去验证另一个字符串是否符合这个特征。
以上这些定义其实也就是正则表达式的作用。
第二章?正则表达式基础理论
这些理论将为编写正则表达式提供法则和规范,正则表达式主要包括以下基础理论:
l?????????元字符
l?????????字符串
l?????????字符转义
l?????????反义
l?????????限定符
l?????????替换
l?????????分组
l?????????反向引用
l?????????零宽度断言
l?????????匹配选项
l?????????注释
l?????????优先级顺序
l?????????递归匹配
2.1?元字符
在正则表达式中,元字符(Metacharacter)是一类非常特殊的字符,它能够匹配一个位置或字符集合中的一个字符,如:、?\w等。根据功能,元字符可以分为两种类型:匹配位置的元字符和匹配字符的元字符。
2.1.1?匹配位置的元字符
包括:^、$、和\b。其中^(脱字符号)和$(美元符号)都匹配一个位置,分别匹配行的开始和结尾。比如,^string匹配以string开头的行,string$匹配以string结尾的行。^string$匹配以string开始和结尾的行。单个$匹配一个空行。单个^匹配任意行。\b匹配单词的开始和结尾,如:\bstr匹配以str开始的单词,但\b不匹配空格、标点符号或换行符号,所以,\bstr可以匹配string、string fomat等单词。\bstr正则表达式匹配的字符串必须以str开头,并且str以前是单词的分界处,但此正则表达式不能限定str之后的字符串形式。以下正则表达式匹配以ing结尾的字符串,如string、This is a string等
Ing\b
正则表达式ing\b匹配的字符串必须以ing结尾,并且ing后是分界符,以下正则表达式匹配一个完整的单词:\bstring\b。
2.1.2?匹配字符的元字符
匹配字符的元字符有7个:.(点号)、\w、\W、、s\、\S、\d和\D。其中点号匹配除换行之外的任意字符;\w匹配单词字符(包括字母、汉字、下划线和数字);\W匹配任意非单词字符、\s匹配任意的空白字符,如空格、制表符、换行等;\S匹配任意的非空白字符;\d匹配任意数字字符;\D匹配任意的非数字字符。如:
^.$匹配一个非空行,在该行中可以包含除了换行符以外的任意字符。
?
^\w$匹配一个非空行,并且该行中只能包含字母、数字、下划线和汉字中的任意字符。
?
\ba\w\w\w\w\w\w\\b匹配以字母a开头长度等于7的任意单词
?
\ba\w\w\w\d\d\d\D\b匹配以字母a开头后面有3个字符三个数字和1个非数字字符长度等于8的单词
?
2.2?字符类
字符类是一个字符集合,如果该字符集合中的任何一个字符被匹配,则它会找到该匹配项。字符类可以在[](方括号)中定义。如:
[012345]可以匹配数字0到5中的任意一个。
H[123456]可以匹配HTML标签中的H1到H6。
[Jj]ack可以匹配字符串Jack或jack。
但是,由于表达式[0123456789]书写非常不方便,连字符(-)便应用而生,[0-9]等价于[0123456789]。[a-z]匹配任何小写字母,[A-Z]匹配任意大写字母。如果要在字符类中包含连字符,则必须包含在第一位,如:[-a]表示表达式匹配-或者a。在字符类中如果^是字符类的第一个字符表示否定该字符串,也就是匹配该字符串外的任意字符,如:[^abc]匹配除了abc以外的任意字符,[^-]匹配除了连字符以外的任意字符,a[^b]匹配a之后不是b的字符串。
表2-1?常用的字符类
字符或表达式 说明 \w 匹配单词字符(包括字母、数字、下划线和汉字) \W 匹配任意的非单词字符(包括字母、数字、下划线和汉字) \s 匹配任意的空白字符,如空格、制表符、换行符、中文全角空格等 \
您可能关注的文档
- 李长栓_我的学如何练习翻译.doc
- 李青松展示名画七十年代作品第七部分.doc
- 材料作文“改变己与改变世界” 导写.doc
- 材料作文“改变己与改变世界”_导写.doc
- 材料作文:改变界改变自己.doc
- 杜十娘怒沉百宝(教案设计).doc
- 杜双花 科学教设计 猫头鹰与农田comWord 文档.doc
- 杜曼闪卡之百科系列资料分享.doc
- 杜甫诗三首(优教案).doc
- 杜甫诗三首导学(已完成).doc
- 第18讲 第17课 西晋的短暂统一和北方各族的内迁.docx
- 第15讲 第14课 沟通中外文明的“丝绸之路”.docx
- 第13课时 中东 欧洲西部.doc
- 第17讲 第16 课三国鼎立.docx
- 第17讲 第16课 三国鼎立 带解析.docx
- 2024_2025年新教材高中历史课时检测9近代西方的法律与教化含解析新人教版选择性必修1.doc
- 2024_2025学年高二数学下学期期末备考试卷文含解析.docx
- 山西版2024高考政治一轮复习第二单元生产劳动与经营第5课时企业与劳动者教案.docx
- 第16讲 第15课 两汉的科技和文化 带解析.docx
- 第13课 宋元时期的科技与中外交通.docx
文档评论(0)