正则表达式和字符串处理(全).docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
正就表达式和字符串处理 (全) 第一章 正就表达式概述 正就表达式 (Regular Expression) 起源于人类神经系统的争论;正就表达式的定义有以下几种: |精. |品. |可. |编. |辑. |学. |习. |资. |料. * | * | * | * | |欢. |迎. |下. |载. 用某种模式去匹配一类字符串的公式,它主要是用来描述字符串匹配的工具; 描述了一种字符串匹配的模式;可以用来检查字符串是否含有某种子串、将匹配的子串做替换或者从中取出符合某个条件的子串等; 由一般字符 (a-z) 以及特殊字符(元字符)组成的文字模式,正就表达式作为一个模版, 将某个字符模式与所搜寻的字符串进行匹配; 用于描述某些规章的的工具;这些规章常常用于处理字符串中的查找或替换字符串;也就是说正就表达式就是记录文本规章的代码; 用一个字符串来描述一个特点,然后去验证另一个字符串是否符合这个特点;以上这些定义其实也就是正就表达式的作用; 其次章 正就表达式基础理论 这些理论将为编写正就表达式供应法就和规范,正就表达式主要包括以下基础理论: 元字符 字符串 字符转义反义 限定符替换 分组 反向引用 零宽度断言匹配选项 注释 优先级次序 递归匹配 2. 1 元字符 在正就表达式中,元字符( Metacharacter )是一类特别特殊的字符,它能够匹配一个位置或字符集合中的一个字符,如:、 \w 等;依据功能,元字符可以分为两种类型:匹配位置的元字符和匹配字符的元字符; 2. 1. 1 匹配位置的元字符 包括: ^、$、和 \b;其中 ^(脱字符号)和 $(美元符号)都匹配一个位置,分别匹配行的开 始和结尾; 比如,^string 匹配以 string 开头的行, string$ 匹配以 string 结尾的行; ^string$ 匹配以 string 开头和结尾的行;单个 $匹配一个空行;单个 ^匹配任意行; \b 匹配单词的开头和结尾,如: \bstr 匹配以 str 开头的单词,但 \b 不匹配空格、标点符号或换行符号,所以, \bstr 可以匹配 string 、string fomat 等单词; \bstr 正就表达式匹配的字符串必需以 str 开头, 并且 str 以前是单词的分界处,但此正就表达式不能限定 str 之后的字符串形式;以下正就 表达式匹配以 ing 结尾的字符串,如 string 、This is a string 等 Ing\b |精. |品. |可. |编. |辑. |学. |习. |资. |料. * | * | * | * | |欢. |迎. |下. |载. 正就表达式 ing\b 匹配的字符串必需以 ing 结尾,并且 ing 后是分界符,以下正就表达式匹配一个完整的单词: \bstring\b ; 2.1.2 匹配字符的元字符 ^.$ 匹配一个非空行,在该行中可以包含除了换行符以外的任意字符;^\w$ 匹配一个非空行,并且该行中只能包含字母、数字、下划线和汉字中的任意字符;\ba\w\w\w\w\w\w\\b匹配以字母 a 开头长度等于 7 的任意单词\ba\w\w\w\d\d\d\D\b匹配以字母 a 开头后面有 3 个字符三个数字和 1 个非数字字符长度等于 8 的单词匹配字符的元字符有 7 个:.( 点号)、\w 、\W 、、 、\S、 ^.$ 匹配一个非空行,在该行中可以包含除了换行符以外的任意字符; ^\w$ 匹配一个非空行,并且该行中只能包含字母、数字、下划线和汉字中的任意字符; \ba\w\w\w\w\w\w\\b 匹配以字母 a 开头长度等于 7 的任意单词 \ba\w\w\w\d\d\d\D\b 匹配以字母 a 开头后面有 3 个字符三个数字和 1 个非数字字符长度等 于 8 的单词 2.2 字符类 字符类是一个字符集合,假如该字符集合中的任何一个字符被匹配,就它会找到该匹配项;字符类可以在 [](方括号)中定义;如: [012345] 可以匹配数字 0 到 5 中的任意一个; H[123456] 可以匹配 HTML 标签中的 H1 到 H6 ;[Jj]ack 可以匹配字符串 Jack 或 jack ; 但是,由于表达式 [0123456789] 书写特别不便利,连字符 (-) 便应用而生 ,[0-9] 等价于 [0123456789] ;[a-z] 匹配任何小写字母, [A-Z] 匹配任意大写字母;假如要在字符类中包含连字符,就必需包含在第一位,如: [-a] 表示表达式匹配 -或者 a;在字符类中假如 ^是字符 类的第一个字符表示否定该字符串,也就是匹配该字符串外的任意字符,如: [^abc] 匹配除 了 abc 以外的任意字符, [^-] 匹配除了连字符以外的任

文档评论(0)

教育资料 + 关注
实名认证
文档贡献者

精品学习资料

1亿VIP精品文档

相关文档