python的正则表达式 re.docVIP

下载本文档

5
0
约1.53万字
约 17页
2017-08-25 发布于上海
举报
版权申诉

python的正则表达式 re.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

python的正则表达式 re 延伸阅读：python的内建函数和 subprocess 。此文是本系列的第三篇文章了，和之前一样，内容出自官方文档，但是会有自己的理解，并非单纯的翻译。所以，如果我理解有误，欢迎指正，谢谢。本模块提供了和Perl里的正则表达式类似的功能，不关是正则表达式本身还是被搜索的字符串，都可以是Unicode字符，这点不用担心，python会处理地和Ascii字符一样漂亮。正则表达式使用反斜杆（\）来转义特殊字符，使其可以匹配字符本身，而不是指定其他特殊的含义。这可能会和python字面意义上的字符串转义相冲突，这也许有些令人费解。比如，要匹配一个反斜杆本身，你也许要用\\\\来做为正则表达式的字符串，因为正则表达式要是\\，而字符串里，每个反斜杆都要写成\\。你也可以在字符串前加上 r 这个前缀来避免部分疑惑，因为 r 开头的python字符串是 raw 字符串，所以里面的所有字符都不会被转义，比如r\n这个字符串就是一个反斜杆加上一字母n，而\n我们知道这是个换行符。因此，上面的\\\\你也可以写成r\\，这样，应该就好理解很多了。可以看下面这段： import re s = \x5c #0x5c就是反斜杆 print s \ re.match(\\\\, s) #这样可以匹配 _sre.SRE_Match object at 0xb6949e20 re.match(r\\, s) #这样也可以 _sre.SRE_Match object at 0x80ce2c0 re.match(\\, s) #但是这样不行 Traceback (most recent call last): File stdin, line 1, in module File /usr/lib/python2.6/re.py, line 137, in match return _compile(pattern, flags).match(string) File /usr/lib/python2.6/re.py, line 245, in _compile raise error, v # invalid expression sre_constants.error: bogus escape (end of line) 另外值得一提的是，re模块的方法，大多也就是RegexObject对象的方法，两者的区别在于执行效率。这个在最后再展开吧。正则表达式语法正则表达式（RE）指定一个与之匹配的字符集合；本模块所提供的函数，将可以用来检查所给的字符串是否与指定的正则表达式匹配。正则表达式可以被连接，从而形成新的正则表达式；例如A和B都是正则表达式，那么AB也是正则表达式。一般地，如果字符串p与A匹配，q与B匹配的话，那么字符串pq也会与AB匹配，但A或者B里含有边界限定条件或者命名组操作的情况除外。也就是说，复杂的正则表达式可以用简单的连接而成。正则表达式可以包含特殊字符和普通字符，大部分字符比如A，a和0都是普通字符，如果做为正则表达式，它们将匹配它们本身。由于正则表达式可以连接，所以连接多个普通字符而成的正则表达式last也将匹配last。（后面将用不带引号的表示正则表达式，带引号的表示字符串）下面就来介绍正则表达式的特殊字符： .点号，在普通模式，它匹配除换行符外的任意一个字符；如果指定了 DOTALL 标记，匹配包括换行符以内的任意一个字符。 ^尖尖号，匹配一个字符串的开始，在 MULTILINE 模式下，也将匹配任意一个新行的开始。 $美元符号，匹配一个字符串的结尾或者字符串最后面的换行符，在 MULTILINE 模式下，也匹配任意一行的行尾。也就是说，普通模式下，foo.$去搜索foo1\nfoo2\n只会找到’foo2′，但是在 MULTILINE 模式，还能找到 ‘foo1′，而且就用一个 $ 去搜索foo\n的话，会找到两个空的匹配：一个是最后的换行符，一个是字符串的结尾，演示： re.findall((foo.$), foo1\nfoo2\n) [foo2] re.findall((foo.$), foo1\nfoo2\n, re.MULTILINE) [foo1, foo2] re.findall(($), foo\n) [, ] *星号，指定将前面的RE重复0次或者任意多次，而且总是试图尽量多次地匹配。 +加号，指定将前面的RE重复1次或者任意多次，而且总是试图尽量多次地匹配。 ?问号，指定将前面的RE重复0次或者1次，如果有的话，也尽量匹配1次。 *?， +?， ??从前面的描述可以看到*，+和?都是贪婪的，但这也