玩转python爬虫之正则表达式.docVIP

下载本文档

5
0
约7.19千字
约 5页
2017-01-09 发布于重庆
举报
版权申诉

玩转python爬虫之正则表达式.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

玩转python爬虫之正则表达式

玩转python爬虫之正则表达式面对大量杂乱的代码夹杂文字我们怎样把它提取出来整理呢？下面就开始介绍一个十分强大的工具，正则表达式！ 1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具，在其他编程语言中同样有正则表达式的概念，Python同样不例外，利用了正则表达式，我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。正则表达式的大致匹配过程是： 1.依次拿出表达式和文本中的字符比较， 2.如果每一个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。 3.如果表达式中有量词或边界，这个过程会稍微有一些不同。 2.正则表达式的语法规则下面是Python中正则表达式的一些匹配规则，图片资料来自CSDN 3.正则表达式相关注解（1）数量词的贪婪模式与非贪婪模式正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；非贪婪的则相反，总是尝试匹配尽可能少的字符。例如：正则表达式”ab*”如果用于查找”abbbc”，将找到”abbb”。而如果使用非贪婪的数量词”ab*?”，将找到”a”。注：我们一般使用非贪婪模式来提取。（2）反斜杠问题与大多数编程语言相同，正则表达式里使用”\”作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符”\”，那么使用编程语言表示的正则表达式里将需要4个反斜杠”\\\\”：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。 Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r”\\”表示。同样，匹配一个数字的”\\d”可以写成r”\d”。有了原生字符串，妈妈也不用担心是不是漏写了反斜杠，写出来的表达式也更直观勒。 4.PythonRe模块 Python自带了re模块，它提供了对正则表达式的支持。主要用到的方法列举如下 #返回pattern对象pile(string[,flag])#以下为匹配所用函数re.match(pattern,string[,flags])re.search(pattern,string[,flags])re.split(pattern,string[,maxsplit])re.findall(pattern,string[,flags])re.finditer(pattern,string[,flags])re.sub(pattern,repl,string[,count])re.subn(pattern,repl,string[,count]) 在介绍这几个方法之前，我们先来介绍一下pattern的概念，pattern可以理解为一个匹配模式，那么我们怎么获得这个匹配模式呢？很简单，我们需要利用pile方法就可以。例如 pattern=pile(rhello) 在参数中我们传入了原生字符串对象，通过compile方法编译生成一个pattern对象，然后我们利用这个对象来进行进一步的匹配。另外大家可能注意到了另一个参数flags，在这里解释一下这个参数的含义：参数flag是匹配模式，取值可以使用按位或运算符|表示同时生效，比如re.I|re.M。可选值有： ?re.I(全拼：IGNORECASE):忽略大小写（括号内是完整写法，下同） ?re.M(全拼：MULTILINE):多行模式，改变^和$的行为（参见上图） ?re.S(全拼：DOTALL):点任意匹配模式，改变.的行为 ?re.L(全拼：LOCALE):使预定字符类\w\W\b\B\s\S取决于当前区域设定 ?re.U(全拼：UNICODE):使预定字符类\w\W\b\B\s\S\d\D取决于unicode定义的字符属性 ?re.X(全拼：VERBOSE):详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释。在刚才所说的另外几个方法例如re.match里我们就需要用到这个pattern了，下面我们一一介绍。注：以下七个方法中的flags同样是代表匹配模式的意思，如果在pattern生成时已经指明了flags，那么在下面的方法中就不需要传入这个参数了。（1）re.match(pattern,string[,flags]) 这个方法将会从string（我们要匹配的字符串）的开头开始，尝试匹配pattern，一直向后匹配，如果遇到无法匹配的字符，立即返回None，如果匹配未结束已经到达string的末尾，也会返回None。两个结