Python数据分析与应用 课件 第6章 Python网络爬虫.ppt

Python数据分析与应用 课件 第6章 Python网络爬虫.ppt

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

********第9章文件*第9章文件第6章Python网络爬虫《Python数据分析与应用》网络爬虫网络爬虫(WebSpider),又被称为网页蜘蛛或网络机器人,通过一定的规则自动地抓取网络信息。网络爬虫就是根据网址获取网页信息。例如,当输入网址:/,浏览器向DNS服务器发出请求,经过解析,将发送给浏览器的HTML、JS、CSS等文件解析出来,便成了百度内容。爬虫流程爬取Python提供了requests等库实现HTTP请求操作,获取网页的源代码。Requests方法解释requests.get()获取html的主要方法requests.head()获取html头部信息的主要方法requests.post()向html网页提交post请求的方法requests.put()向html网页提交put请求的方法requests.patch()向html提交局部修改的请求requests.delete()向html提交删除请求Requestsimportrequestsr=requests.get(url=http://www……)#GET请求print(r.status_code)#获取返回状态print(r.url)print(r.text)#打印解码后的返回数据解析从网页源代码中提取有用的信息。方法1:采用正则表达式提取,但是在构造正则表达式时比较复杂且容易出错。方法2:由于网页的结构有一定的规则,可以利用BeautifulSoup、pyquery、lxml等库提取网页节点属性、CSS选择器等网页信息。存储将提取到的数据保存到某处以便后续处理和分析,可以保存为TXT文本或JSON文本,也可以保存到MySQL和MongoDB等数据库。正则表达式正则表达式,又称正规表示法、常规表示法,是指通过事先定义好的特定字符(“元字符”)组成的“规则字符串”,对字符串进行过滤逻辑。凡是符合规则的字符串,认为“匹配”,否则,不“匹配”。正则表达式采用正则表达式判断一个字符串是否包含合法的Email,需要创建一个匹配Email的正则表达式,然后通过该正则表达式去判断。正则表达式元字符含义输入输出.匹配任意字符?a.cAbc^匹配开始位置^abcAbc$匹配结束位置abc$Abc*?匹配前一个元字符0到多次abc*ab;abccc+匹配前一个元字符1到多次abc+abc;abccc?匹配前一个元字符0到1次abc?ab;abcre模块fIndall()compile()match()search()replace()split()Python中的re模块提供了一个正则表达式引擎接口,允许将正则表达式编译成模式对象,通过这些模式对象执行模式匹配搜索和字符串分割、子串替换等操作。Findall()importrep=pile(r\d+)print(p.findall(o1n2m3k4))[1,2,3,4]search()importrea=123abc456print(re.search(([0-9]*)([a-z]*)([0-9]*),a).group(0))123abc456print(re.search(([0-9]*)([a-z]*)([0-9]*),a).group(1))123print(re.search(([0-9]*)([a-z]*)([0-9]*),a).group(2))abcprint(re.search(([0-9]*)([a-z]*)([0-9]*),a).group(3))456Match()importreprint(re.match(www,).span())#在起始位置匹配(0,3)print(re.match(com,))#不在起始位置匹配Nonesplit()1)只传一个参数,默认分割整个字符串str=a,b,c,d,e;str.sp

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档