《Python网络数据采集》第 1 章.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE PAGE 1 《Python网络数据采集》第 1 章 《Python网络数据采集》7月8号-7月10号,这三天将该书精读一遍,脑海中有了一个爬虫大体框架后,对于后续学习将越发有全局感。 此前,曾实验看视频学习,但是一个视频基本2小时,所有拿下需要30多个视频,如此看来天天学习一个视频时光都是十分吃力的,且都属于被动输入,尤其是在早上学习视频简单犯困。 故此,准时调节学习策略,采纳电子书+廖雪峰网页教程+实操+Google+询问程序员+每日总结归纳的主动学习模式,如此越发高效,越发简单把控进度! 学习爬虫,一者爱好,致力于借此爱好驱动力把握编程思维,进而让自己有能够将主意做成产品的的技能;二者,为了一个近在眼前的爬虫商业化机遇,更希翼借此为自己增强一个收入来源。 1.爬虫常见得异样及处理办法,用一个容易得爬虫代码说明,核心学问点: (1)异样一:网页在服务器上不存在(或者猎取页面时,浮现错误)。该异样发生时,程序会返回HTTP错误,如404PageNotFoundquot;500InternetServerErrorquot;等。 (2)异样二:服务器不存在(即,链接打不开,或者URL链接写错了),这时,urlopen会返回一个None对象。 Ps:有的时候,网页已经从服务器胜利猎取,假如网页上的内容并非彻低是我们期望的那样,也会浮现异样。 1fromurllib.requestimporturlopen 2frombs4importBeautifulSoup 3 4try: 5html=urlopen(quot;/pages/page1.htmlquot;) 6print(html.read()) 7检测:网页在服务器上是否存在(或者猎取页面时是否浮现错误) 8exceptHTTPErrorase: 9print(e) 10else: 11bsobj=BeautifulSoup(html.read()) 12检测:服务器是否存在(就是说链接能否打开,或者是URL链接写错了) 13ifhtmlisNone: 14print(quot;URLisnotfoundquot;) 15else: 16print(bsobj.h1) 17print(bsobj.title) 1以上代码更改为检测异样更全面、可读性更强的代码,如下: 2fromurllib.requestimporturlopen 3frombs4importBeautifulSoup 4 5defgetTitle(url): 6try: 7html=urlopen(url) 8exceptHTTPErrorase: 9returnNone 10try: 11bsobj=BeautifulSoup(html.read()) 12title=bsobj.body.h1 13exceptAttributeErrorase: 14return 15returntitle 16 17title1=getTitle(quot;/pages/page1.htmlquot;) 18iftitle1==None: 19print(quot;Titlecouldnotbefoundquot;) 20else: 21print(title1) 该部分代码执行时,浮现报错: indentationerror:unexpectedindentprocessfinishedwithexitcode1 Google发觉,Tag和Space不能混合用法。原始第五行,def被tab缩进,后删除该tab缩进,问题解决。该问题详细缘由,仍需要认真查明!!!

您可能关注的文档

文档评论(0)

坏小孩儿…… + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档