《Python网络数据采集》第 1 章.docx

下载文档

5
0
约1.62千字
约 4页
2021-11-05 发布于广东
举报
版权申诉
保障服务

《Python网络数据采集》第 1 章.docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

PAGE PAGE 1 《Python网络数据采集》第 1 章《Python网络数据采集》7月8号-7月10号，这三天将该书精读一遍，脑海中有了一个爬虫大体框架后，对于后续学习将越发有全局感。此前，曾实验看视频学习，但是一个视频基本2小时，所有拿下需要30多个视频，如此看来天天学习一个视频时光都是十分吃力的，且都属于被动输入，尤其是在早上学习视频简单犯困。故此，准时调节学习策略，采纳电子书+廖雪峰网页教程+实操+Google+询问程序员+每日总结归纳的主动学习模式，如此越发高效，越发简单把控进度！学习爬虫，一者爱好，致力于借此爱好驱动力把握编程思维，进而让自己有能够将主意做成产品的的技能；二者，为了一个近在眼前的爬虫商业化机遇，更希翼借此为自己增强一个收入来源。1.爬虫常见得异样及处理办法，用一个容易得爬虫代码说明，核心学问点：（1）异样一：网页在服务器上不存在（或者猎取页面时，浮现错误）。该异样发生时，程序会返回HTTP错误，如404PageNotFoundquot;500InternetServerErrorquot;等。（2）异样二：服务器不存在（即，链接打不开，或者URL链接写错了），这时，urlopen会返回一个None对象。Ps：有的时候，网页已经从服务器胜利猎取，假如网页上的内容并非彻低是我们期望的那样，也会浮现异样。1fromurllib.requestimporturlopen2frombs4importBeautifulSoup34try:5html=urlopen(quot;/pages/page1.htmlquot;)6print(html.read())7检测：网页在服务器上是否存在（或者猎取页面时是否浮现错误）8exceptHTTPErrorase:9print(e)10else:11bsobj=BeautifulSoup(html.read())12检测：服务器是否存在（就是说链接能否打开，或者是URL链接写错了）13ifhtmlisNone:14print(quot;URLisnotfoundquot;)15else:16print(bsobj.h1)17print(bsobj.title)1以上代码更改为检测异样更全面、可读性更强的代码，如下：2fromurllib.requestimporturlopen3frombs4importBeautifulSoup45defgetTitle(url):6try:7html=urlopen(url)8exceptHTTPErrorase:9returnNone10try:11bsobj=BeautifulSoup(html.read())12title=bsobj.body.h113exceptAttributeErrorase:14return15returntitle1617title1=getTitle(quot;/pages/page1.htmlquot;)18iftitle1==None:19print(quot;Titlecouldnotbefoundquot;)20else:21print(title1)该部分代码执行时，浮现报错：indentationerror:unexpectedindentprocessfinishedwithexitcode1Google发觉，Tag和Space不能混合用法。原始第五行，def被tab缩进，后删除该tab缩进，问题解决。该问题详细缘由，仍需要认真查明！！！