- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE
PAGE 1
《Python网络数据采集》第 1 章
《Python网络数据采集》7月8号-7月10号,这三天将该书精读一遍,脑海中有了一个爬虫大体框架后,对于后续学习将越发有全局感。此前,曾实验看视频学习,但是一个视频基本2小时,所有拿下需要30多个视频,如此看来天天学习一个视频时光都是十分吃力的,且都属于被动输入,尤其是在早上学习视频简单犯困。故此,准时调节学习策略,采纳电子书+廖雪峰网页教程+实操+Google+询问程序员+每日总结归纳的主动学习模式,如此越发高效,越发简单把控进度!学习爬虫,一者爱好,致力于借此爱好驱动力把握编程思维,进而让自己有能够将主意做成产品的的技能;二者,为了一个近在眼前的爬虫商业化机遇,更希翼借此为自己增强一个收入来源。1.爬虫常见得异样及处理办法,用一个容易得爬虫代码说明,核心学问点:(1)异样一:网页在服务器上不存在(或者猎取页面时,浮现错误)。该异样发生时,程序会返回HTTP错误,如404PageNotFoundquot;500InternetServerErrorquot;等。(2)异样二:服务器不存在(即,链接打不开,或者URL链接写错了),这时,urlopen会返回一个None对象。Ps:有的时候,网页已经从服务器胜利猎取,假如网页上的内容并非彻低是我们期望的那样,也会浮现异样。1fromurllib.requestimporturlopen2frombs4importBeautifulSoup34try:5html=urlopen(quot;/pages/page1.htmlquot;)6print(html.read())7检测:网页在服务器上是否存在(或者猎取页面时是否浮现错误)8exceptHTTPErrorase:9print(e)10else:11bsobj=BeautifulSoup(html.read())12检测:服务器是否存在(就是说链接能否打开,或者是URL链接写错了)13ifhtmlisNone:14print(quot;URLisnotfoundquot;)15else:16print(bsobj.h1)17print(bsobj.title)1以上代码更改为检测异样更全面、可读性更强的代码,如下:2fromurllib.requestimporturlopen3frombs4importBeautifulSoup45defgetTitle(url):6try:7html=urlopen(url)8exceptHTTPErrorase:9returnNone10try:11bsobj=BeautifulSoup(html.read())12title=bsobj.body.h113exceptAttributeErrorase:14return15returntitle1617title1=getTitle(quot;/pages/page1.htmlquot;)18iftitle1==None:19print(quot;Titlecouldnotbefoundquot;)20else:21print(title1)该部分代码执行时,浮现报错:indentationerror:unexpectedindentprocessfinishedwithexitcode1Google发觉,Tag和Space不能混合用法。原始第五行,def被tab缩进,后删除该tab缩进,问题解决。该问题详细缘由,仍需要认真查明!!!
您可能关注的文档
- 《html》Js操作数据转换.docx
- 《html5》html5交互元素的使用.docx
- 《html5》如何检测浏览器是否支持HTML5.docx
- 《HTML5从入门到精通》这本书知识分享.docx
- 《HTML5与CSS3基础教程》读书笔记.docx
- 《前端入门到进阶》HTML基础,初识HTML.docx
- 「HTML」什么是 HTML 中的 div 标签.docx
- 「Web前端开发进阶篇」CSS3 动画.docx
- 「Web前端开发进阶篇」CSS3学习(一).docx
- 「前端 Zero系列」PS切图.docx
- 专题06 经济体制(我国的社会主义市场经济体制)-五年(2020-2024)高考政治真题分类汇编(解析版).docx
- 专题11 世界多极化与经济全球化-5年(2020-2024)高考1年模拟政治真题分类汇编(解析版).docx
- 专题03 经济发展与社会进步-5年(2020-2024)高考1年模拟政治真题分类汇编(浙江专用)(解析版).docx
- 专题09 文化传承与文化创新-5年(2020-2024)高考1年模拟政治真题分类汇编(北京专用)(原卷版).docx
- 5年(2020-2024)高考政治真题分类汇编专题08 社会进步(我国的个人收入分配与社会保障)(原卷版).docx
- 专题07 探索世界与把握规律-5年(2020-2024)高考1年模拟政治真题分类汇编(解析版).docx
- 5年(2020-2024)高考政治真题分类汇编专题06 经济体制(我国的社会主义市场经济体制)(原卷版).docx
- 专题11 全面依法治国(治国理政的基本方式、法治中国建设、全面推进依法治国的基本要求)-五年(2020-2024)高考政治真题分类汇编(解析版).docx
- 专题17 区域联系与区域协调发展-【好题汇编】十年(2015-2024)高考地理真题分类汇编(解析版).docx
- 专题01 中国特色社会主义-5年(2020-2024)高考1年模拟政治真题分类汇编(原卷版).docx
文档评论(0)