第6章 提升网络爬虫速度.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第6章 提升网络爬虫速度;学习目标/Target;学习目标/Target;章节概述/ Summary;目录/Contents;网路爬虫速度提升方案;;影响网络爬虫速度的因素主要是网络I/O操作,原因在于网络I/O操作的速度赶不上CPU的处理速度。网络I/O操作可以理解为在网络协议的支持下,一个主机通过网络与其他主机进行数据传输的过程。例如下载图片就是一个网络I/O操作。试想一下,网络爬虫正在执行下载大量图片的任务,它在下载图片的过程中会一直处于阻塞状态。这会导致CPU当前处于空闲状态,直到下载完图片后才能让CPU调度其他??务。这就造成了CPU的浪费。 在Python中,提升网络爬虫程序运行速度主要有三种方案,分别是多进程、多线程和协程。;;;;6.1 网络爬虫速度提升方案;多进程适用于CPU密集型的代码,如循环处理、大量的密集并行计算等;多线程适用于I/O密集型的代码,如文件处理、网络交互等;协程适用于大量不需要CPU的操作(如网络I/O)。结合多线程、多进程和多协程的特点和用途,一般会选择多线程和协程技术开发网络爬虫程序。;多学一招;多线程爬虫;;6.2.1 多线程爬虫流程分析;6.2.1 多线程爬虫流程分析;;6.2.2 多线程爬虫实现技术;;;;;;6.2.2 多线程爬虫实现技术;;6.2.3 多线程爬虫基本示例;6.2.3 多线程爬虫基本示例;6.2.3 多线程爬虫基本示例;;6.2.4 多线程爬虫性能分析;6.2.4 多线程爬虫性能分析;6.2.4 多线程爬虫性能分析;协程爬虫;;6.3.1 协程爬虫流程分析;;;Python中提供了支持协程的内置库asyncio,该库经常会与第三方库aiohttp配合使用,以帮助开发人员快速实现协程爬虫。另外,我们也可以使用aiofiles库将爬虫解析完的数据实现异步写入。;;;;;;;;;多学一招;;以黑马程序员论坛网站为例,带领大家一起使用aiohttp、asyncio和aiofiles模块实现协程爬虫,并让协程爬虫采集Python技术交流版块中所有帖子的文章标题、文章作者、文章链接以及发布时间。;案例步骤;执行代码;;if __name__ == __main__: s_time =time.time() loop = asyncio.get_event_loop() # 创建事件循环 loop.run_until_complete(main()) e_time =time.time() print(f总用时:{e_time-s_time}秒);通过比较单线程爬虫和协程爬虫耗费的时长可知,在相同的条件下,协程爬虫的性能优于单线程爬虫的性能。;实践项目:采集黑马头条的评论列表;黑马头条是一款新闻资讯类项目,由用户端、自媒体端、管理后台端组成完整的业务闭环,通过大数据平台分析用户喜好,为用户精准推送资讯新闻。本节将使用多线程的知识开发一个多线程爬虫项目,采集黑马头条自媒体端指定页面范围的评论列表。;访问黑马头条自媒体端登录页面,使用默认的账号密码登录后,在左侧的菜单栏中选择“内容管理”→“评论列表”进入评论列表页面。;首先判断待提取的数据是否为动态加载的,如果数据为动态加载的,那么我们可以先尝试查找数据请求的URL;如果是静态加载的,那么我们需要通过Xpath进行提取网页数据。在当前页面中单击鼠标右键,选择查看网页源代码,搜索不到任何关于评论的数据,由此可以推断出待提取的数据是动态加载的。接下来,尝试查找数据请求的URL。通过浏览器的开发者工具,我们找到了评论列表页面的请求URL及其参数。;URL参数中的page表示当前的页码,per_page表示每页显示的数据条数,response_type表示响应的类型。在开发者窗口预览基于AJAX技术请求的响应数据。;;;;;本章小结

文档评论(0)

扬州牧 + 关注
实名认证
文档贡献者

资料收集自互联网,若有侵权请联系删除,谢谢~

版权声明书
用户编号:8036120077000004

1亿VIP精品文档

相关文档