- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络爬虫技术在云平台上实现与应用
网络爬虫技术在云平台上实现与应用
[摘 要]在互联网技术不断发展的推动作用下,人们获取信息的途径已经由原有的纸质材料和新闻媒体向网络化发展,而网络技术在各个领域的应用也表现出良好的态势,致使我国进入信息化时代,社会各类生产活动产生大量的数据信息,这为数据信息的处理和整合带来很大困难。而云平台技术的提出有效解决了大数据信息的处理和储存难题,网络爬虫技术在云平台中的应用更是实现了网页信息的快速获取,有效提升了云平台的整体性能,文中就针对网络爬虫技术在云平台上的实现与应用做出进一步探讨。
[关键词]网络爬虫;云平台;应用
中图分类号:TP965 文献标识码:A 文章编号:1009-914X(2018)12-0203-02
一、网络爬虫技术
1、网络爬虫基本结构
网络爬虫的主要作用是对互联网络中的一些信息程序进行手机和获取,是作为一种数据收集工具而存在。在浏览和使用互联网网页时,可以将其看成一个整体图,图中被分割成多个小图,每个小图代表一个节点,即一个网页,点击任意图进入之后就会进入一个新的网址,这与我们平时使用的超链接是相同的概念,可通过一个网页访问多个新网页,指导点击图片无关联网页位置,是一整个循环的过程。为此,网络爬虫在最初是以一个URL作为起始点,在进入新的网页之后又生成了新的URL队列,这一阶段不断重复的过程就是网络爬虫获取网络数据信息的过程。主要结构如图1所示:
2、网络爬虫分类
网络爬虫技术因具备较好的获取数据能力在互联网络中的应用较为广泛,并且表现出良好的适应能力,可以适用于不同的场景和网络环境,就网络爬虫在不同场景中的应用,我们可以将其细分为三类,下面就针对这三种网络爬虫技术的应用进行简要分析:
(1)批量型爬虫。这类爬虫技术需要优先设定需要获取网页和目标的范围,之后才开始执行爬虫操作,当发现预先设定好的网页范围时即会停止爬虫操作对全部相关网页信息进行收集和获取。设置不同的网页数据获取范围就意味着爬虫任务不同,爬虫会根据预先设定好的网页数据目标和范围执行爬虫任务,也就是说爬虫获取网页的数量和深度与设定的任务息息相关。
(2)垂直型爬虫。这类爬虫技术注重的是对特定网页和信息的获取,会按照搜索的内容筛选出与之相关的部分信息,这样即提升了网络运行的效率,还有效降低了资源浪费,获取到的信息也更加准确,省去用户自行筛选的步骤。这也是与普通爬虫技术的不同之处。
(3)增量型爬虫。增量型爬虫与批量型爬虫技术虽然都是对网络信息的大规模获取,但是在执行爬虫操作时还存在本质上的差别,批量型爬虫技术是一次性获取大量网页信息。而增量型爬虫是针对不断变换和更新的网页信息来设计的,可以在特定的时间内对已经获取完成的网页信息进行更新,实现了对最新网页信息的同步显示。增量型爬虫技术是不断更新已经获取网页信息的过程。
3、分布式网络爬虫架构
针对大量的爬虫任务,可以选择使用多台计算机工作操作的信息获取的形式来提升网页信息的获取效率,可以将任务分成多个部分,每台计算机作为一个单独的爬虫任务,最后将各个计算机获取到的信息进行整合即可快速完成爬虫任务。在实行分布式网络爬虫计划时,我们可以根据不同的通信方式将其细分成主从式、完全分布式和混合分布式三种架构。
(1)主从式。这种构建方式是通过设立一个中心节点来完成与各个阶段之间的通信工作。中心阶段的主要作用就是针对各个节点之间的运行状态和获取信息进行集中处理,并且宏观调控各个节点的运行轨迹。在实际运行的过程中,中心节点会向各个节点分配获取的URL,各个节点按照中心点所分配的URL重新获取新的URL,将获取的URL重新提交至中心点集中处理。这种运行模式下,各个节点之间不会产生直接联系,均是与中心点进行直接通信,并完成其下达的抓取指令。这种架构模式虽然便于管理和任务分配,但是所有操作均需要通过中心节点的调试,执行爬虫任务时过于依赖中心节点,这样就会为中心节点的运行带来很大负担,致使整体爬虫技术的性能降低。主从式结构如图2所示:
(2)完全分布式。这种分布形式与主从式完全不同,也没有中心节点和爬行节点之分,所有节点均处于一个层次,在获取网页信息的同时还需要完成与其他节点之间的通信工作。即在执行爬虫任务的过程中各个节点即需要担负爬虫系统的抓取信息任务,还需要完成各个节点之间的通信,承担调度的职能。这种运行模式下,必须保证节点之间两两相通,通过各自的信息传递来完善爬虫任务的调度工作,此种方式下,每个节点中都会显示上一节点的URL队列。为此,在执行爬虫任务时,当网页中含有节点URL队列所需的内容将之间进行获取,而不选在本节点的URL队列内容,将通过节点之间的通信功能,将URL队列输送到指定的节点进行信息抓取。
在对不属于本节点
文档评论(0)