网站大量收购独家精品文档,联系QQ:2885784924

高性能网页抓取调度策略.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

高性能网页抓取调度策略

FengyunCaoDongmingJiangJaswinderPalSingh

{fcao,dj,jps}@

DepartmentofComputerScience,PrincetonUniversity

Princeton,NJ08540,USA

摘要

网络爬虫是搜索引擎、数据挖掘等互联网应用的重要组成部分。对Web页面下载调度是爬虫的

一个重要方面。以前基于Web抓取的研究侧重于优化爬行速度和下载网页的质量。虽然这两个指标

是重要的,但若只考虑其中之一是不够的,也许会使整个抓取过程出现偏差。本文探讨了抓取调度

的设计准则,以平衡性能和质量为目的并优化全网抓取的效率。我们设计了一个网络高效的调度框

架,并用它来评估各种调度策略。我们还定义了一个新的调度算法,将网络性能和网页质量纳入调

度决策。实际的实验清楚地证明了两级调度方案的有效性,以及新算法对于整体爬行效率的提高作

用。实验还表明,爬行调度设计总能根据对应用性质有充分的了解而进行优化。

1.引言

网络爬虫是搜索引擎,数据挖掘等互联网应用的重要组成部分。递归下载网页入本地存储,如

图1中的操作可以被简单地描述为以下四个步骤:

a.取一组种子URL作为首要任务的URL。

b.从URL集合中选取一个URL,并从网上下载页面。

c.提取网页中的超链接,如果URL符合要求,则将其添加到URL任务集合中。

d.重复步骤b和c,直到URL任务集合成为空或应用程序停止。

抓取调度策略就是要确定URL任务序列的顺序。给定时间窗T,不同的调度策略在T之内将抓

取到完全不同的页面集合。

图1.网络爬虫的运行模式。

(控制流由实线表示,数据流由虚线表示)。

由于万维网的爆炸式增长,抓取一个有效的哪怕是具有显著特点的页面也变得非常有挑战性:

各大搜索引擎抓取十亿网页的典型时间是一个多星期[14][15];与此同时,大量的新的页面被创建,

而许多已抓取的网页已经变更[2][9]。因此,网络爬虫只能访问那些早期被调度的页面。

在本文中,我们定义一个网络爬虫的整体效率为有限的时间内抓取的页面总的内容。基于上述

原因,这个指标是非常重要的并具有普遍性。为了实现整体效率,爬虫面临着两大挑战:它应该以

较高的速度下载网页,并且还选择性地优先抓取最有价值的网页。我们将它们称为性能指标和质量

指标。这些指标大多数时候是被独立分开地研究的。

虽然这两个指标很重要,但若仅独立地考虑其中一方面则可能导致极大的偏差。例如,若只考

虑性能指标,则可能导致爬虫拥有良好的连接速度却只能抓取到大量无用网页,而一味考虑爬行质

量则可能因为偶然的几个高质量但速度极低网页而阻塞整个进程。这些情况从全局效率的角度来看

都是不可接受的。

在本文中,我们将探讨网络抓取调度的设计准则,优化了全局抓取的效率。在下一节,我们简

要回顾一下网页检索相关的研究工作。在第3节中,我们提出了一种两级调度架构。在第4节中,

我们定义了三种调度算法,分别表示广度优先调度、性能优先调度和质量优先调度。我们还设计了

一个新的全局策略,称为基于抓取能力调度,其同时考虑了性能和质量两方面的影响。我们实现了

一个两级调度策略的网络爬虫,并对其进行了实验。在第5节,我们提出了实验结果和分析,证明

了该算法在相应的度量下能有效提高抓取效率。事实上,新策略的提出,比以往任何算法都更有效

地提高了总体效率。最后在第6节我们得出了结论并提出了未来的研究方向。

2.相关工作

关于Web抓取的文献大致可以分为两类:

各大搜索引擎[4][15]设计的可以在单位时间内下载大量的页面的高性能爬虫。虽然形如

PageRank[4][21]等网页排名网站对于搜索程序是非常重要的,但目前尚不清楚它们是否对搜索引擎

的抓取有作用,以及如果有,是怎样的作用。

其他的研究工作主要集中在网页的调度方面(下载这些页面之前,他们通过在抓取任务列表中

的网址表示),通过它们的质量排名来进行:网页对于程序更有价值的排名较高,并且先于那些价

值较低的网页被

您可能关注的文档

文档评论(0)

智洲云帆 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档