- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
高性能网页抓取调度策略
Fengyun Cao Dongming Jiang Jaswinder Pal Singh
{fcao, dj, jps}@
Department of Computer Science, Princeton University
Princeton, NJ 08540, USA
摘要
网络爬虫是搜索引擎、数据挖掘等互联网应用的重要组成部分。对Web页面下载调度是爬虫的一个重要方面。以前基于Web抓取的研究侧重于优化爬行速度和下载网页的质量。虽然这两个指标是重要的,但若只考虑其中之一是不够的,也许会使整个抓取过程出现偏差。本文探讨了抓取调度的设计准则,以平衡性能和质量为目的并优化全网抓取的效率。我们设计了一个网络高效的调度框架,并用它来评估各种调度策略。我们还定义了一个新的调度算法,将网络性能和网页质量纳入调度决策。实际的实验清楚地证明了两级调度方案的有效性,以及新算法对于整体爬行效率的提高作用。实验还表明,爬行调度设计总能根据对应用性质有充分的了解而进行优化。
引言
网络爬虫是搜索引擎,数据挖掘等互联网应用的重要组成部分。递归下载网页入本地存储,如图1中的操作可以被简单地描述为以下四个步骤:
取一组种子URL作为首要任务的URL。
从URL集合中选取一个URL,并从网上下载页面。
提取网页中的超链接,如果URL符合要求,则将其添加到URL任务集合中。
重复步骤b和c,直到URL任务集合成为空或应用程序停止。
抓取调度策略就是要确定URL任务序列的顺序。给定时间窗T,不同的调度策略在T之内将抓取到完全不同的页面集合。
图1. 网络爬虫的运行模式。
(控制流由实线表示,数据流由虚线表示)。
由于万维网的爆炸式增长,抓取一个有效的哪怕是具有显著特点的页面也变得非常有挑战性:各大搜索引擎抓取十亿网页的典型时间是一个多星期[14][15];与此同时,大量的新的页面被创建,而许多已抓取的网页已经变更[2][9]。因此,网络爬虫只能访问那些早期被调度的页面。
在本文中,我们定义一个网络爬虫的整体效率为有限的时间内抓取的页面总的内容。基于上述原因,这个指标是非常重要的并具有普遍性。为了实现整体效率,爬虫面临着两大挑战:它应该以较高的速度下载网页,并且还选择性地优先抓取最有价值的网页。我们将它们称为性能指标和质量指标。这些指标大多数时候是被独立分开地研究的。
虽然这两个指标很重要,但若仅独立地考虑其中一方面则可能导致极大的偏差。例如,若只考虑性能指标,则可能导致爬虫拥有良好的连接速度却只能抓取到大量无用网页,而一味考虑爬行质量则可能因为偶然的几个高质量但速度极低网页而阻塞整个进程。这些情况从全局效率的角度来看都是不可接受的。
在本文中,我们将探讨网络抓取调度的设计准则,优化了全局抓取的效率。在下一节,我们简要回顾一下网页检索相关的研究工作。在第3节中,我们提出了一种两级调度架构。在第4节中,我们定义了三种调度算法,分别表示广度优先调度、性能优先调度和质量优先调度。我们还设计了一个新的全局策略,称为基于抓取能力调度,其同时考虑了性能和质量两方面的影响。我们实现了一个两级调度策略的网络爬虫,并对其进行了实验。在第5节,我们提出了实验结果和分析,证明了该算法在相应的度量下能有效提高抓取效率。事实上,新策略的提出,比以往任何算法都更有效地提高了总体效率。最后在第6节我们得出了结论并提出了未来的研究方向。
相关工作
关于Web抓取的文献大致可以分为两类:
各大搜索引擎[4] [15]设计的可以在单位时间内下载大量的页面的高性能爬虫。虽然形如PageRank [4] [21]等网页排名网站对于搜索程序是非常重要的,但目前尚不清楚它们是否对搜索引擎的抓取有作用,以及如果有,是怎样的作用。
其他的研究工作主要集中在网页的调度方面(下载这些页面之前,他们通过在抓取任务列表中的网址表示),通过它们的质量排名来进行:网页对于程序更有价值的排名较高,并且先于那些价值较低的网页被下载。网页质量的定义通过特定应用程序的需求来计算。在文献[6]中,聚焦爬虫寻求出相关的一组预定义主题的页面。在文献[8]中,由超链接引用的网页被认为是重要的,并给予较高的排名。其他网页的质量测量包括新鲜页[9] [10],以及用户定义的任意谓词[1]。文献[11]研究了一个URL排序的多个并行的抓取过程。虽然实验表明这些研究在早期对于下载高质量的网页非常有效,但目前还不清楚他们在时间限制下表现如何,以及是否结合了页面的质量优先等级来进一步提高抓取的全局效率。事实上,许多实验只是在本地的Web页面集合进行了“虚拟抓取”的模拟,因此,我们无法知道这些算法在实际的应用中会有怎样的表现。
结构设计
在本节中,我们提出我们的调度框架设计。我们首先回顾一下网络协议的功能,以
您可能关注的文档
- 2016年苏教版五年级数学下册资料.doc
- 2016年皖北协作区高三年级联考资料.docx
- 2016年危重症专业组工作计划资料.doc
- 2016年伟岸地产成控部工作明年工作计划资料.docx
- 2016年乌鲁木齐会计从业资格考试-财经法规资料.doc
- 2016年现行工程建设国家有效标准规范清单资料.doc
- 2016年小升初应用题,升名校必做资料.doc
- 2016年小学数学教研工作计划资料.doc
- 2016年新版人教版八年级英语下册句型·短语资料.doc
- 2016年新版湘少版六年级英语下册全册资料.doc
- internal for instructor-lesson plans partner course讲师课程计划合作伙伴.pdf
- 通过销售给客户来报废资产fifa abad国际足联世纪.pdf
- 内省了解javabean加强.pdf
- 测试无线终端开发认证组技术战略telus要求范围独立发布vstandalone terminal specification.pdf
- 计算书西区信息.pdf
- 文案详解the pelican kragi鹈鹕岩.pdf
- 综合平行证明.pdf
- 23ase study电子商务概要.pdf
- 文稿课件c o m qlik sense成果.pdf
- jimmy choo ss15男士系列鞋履mens collection男装.pdf
最近下载
- 材料电子及中子分析技术第8章 电子背散射衍射ppt.pptx VIP
- 人教版小学数学三年级下册全册教案(2024年春季修订).pdf
- 04 缤纷世界(2023初中英语中考时文阅读+完型填空+任务型阅读)(解析版).docx VIP
- ANSYS_Fluent_UDF_Manual(自定义UDF帮助文件).pdf VIP
- 你来比划我来猜(可选题组完美版).ppt
- 03 芸芸众生(2023初中英语中考时文阅读+完型填空+任务型阅读)(解析版).docx VIP
- 某EPC项目技术标投标文件.pdf
- 02 环保天地(2023初中英语中考时文阅读+完型填空+任务型阅读)(解析版).docx VIP
- DB33 1239-2021 建设工程配建5G移动通信基础设施技术标准.docx VIP
- 财政绩效评价方案.docx
文档评论(0)