高性能网页抓取调度策略FengyunCaoDongmingJiang JaswinderPalSingh{fcao,dj,jps}@DepartmentofComputerScience,PrincetonUniversityPrinceton,NJ08540,USA摘要网络爬虫是搜索引擎、数据挖掘等互联网应用的重要组成部分。对Web页面下载调度是爬虫的一个重要方面。以前基于Web抓取的研究侧重于优化爬行速度和下载网页的质量。虽然这两个指标是重要的,但若只考虑其中之一是不够的,也许会使整个抓取过程出现偏差。本文探讨了抓取调度的设计准则,以平衡性能和质量为目的并优化全网抓取的效率。我们设计了一个网络高效的调度框架,并用它来评估各种调度策略。我们还定义了一个新的调度算法,将网络性能和网页质量纳入调度决策。实际的实验清楚地证明了两级调度方案的有效性,以及新算法对于整体爬行效率的提高作用。实验还表明,爬行调度设计总能根据对应用性质有充分的了解而进行优化。1. 引言网络爬虫是搜索引擎,数据挖掘等互联网应用的重要组成部分。递归下载网页入本地存储,如图1中的操作可以被简单地描述为以下四个步骤:a. 取一组种子URL作为首要任务的URL。b. 从URL集合中选取一个URL,并从网上下载页面。c. 提取网页中的超链接,如果URL符合要求,则将其添加到URL任务集合中。d. 重复步骤b和c,直到URL
您可能关注的文档
最近下载
- 伤寒论智慧树知到课后章节答案2023年下湖北中医药大学.docx VIP
- 原材料日常核算.doc VIP
- 电大财务大数据分析编程作业3.docx VIP
- 1995年全国高中化学竞赛试题.pdf VIP
- 人工智能助力教学:生成式AI在高中物理课堂的推广与应用探索教学研究课题报告.docx
- 小月月故事完整版--截至目前网上最完整最完整版本.doc VIP
- 基于MATLAB的电力系统潮流计算课程设计(论文)电气工程及自动化.docx VIP
- 2024年江苏省苏州市中考物理试卷含答案.pptx VIP
- 智慧的秘密(重庆大学)中国大学MOOC慕课 章节测验期末考试答案.docx VIP
- 农产品产前质量安全控制及应急技术标准研究”课题申请指南.doc VIP
原创力文档

文档评论(0)